Cómo funciona

Son tres pasos. Eso es todo.

Un atajo, un micrófono, un campo de texto. Todo lo demás está oculto hasta que realmente lo necesitas.

El flujo

Pulsa, habla, pega.

01

Pulsa el atajo

⌥ Space

Por defecto: ⌥ Space en Mac, Ctrl Space en Windows. Personalizable en Ajustes. La pastilla en la parte inferior de la pantalla se despierta — primero color neutro, luego se pone roja al empezar la grabación. Tu cursor se queda exactamente donde estabas escribiendo.
02

Habla con naturalidad

Habla como si le explicaras algo a un colega. No dictes la puntuación — ya distingue las comas, los puntos y los signos de interrogación a partir de tu habla. Los silencios largos se recortan automáticamente (eso lo hace nuestro VAD); los reinicios y los "eh" los corregirás en el mismo pase de edición que harías al teclear.
03

Suelta, pega

⌥ Space

Pulsa el atajo de nuevo. La pastilla se pone morada mientras transcribe — normalmente menos de un segundo con GPU, 1–3 segundos en una CPU moderna. Después aparece el texto. Donde estuviera tu cursor, las palabras que hayas dicho.

Tras bambalinas

Cómo funciona el dictado offline de verdad.

Los detalles técnicos, en lenguaje claro. Si te lo saltas — ese es el objetivo. Nada de esto cambia cómo usas la app.

01 — Motor

whisper.cpp ejecutándose en tu equipo

Usamos whisper.cpp, el port C++ open-source de Whisper de OpenAI. Funciona enteramente en tu CPU o GPU — sin conexión a internet una vez descargado el modelo. El audio se procesa en RAM y se descarta en cuanto tenemos el texto. Nada en disco, nada en un servidor.

whisper.cpp en GitHub →

02 — Silencio

Silero VAD recorta el silencio

La detección de actividad de voz (VAD) decide qué es habla y qué no antes de que Whisper lo vea. Sin VAD, Whisper alucina palabras del ruido de fondo — el clásico "thank you for watching" apareciendo de la nada. Silero VAD se ejecuta en milisegundos y corta los espacios silenciosos antes de que lleguen al modelo.

03 — Hardware

GPU cuando la tienes, CPU cuando no

En Windows usamos Vulkan; en Mac usamos Metal. Ambos se autodetectan y funcionan con la GPU que tengas — NVIDIA, AMD, Intel Arc, Apple Silicon. Sin drivers que instalar. Si tu equipo no tiene GPU utilizable, hacemos fallback a CPU. Los modelos compactos funcionan bien en una CPU normal en 1–3 segundos para frases cortas.

Want to go deeper? Read Offline dictation — voice typing without the cloud for the architectural argument, GDPR and HIPAA implications, and how to verify any dictation app is actually offline. For Mac specifics, see Dictation for Mac.

El segundo modelo

Después, un modelo de lenguaje lo pule.

El reconocimiento de voz te da una transcripción en bruto. Un segundo modelo, también local, la edita hasta dejarla lista para enviar. Ese segundo paso es lo que lo convierte en dictado con IA. Es una función Pro, en beta, y puedes desactivarla.

01 — Limpieza

Muletillas fuera, puntuación dentro

Un modelo Gemma compacto lee la transcripción y la ordena: elimina "eh" y "o sea", repara puntuación y mayúsculas, corrige fallos de gramática y pone bien los nombres de marcas (github pasa a GitHub). Se ejecuta en tu equipo, así que la transcripción nunca se sube como ocurre en las apps de dictado con IA en la nube.

Gemma en ai.google.dev →

02 — Perfiles

Cinco perfiles temáticos, el estilo que elijas

Elige un perfil según lo que dictes: General, Desarrollo e IT, Escritura, Negocios o Académico. El perfil de Desarrollo restaura identificadores de código en tu convención (snake_case, camelCase, kebab-case, PascalCase), así "recording completed" pasa a recording_completed. Escritura preserva tu voz y omite la reescritura de identificadores.

03 — Control

Conservador por defecto, desactivable

La limpieza está ajustada para preservar tu significado, no reescribirlo, y deja el texto en paz cuando ya está limpio. También puede cambiar el tono o traducir. ¿Prefieres las palabras exactas? Desactiva el paso y obtén voz a texto verbatim. El dictado con IA es un modo que activas, no un filtro al que estás atado.

¿Qué es el dictado con IA? →

Modos

Un atajo, múltiples personalidades.

Un modo es una combinación guardada: qué modelo, qué idioma, qué diccionario, qué snippets. Cambia entre ellos directamente desde la pastilla.

Código

Bloqueado en inglés. Diccionario cargado con kubectl, gRPC, async/await, los nombres de las APIs de tu equipo. Cero errores en la jerga técnica que usas a diario.

Redacción larga

Modelo más grande para mayor precisión. Diccionario cargado con nombres y términos de tu proyecto. Snippets listos para encabezados, callouts y frases recurrentes.

Slack rápido

Modelo compacto para respuesta instantánea. Snippets para tu plantilla de standup, tu plantilla de rechazo de reunión, tu firma /sig.

Los modos en sí (modelo + idioma) funcionan en todos los planes. El auto-reemplazo de diccionario y snippets son funciones Pro.

Diccionario y snippets Pro

Reemplaza y expande al vuelo.

El auto-reemplazo se ejecuta durante la transcripción en el plan Pro.

Diccionario

Correcciones a nivel de palabra

Dile a SnailText que "see plus plus" siempre debe ser C++. O que "k eight s" se expanda a k8s, no a "kates". Mapeos personalizados para jerga técnica, nombres de productos o nombres de compañeros que Whisper sigue escuchando mal. Respeta los límites de palabra y preserva mayúsculas. Sin necesidad de regex.

di "see plus plus"

→ C++

Snippets

Plantillas activadas por voz

Disparadores de voz que se expanden a textos más largos. Di "barra sig" y aparece tu firma de email completa. Di "barra standup" y aparece la plantilla del standup matutino. Las palabras-disparador no aparecen en el resultado final.

di "slash sig"

→ Best,
Pavel
—
Software Architect

Errores

Se va a equivocar en algo. Tú tienes el control.

Whisper es bueno. No es perfecto. Frases técnicas largas, nombres raros, jerga inusual — puede tropezar. Tres cosas ayudan.

Diccionario personalizado (Pro)

Añade tus palabras problemáticas una vez; dejan de ser errores. Vocabulario específico de tu stack, nombres de colegas, nombres en clave de proyectos — todo se añade una vez y se comporta para siempre. El auto-reemplazo se ejecuta en el plan Pro.

Modelos Pro más grandes

La curva de precisión es real — los modelos locales avanzados captan lo que los compactos pasan por alto, especialmente en idiomas distintos del inglés y en frases técnicas largas.

Edición manual tras pegar

El texto aparece en tu editor habitual — tu cursor, tu teclado, tus atajos de edición de siempre. Arregla lo que no te guste igual que arreglarías cualquier errata.

No hay auto-edición de IA entre tú y el texto. Lo que dijiste es lo que se pega.

Eso es todo

Eso es todo el producto.

Unos treinta segundos para instalar. Un par de minutos más para acostumbrarte al atajo. Después un atajo para el resto de tu vida.

Descargar para Mac O para Windows →

¿Aún no decides? Ver precios →