Pulsas el atajo, empiezas una frase y la pantalla la muestra arrancando desde la segunda palabra. “…mándame el archivo cuando puedas” en lugar de “oye, ¿puedes mandarme el archivo cuando puedas?”. Pierdes la primera palabra, a veces las dos o tres primeras. Luego vuelves y las escribes a mano, lo cual desvirtúa bastante el objetivo de hablar en vez de teclear.
Esta es una de las quejas más comunes sobre el dictado en 2026. Los foros de soporte de Apple tienen varios hilos separados sobre el tema. Los usuarios de Windows también lo sufren. Y también los usuarios de apps de terceros, sobre todo después de una actualización. La buena noticia: la causa se entiende bien, y una vez que sabes qué está pasando puedes sortearla o elegir una herramienta que no tenga el problema.
Es un problema de temporización, no del micrófono
El instinto es culpar al micrófono. La gente compra unos auriculares nuevos, cambia de Bluetooth a cable, trastea con los ajustes de entrada. Eso rara vez lo arregla, porque el micrófono normalmente no es el problema. Esto es lo que ocurre de verdad. Cuando activas el dictado, tres cosas tienen que alinearse antes de que tu voz pueda grabarse:
- La app cambia al modo de grabación.
- La sesión del micrófono se despierta y empieza a entregar audio.
- En algunos sistemas, el sistema operativo cede la prioridad de audio a la app. Nada de eso es instantáneo. Hay una brecha — normalmente una fracción de segundo, a veces más — entre el momento en que pulsaste la tecla y el momento en que se está capturando audio de verdad. Si empiezas a hablar dentro de esa brecha, tu primera palabra ocurre mientras todavía no hay nada escuchando. No se transcribe mal. Simplemente desaparece. Por eso un micrófono nuevo no ayuda. El hardware de audio funciona perfectamente. La palabra nunca llegó al grabador en primer lugar.
Por qué empeora con el tiempo (el caso de Mac)
Mucha gente nota que el problema va apareciendo poco a poco: iba bien cuando instalaron la app y, semanas después, la primera palabra empezó a desaparecer. Hay una razón concreta para esto, y se da sobre todo en Mac. Para que la activación se sienta instantánea, muchas apps mantienen la sesión del micrófono funcionando en segundo plano entre dictados en lugar de abrir una nueva cada vez. Eso funciona bien al principio. Pero la sesión en segundo plano puede acumular latencia con el tiempo, sobre todo si otra app, como Zoom, Teams o una pestaña del navegador, agarra el micrófono brevemente. Cuando eso ocurre, macOS reordena las prioridades de audio, y devolver el control a la app de dictado tarda un instante más de lo que solía. Así que para cuando pulsas el atajo, la app cree que el micrófono está listo, pero el sistema operativo todavía está devolviendo el control. La app arranca su temporizador, tú empiezas a hablar y tu primera palabra cae en la brecha del traspaso. Por eso cerrar y reabrir la app lo soluciona: un arranque limpio crea una sesión de audio nueva sin latencia acumulada. No deberías tener que hacerlo, pero explica el patrón.
En Windows: la misma brecha, otra fontanería
La historia de la latencia de la sesión caliente de arriba es más visible en Mac, pero el problema de fondo no es exclusivo de Mac. La causa raíz — una brecha entre activar el dictado y capturar audio de verdad — existe también en Windows. Windows gestiona las sesiones del micrófono de forma distinta a macOS, así que la manera exacta en que se acumula la latencia no es idéntica, pero el síntoma es el mismo: pulsas la tecla, empiezas a hablar, pierdes la primera palabra. Aparece tanto en Windows Voice Typing (Win+H) como en apps de dictado de terceros. Se aplican las mismas soluciones provisionales: espera a una señal de listo real, arranca con un sonido de descarte y reinicia la app o vuelve a seleccionar el micrófono si la brecha aparece durante una sesión larga. Y se aplica la misma solución real: la app no debería presentarse como grabando hasta que la captura haya empezado de verdad.
Qué puedes hacer ahora mismo
Si estás atascado con una app que hace esto, tres soluciones provisionales ayudan:
- Espera a la señal de listo antes de hablar. Si la app reproduce un sonido o cambia de color cuando está lista, trátalo como una luz verde y no empieces hasta que lo veas o lo oigas. El medio segundo de paciencia te ahorra el reescribir.
- Empieza con una sílaba de descarte. Di “eh” o “vale” primero, y luego tu frase real. La app se come el sonido de descarte en la brecha de activación, y tus palabras de verdad llegan limpias. Un poco ridículo, pero funciona.
- Reinicia la sesión cuando aparezca la latencia. Si llevas horas dictando y la primera palabra empieza a esfumarse, cierra y reabre la app, o cambia el micrófono en los ajustes. Cualquiera de las dos opciones fuerza una sesión de audio nueva y restaura la respuesta instantánea. Estos son parches, no soluciones. La solución real tiene que venir de la app.
La solución real: no afirmes estar “listo” antes de estarlo
Todo el problema se reduce a una decisión de diseño: ¿cuándo te dice la app que está escuchando? Muchas apps saltan directamente a una animación de grabación en el instante en que pulsas la tecla. La píldora se pone roja, la onda empieza a bailar, todo dice “adelante”. Pero bajo el capó, la captura de audio aún no ha empezado de verdad. La animación está reaccionando a tu pulsación, no a la grabación real. Así que confías en la luz verde, empiezas a hablar y pierdes la primera palabra igualmente porque la luz mentía. La solución es que la app separe dos estados:
- Preparándose — “Oí tu pulsación, me estoy preparando”. Una señal neutra que no significa que la grabación haya empezado.
- Grabando — se muestra solo una vez que el flujo de audio está capturando de verdad, confirmado por el propio grabador, no asumido a partir de la pulsación del botón. Cuando una app hace esto, el momento en que te dice “adelante” es el momento en que de verdad está capturando. Espera a esa señal y tu primera palabra siempre llega, porque no queda ninguna brecha entre la señal y la captura real.
Cómo lo gestiona SnailText
Este es exactamente el fallo que SnailText fue construido para evitar, así que merece la pena detallar el diseño como ejemplo concreto de la solución de arriba. En el instante en que pulsas el atajo, SnailText muestra un estado de preparándose distinto: una animación neutra, sin color rojo de grabación, sin onda. Significa “preparándome”, no “grabando ahora”. La app no cambia al estado de grabación, ni trata ningún audio como parte de tu transcripción, hasta que el flujo de audio ha empezado a capturar de verdad. Ese cambio lo dispara el grabador confirmando que la captura ha empezado, no la pulsación de la tecla. Como nada cuenta como tu habla hasta que se confirma la captura real, las palabras iniciales de tu frase no se pierden en la brecha de activación. No hay ninguna ventana en la que la app parezca lista sin estarlo. Además de eso, hay un sonido de listo opcional. Cuando la grabación empieza de verdad, reproduce una señal corta, así que obtienes una luz verde clara y honesta para empezar a hablar. Funciona en local como todo lo demás en la app, y es el tipo de señal en la que de verdad puedes confiar, porque se dispara con la captura real, no con la pulsación del botón. Para ser claros: ninguna app puede prometer que el sistema operativo nunca introducirá un tropiezo, y una conexión Bluetooth inestable todavía puede recortar una sílaba en cualquier herramienta. Pero el caso común — la primera palabra que se esfuma porque la app dijo “adelante” antes de hacerlo en serio — es un problema de diseño, y es uno que tiene solución.
La versión corta
Tu dictado se come la primera palabra porque hay una brecha entre pulsar la tecla y capturar audio de verdad, y estás hablando dentro de esa brecha. Es un problema de temporización, no de tu micrófono. Espera a una señal de listo real, usa una sílaba de descarte o reinicia cuando se acumule la latencia. Y si estás cansado de ir parcheándolo, elige una app que no te diga que está grabando hasta que de verdad lo está — descarga SnailText y el estado de grabación solo se dispara con la captura real.