Por qué Apple Dictation no es suficiente para el dictado diario
Apple Dictation funciona. Corre en el dispositivo en cualquier Mac con chip M1 o posterior, la transcripción es aceptable para frases cortas y no cuesta nada. Para un mensaje rápido o una búsqueda de una línea, cumple.
Deja de ser suficiente en cuanto intentas usarlo para trabajo real. La documentación de Apple indica que Dictation no tiene tiempo límite estricto en Apple Silicon — pero se detiene automáticamente tras 30 segundos de silencio detectado, lo que incluye las pausas naturales mientras piensas. Reactivar el atajo dos o tres veces en un mismo email se convierte en rutina.
El segundo problema es la precisión en contenido técnico. Apple Dictation va bien con habla clara y general, y visiblemente peor con código, jerga, inglés con acento y vocabulario específico de dominio. Las herramientas de terceros que ejecutan modelos Whisper son materialmente mejores.
El tercero es el límite de integración. Apple Dictation funciona dentro de las apps de Apple y la mayoría de campos de texto nativos de macOS. No tiene un flujo consistente en web apps, apps Electron ni terminales. Acabas desactivándolo en la mitad de los lugares donde querrías usarlo.
Dictado en Apple Silicon: por qué Whisper va rápido en los chips M
El motor whisper.cpp, que impulsa la mayoría de apps modernas de dictado en Mac incluyendo la nuestra, compila con aceleración GPU Metal por defecto en Apple Silicon. Metal es la API GPU de Apple y, en los chips M, se asienta directamente sobre el pool de memoria unificada. Los pesos del modelo y el buffer de audio viven en la misma memoria física que el código de tu aplicación — sin copias de memoria entre CPU y GPU.
Ese único detalle arquitectónico explica por qué los Mac con chip M ejecutan modelos Whisper más grandes más rápido que hardware Intel equivalente, a menudo en tiempo real o mejor. En Windows, la misma clase de modelo normalmente requiere una GPU discreta NVIDIA para alcanzar una latencia comparable.
Para datos de latencia por chip de M1 a M4 con Whisper Small / Medium / Large v3, consulta nuestro análisis en profundidad de dictado para Mac. SnailText también hace streaming de inferencia en frases cerradas mientras hablas, así que la espera real en el cursor se siente más corta de lo que sugiere el tiempo de pasada del modelo.
Voz a texto en Mac para código, documentos y trabajo clínico
El atajo es el mismo en todas las apps. Cmd+Shift+Space (configurable). Pulsas una vez, empieza la grabación. Pulsas de nuevo, el texto transcrito aparece en el cursor. Sin menú, sin barra de herramientas, sin cambio de foco. Consulta cómo funciona para el pipeline completo.
El diccionario personalizado (Pro) gestiona las palabras que Whisper aún no conoce — los nombres de tu stack, los de tus colegas, términos legales específicos de la jurisdicción, códigos DSM para clínicos. Añade un término una vez y SnailText sustituye la versión mal escuchada antes de llegar al campo de texto.
El audio nunca sale de tu Mac. El buffer permanece en RAM durante la grabación y se descarta en cuanto el texto está listo. Verificable en Little Snitch o Lulu — sin tráfico saliente durante el dictado. ¿En Windows? Consulta voz a texto en Windows.