SnailText
ES

Dictado para Mac

Software de dictado para Mac: escritura por voz en cualquier app, sin nube

Pulsa un atajo. Habla. El texto aparece donde esté tu cursor. Funciona en Slack, Notion, VS Code, Mail, en cualquier sitio donde escribas. El audio se queda en tu Mac.

Por Evgenii Balabanov, fundador de SnailText · Publicado

La versión corta

El dictado para Mac (también llamado software de dictado para Mac o programa de dictado para Mac) significa voz a texto funcionando en local sobre Apple Silicon mediante el motor Whisper. El Dictado integrado de Apple no tiene un límite de duración fijo según la documentación de Apple Support, pero se detiene solo tras 30 segundos de silencio (las pausas para pensar cuentan) y solo funciona de forma fiable dentro de un subconjunto de apps. Las herramientas locales de terceros funcionan sin parar, admiten modelos Whisper más grandes con una calidad bastante mejor en contenido técnico y con acento, y procesan todo en el dispositivo usando la aceleración por GPU de Metal en los chips de la serie M. El hardware mínimo realista es el M1; en M3 y posteriores, Whisper Large v3 funciona a varios múltiplos del tiempo real. SnailText es una de las pocas apps con paridad de funciones entre Mac y Windows desde el primer día. Si has llegado aquí buscando voz a texto en Mac, nuestra página dedicada de voz a texto compara Apple Dictation con las alternativas basadas en Whisper en detalle.

Apple Dictation frente a SnailText, a nivel estructural

macOS incluye dictado integrado. Para un uso breve e informal dentro de Notas o Mensajes está bien. Para trabajo sostenido tiene límites estructurales que las herramientas de terceros existen para resolver. La tabla de abajo recoge diferencias a nivel de producto, no benchmarks de precisión; estos últimos los reservamos hasta que publiquemos una metodología reproducible.

Diferencias estructurales entre Apple Dictation y SnailText, mayo de 2026.
Función Apple Dictation SnailText
Duración de la grabación Se detiene tras 30 segundos de silencio según la documentación de Apple (sin límite de duración fijo) Ilimitada: funciona mientras mantengas el atajo pulsado o hasta que lo vuelvas a pulsar
Dónde funciona Apps nativas de Apple y un subconjunto de apps de terceros que se adhieren mediante la API de entrada de texto del sistema Cualquier campo de texto en cualquier app, mediante atajo global + pegado: Slack, VS Code, Cursor, Telegram, terminales, campos web
Tamaño del modelo Modelo compacto entrenado por Apple, no seleccionable por el usuario Elección entre Whisper Tiny y Large v3 (y Parakeet TDT en Pro): elige el tamaño que se ajuste a tu equilibrio entre precisión y latencia
Vocabulario personalizado No editable por el usuario más allá de lo que ya conocen los modelos de Apple Diccionario para nombres propios y nombres de producto; snippets para expandir texto repetitivo (Pro)
Atajo Fijo a Fn-Fn o al único modificador que elijas; la activación se cancela en muchas apps de terceros Option+Space global (configurable); no roba el foco a la app activa
Garantía de funcionamiento offline El "Dictado mejorado" descarga un modelo local para usarlo offline; los ajustes por defecto varían según la versión de macOS y el idioma Siempre offline por diseño. Sin opción de nube, sin toggle que recordar desactivar

Lo de Apple se entiende mejor como una comodidad del sistema. SnailText es la herramienta que usas cuando el dictado forma parte de cómo trabajas de verdad.

Rendimiento del dictado en Apple Silicon de un vistazo

Rangos orientativos de benchmarks de whisper.cpp con Metal de terceros (Voicci 2026, PromptQuorum 2026, análisis del Mac M4 de DEV Community). No son mediciones tomadas con una metodología fija de SnailText: esa la publicaremos por separado cuando esté lista. La latencia real por hardware varía con la temperatura, la carga en segundo plano y la compilación del modelo.

Chip Apple Silicon Whisper Small Whisper Medium Whisper Large v3 Turbo
M1 (base) Tiempo real En el límite del tiempo real Más lento que el tiempo real
M2 Pro 3-4× tiempo real 2-3× tiempo real 1.5-2× (60s de audio en ~2.8s)
M3 MacBook Air 5-6× 3-4× ~7× en formato largo
M4 10-15× 6-8× 3-5×
M5 Pro 15-20× 8-12× ~10× tiempo real

"Tiempo real" significa que la transcripción termina en el mismo tiempo de reloj que duró la grabación. Cualquier cosa más rápida que 1× es apta para dictado en directo. El modelo tiny en M4 funciona a aproximadamente 27× el tiempo real en clips cortos, según las pruebas de DEV Community.

Qué se siente de verdad un "Nx tiempo real" en el cursor

Los multiplicadores de arriba se malinterpretan con facilidad. En lenguaje claro, este es el patrón práctico en Apple Silicon: cualquier chip de la serie M puede transcribir un dictado de un minuto en bastante menos tiempo del que costó grabarlo. Cuanto más rápido el chip y más pequeño el modelo, más corta la espera. En M3 y M4 con Whisper Medium o Large v3 Turbo, la espera para un clip de un minuto baja a unos pocos segundos. En M1 y M2 con Whisper Small, la espera sigue estando muy por debajo de la duración de la grabación: cómodamente interactiva para un dictado normal.

El retraso que de verdad notas es más corto de lo que sugieren estos multiplicadores. SnailText ejecuta el modelo sobre frases ya cerradas mientras hablas (inferencia en streaming en máquinas con GPU), así que cuando pulsas el atajo para parar la mayor parte del trabajo ya está hecho. La espera de extremo a extremo en Apple Silicon suele ser de uno a dos segundos para cualquier frase de menos de treinta segundos.

De momento, no publicamos a propósito tablas de benchmarks de tiempo de reloj en esta página. Una comparación reproducible necesita una metodología fija (la misma muestra de audio, la misma compilación del modelo, el mismo estado del hardware) y todavía no hemos terminado ni publicado la nuestra. Cuando lo hagamos, los números vivirán en una página de metodología aparte que este artículo enlazará.

Neural Engine, Metal, CPU: ¿cuál hace realmente el trabajo?

Una pregunta que nos hacen mucho: ¿usa el Neural Engine de Apple (ANE)? Respuesta corta: no, y no pasa nada. La versión larga:

  • whisper.cpp funciona sobre Metal, la API de cómputo en GPU de propósito general de Apple. Así se consiguen las cifras de velocidad de arriba. El backend de Metal lo aportaron ingenieros de Apple y es el más pulido de las tres rutas de GPU de whisper.cpp.
  • El Neural Engine es un acelerador aparte, específico de ANE, que viene en todos los Mac con Apple Silicon. Es rápido pero solo se puede aprovechar a través de los frameworks privados de Apple (Core ML, MLX): no existe un backend ggml público que lo aproveche. Tanto MLX como WhisperKit pueden usar el ANE; whisper.cpp no, a fecha de 2026.
  • La CPU es la ruta de respaldo cuando Metal no está disponible (Macs Intel más antiguos, entornos virtualizados). Sigue funcionando, solo que más lento: Whisper Small en un MBP Intel de 2020 funciona a aproximadamente tiempo real, lo cual está en el límite para dictado en directo.
  • La memoria unificada es la razón por la que Metal funciona tan bien en Apple Silicon. En sistemas x86 con GPUs dedicadas, el búfer de audio tiene que copiarse a la VRAM a través del bus PCIe antes de que la GPU pueda tocarlo. En la serie M, la GPU lee las mismas páginas físicas de memoria que la CPU. Sin copia.

La respuesta práctica es que la ruta de Metal en la serie M es lo bastante rápida como para que la ausencia de un backend de ANE no importe para la latencia del dictado. Si específicamente necesitas el Neural Engine por eficiencia energética con la batería, WhisperKit y MLX son los proyectos en los que fijarte.

Por qué el Dictado integrado de Apple no basta para el uso diario

Apple Dictation funciona. Se ejecuta en el dispositivo en cualquier Mac con un chip M1 o posterior, la transcripción es aceptable para ráfagas cortas y no cuesta nada. Para un mensaje rápido o una búsqueda de una línea, hace su trabajo.

Deja de bastar en cuanto intentas usarlo para trabajo de verdad.

Lo primero con lo que te topas es el corte por silencio. La documentación de Apple dice que el Dictado en Apple Silicon no tiene un límite de duración fijo, pero el sistema se detiene solo tras 30 segundos de silencio detectado, y el "silencio" incluye las pausas naturales que haces mientras redactas. No hay ningún ajuste para ampliar el corte. Dictar un correo de más de dos párrafos significa reactivarlo dos o tres veces. Varios hilos de discusión en los propios foros de soporte de Apple señalan que la sensibilidad del corte ha cambiado a lo largo de las actualizaciones de iOS 18 y macOS Tahoe.

Lo segundo es la precisión en cualquier cosa técnica. Apple Dictation está bien con habla general clara y es visiblemente peor con código, jerga, inglés con acento y vocabulario específico de un dominio: justo el tipo de contenido en el que desarrolladores, médicos y abogados usan de verdad el dictado. Las herramientas de terceros que ejecutan modelos modernos de clase Whisper son bastante mejores con el mismo contenido. En esta página reservamos las cifras concretas de WER hasta que publiquemos una metodología de benchmark reproducible: otros han publicado sus propias comparaciones (VoicePrivate, Voicci y PromptQuorum tienen pruebas de 2026), pero preferimos no citar cifras que no hayamos reproducido en condiciones controladas.

Lo tercero es la frontera de integración. Apple Dictation funciona dentro de las apps de Apple y la mayoría de campos de texto nativos de macOS. No tiene un flujo consistente de atajo a pegado en apps web, apps Electron o terminales. Acabas desactivándolo en la mitad de los sitios donde quieres usarlo.

Hay una buena herramienta de dictado integrada para uso casual, y hay una categoría aparte de herramientas pensadas para gente que escribe para ganarse la vida. La categoría existe porque la herramienta casual nunca se diseñó para ser la segunda.

Qué hace una app de dictado para Mac de verdad

Una app de dictado para Mac es una herramienta que convierte la voz hablada en texto escrito en cualquier aplicación mediante un atajo global, con el modelo de reconocimiento de voz ejecutándose en local sobre Apple Silicon. Los tres componentes que definen la categoría son: un atajo universal que funciona en todas las apps de macOS, incluidas apps web, apps Electron y terminales; un modelo de reconocimiento de voz con más de un 95% de precisión en audio en inglés limpio; y un pipeline de procesamiento local que mantiene el audio en tu dispositivo.

Un atajo que funciona igual en todas las apps. Lo pulsas una vez y empieza la grabación. Lo pulsas otra vez y la grabación se detiene. Tu texto transcrito aparece en la posición de tu cursor, sea cual sea la app en la que estés. Sin configuración por app, sin árboles de menús, sin esperas.

Un modelo de reconocimiento de voz que de verdad es bueno. El plan gratuito de las apps de dictado modernas para Mac incluye modelos Whisper compactos que alcanzan más de un 95% de precisión en audio en inglés limpio. Los planes de pago añaden modelos más grandes, idiomas adicionales y posprocesamiento para eliminar muletillas y añadir puntuación. La idea es no tener que pensar en el modelo en absoluto una vez que está en marcha.

Un pipeline local que no necesita internet. El búfer de audio se queda en RAM, el modelo se ejecuta en la GPU o el Neural Engine de tu Mac, y el texto aparece en el campo de texto activo. Nada sale de tu máquina salvo que actives de forma explícita una función en la nube.

Esa tercera parte es la que define la categoría. Una vez que tienes una herramienta que ejecuta el modelo en tu propio hardware, el discurso de privacidad cambia de "prometemos no hacer mal uso de tu audio" a "tu audio no sale del dispositivo". Es un argumento distinto con consecuencias distintas.

Apple Silicon hace que Whisper en local sea de verdad rápido

Ejecutar modelos Whisper grandes en local en Windows suele implicar instalar CUDA, encontrar una GPU NVIDIA compatible y ajustar tamaños de lote. En Mac, el mismo flujo viene integrado.

El motor whisper.cpp, que impulsa la mayoría de las apps modernas de dictado para Mac, incluida la nuestra, se compila con la aceleración por GPU de Apple Metal de forma predeterminada en Apple Silicon. Metal es la API de GPU de Apple, y en los chips de la serie M se asienta directamente sobre el pool de memoria unificada, lo que significa que los pesos del modelo y el búfer de audio viven en la misma memoria física que el código de tu aplicación. No hay copia de memoria entre CPU y GPU antes de cada inferencia. Ese único detalle de arquitectura es la razón por la que un MacBook Air M1 puede ejecutar Whisper Large v3 Turbo en tiempo real, mientras que el mismo modelo en un portátil con Windows normalmente necesita una GPU NVIDIA dedicada.

En cualquier Mac con Apple Silicon a partir del M1, puedes ejecutar el modelo Whisper small o medium en local y no notar nunca la latencia. El texto aparece en el momento en que dejas de hablar. La diferencia entre un Air M1 y un M5 Pro es si además puedes ejecutar los modelos grandes sin pensarlo, no si el dictado funciona o no.

La otra cara de esta historia son los Macs Intel más antiguos. La propia documentación de Apple deja claro que los Macs Intel que usan Apple Dictation envían el audio a los servidores de Apple, porque la ruta en el dispositivo solo funciona en Apple Silicon. Las apps de terceros que usan whisper.cpp necesitan igualmente la aceleración de Metal para ser usables en tiempo real. El hardware mínimo realista para el dictado local moderno en Mac es M1 o posterior.

Local frente a nube: por qué importa para el dictado diario

Una herramienta de dictado en la nube envía cada enunciado a un servidor remoto, lo transcribe allí y devuelve el texto. El modelo que se ejecuta en la nube suele ser más grande que el que puedes ejecutar en local, lo que puede suponer una pequeña ventaja de precisión en condiciones ruidosas. El coste de latencia es el viaje de ida y vuelta, normalmente de 200-800 ms con una buena conexión, más con una mala.

Una herramienta de dictado local ejecuta el modelo en tu Mac. La latencia es solo el tiempo de inferencia, que en Apple Silicon suele ser más rápido que el viaje de ida y vuelta a un servidor en la nube. El audio se queda en tu dispositivo. No hay coste de inferencia más allá de la electricidad para que funcione el chip.

Para el dictado diario, el enfoque local se va acumulando con el tiempo. Si dictas 8000 palabras al día en el trabajo, estás haciendo miles de llamadas de inferencia. Una herramienta local las procesa gratis en hardware que ya tienes. Una herramienta en la nube o te cobra una suscripción o consume los créditos de API que compraste a OpenAI u otro proveedor. A lo largo de un año, la diferencia de coste para un usuario intensivo es del orden de los cientos de dólares, y la diferencia de privacidad está en la categoría de "todo lo que dijiste durante todo el año, en algún servidor" frente a "nada salió de tu dispositivo".

Aún hay casos donde la nube tiene ventaja. Para acentos muy marcados con los que los modelos locales compactos tienen dificultades, o para idiomas menos comunes como el vietnamita o el bengalí donde Whisper local tiene carencias de precisión conocidas, los modelos en la nube más grandes todavía superan lo que una app local puede hacer hoy. La herramienta correcta depende de lo que de verdad dictes.

Cómo construimos el dictado para Mac y Windows al mismo tiempo

SnailText funciona en Mac y Windows desde una sola base de código, con paridad de funciones desde el primer día. La mayoría de las apps de dictado para Mac salieron primero para Mac y añadieron Windows años después: MacWhisper es solo para Mac, SuperWhisper sacó Windows en noviembre de 2025 (unos dos años después de la versión para macOS), y Voibe y Aqua Voice son solo para Mac. El mercado de apps de dictado para Mac lleva años maduro; el lado de Windows es una expansión reciente.

Nosotros tomamos un camino distinto. SnailText se construyó desde el primer día como una app Tauri con un único núcleo en Rust compartido entre Mac y Windows. El mismo motor whisper.cpp funciona en ambas plataformas, con aceleración Metal en Mac y Vulkan en Windows. El atajo, la interfaz del overlay, el historial, el diccionario, los snippets: todo es idéntico. No hay un desfase de funciones del tipo "primero la app de Mac, luego la de Windows".

Para quien solo usa Mac, esta decisión de diseño no importa mucho. Para quien usa ambas, o trabaja en una casa o un equipo donde unos están en Mac y otros en Windows, o quien podría cambiar de plataforma en el futuro, significa una sola herramienta en lugar de dos.

Qué haces realmente con el dictado en Mac, en el día a día

Los usuarios de dictado en Mac pasan la mayor parte de su tiempo de entrada repartidos entre cinco casos de uso: respuestas de correo y Slack (la mayor frecuencia, ahorra alrededor de una hora por jornada laboral en el trabajo de conocimiento típico), primeros borradores de escritura de formato largo a 2-3× la velocidad de tecleo, tareas de lenguaje natural cercanas al código como mensajes de commit y prompts a agentes de IA, notas de voz que se saltan el flujo de grabar-transferir-transcribir, y uso de accesibilidad durante la recuperación de una lesión por esfuerzo repetitivo o como preferencia de entrada permanente.

Respuestas de correo y Slack. El caso de mayor frecuencia. Una respuesta de dos frases que tardaría 30 segundos en teclearse tarda 5 segundos en dictarse. A lo largo de una jornada con 40-80 respuestas cortas, ahorras una hora.

Escritura de formato largo. Primeros borradores de entradas de blog, ensayos, documentación o notas. La mayoría de quienes escriben dictan más rápido de lo que teclean, a menudo 2-3× más. La transcripción es tosca y necesita edición, pero editar es más rápido de lo que habría sido producir el primer borrador.

Dictado cercano al código. No escribir código carácter a carácter, sino escribir las partes en lenguaje natural del trabajo con código: mensajes de commit, descripciones de PR, comentarios que explican lógica complicada, prompts a asistentes de programación con IA como Cursor o Claude. Nuestra página para vibe-coders cubre este caso de uso en detalle.

Notas de voz a texto. Estás paseando al perro, se te ocurre una idea, pulsas el atajo, hablas durante 30 segundos. El texto está en una nota cuando vuelves. El flujo de las Notas de voz de Apple te obliga a grabar, transferir, transcribir y revisar. Una herramienta de dictado en tiempo real elimina esos pasos.

Accesibilidad. Lesiones de muñeca, RSI, recuperación de una operación, o simplemente preferir la voz como entrada principal. Una buena herramienta de dictado local es una herramienta de accesibilidad de verdad, y aquí el aspecto offline importa más que en ningún otro sitio.

Cómo empezar en Mac

La descarga está en nuestra página de descarga para Mac. Distribuimos un DMG notarizado, así que no hay aviso de Gatekeeper en el primer arranque en macOS Sequoia o Tahoe. Se requiere Apple Silicon (M1 o posterior). La app pesa unos 150MB y se descomprime a unos 600MB con el modelo Whisper Small por defecto incluido.

El primer arranque pide dos permisos: acceso al micrófono (obvio) y acceso de accesibilidad (para que podamos pegar texto en otras apps). Ambos son avisos de permisos estándar de macOS. No pedimos nada más.

El atajo por defecto es Option+Space. Puedes cambiarlo en Ajustes si choca con algo. Pulsa el atajo una vez para empezar, pulsa otra vez para parar. El texto aparece en tu cursor.

El plan gratuito es dictado ilimitado con modelos locales compactos, sin cuenta necesaria, sin límites de tiempo. El plan Pro ($7.49/mo · $89/yr, 3 dispositivos) añade modelos más grandes, soporte multiidioma, expansión de snippets, entradas de diccionario y una garantía de devolución de 30 días sobre el primer cargo de pago.

FAQ

¿Funciona en Macs con Intel?

Técnicamente sí, en versión degradada. El motor whisper.cpp funciona en CPUs Intel, pero la velocidad de inferencia sin aceleración Metal es bastante más lenta. El dictado en tiempo real con el modelo small es aceptable a duras penas en un iMac Intel de gama alta de 2019 o 2020. Recomendamos Apple Silicon (M1 o posterior) para tener la experiencia que se describe en esta página.

¿En qué se diferencia de Apple Dictation?

Apple Dictation viene integrado en macOS, funciona en el dispositivo sobre Apple Silicon y es gratis. La documentación de Apple dice que no hay un límite de duración fijo, pero el dictado se detiene solo tras 30 segundos de silencio (las pausas para pensar cuentan). Tampoco hay extensibilidad (sin vocabulario personalizado, sin snippets, sin personalización de atajos más allá del toggle básico). SnailText ejecuta modelos de clase Whisper más grandes, no tiene corte por silencio, admite vocabulario personalizado y snippets, y funciona con un único atajo en todas las apps.

¿Subís mi audio a algún sitio?

No. Whisper en local se ejecuta dentro de nuestra app, en tu Mac. El búfer de audio se queda en RAM durante la sesión de grabación y no se escribe en disco. No subimos audio a ningún servidor en ningún modo, ni gratis ni de pago. El STT en la nube opcional para usuarios Pro con casos de audio difíciles está en nuestra hoja de ruta, pero hoy no está en el producto.

¿Y la HIPAA, el GDPR, los sectores regulados?

El camino más sencillo hacia el cumplimiento normativo para el dictado por voz es no transmitir el audio a ningún sitio. Whisper en local hace exactamente eso: no hace falta un Business Associate Agreement, ni un Data Processing Agreement, ni una evaluación de transferencia internacional de datos. Nuestra página de Privacidad cubre los detalles legales; en resumen, los datos que nunca salen de tu dispositivo son los más fáciles de mantener en regla.

¿Cómo se compara la precisión con Wispr Flow o SuperWhisper?

Para audio en inglés limpio, nuestros modelos locales compactos igualan a Apple Dictation (en torno al 95%) y los modelos medium y large igualan a Wispr Flow y SuperWhisper Pro (en torno al 97-99%). Para acentos muy marcados o ruido de fondo, los modelos en la nube todavía tienen una ligera ventaja sobre los modelos locales de nuestra categoría. Para todo lo demás, la diferencia es lo bastante pequeña como para que importen más las diferencias de privacidad y coste.

¿Funciona con vocabulario personalizado?

Sí, en Pro. Puedes añadir términos personalizados (el nombre de tu empresa, nombres de producto, los nombres de tus hijos) y expansiones de snippets (escribes un disparador y obtienes una frase más larga). Ambos se aplican durante la transcripción, no después.

¿Y el dictado multiidioma?

El plan Pro admite más de 25 idiomas con Parakeet TDT v3, que es unas 10× más rápido que Whisper para idiomas europeos. El plan gratuito es solo en inglés, con los modelos Whisper compactos.

¿Cómo se dicta en un Mac?

De dos maneras. La vía integrada: abre Ajustes del Sistema, activa Teclado → Dictado y luego pulsa el atajo de dictado (Control dos veces, por defecto) dentro de cualquier campo de texto y empieza a hablar. Apple Dictation funciona en el dispositivo sobre Apple Silicon, pero se detiene tras 30 segundos de silencio y solo funciona de forma fiable en algunas apps. La vía de terceros: instala una app de dictado local como SnailText, pulsa su atajo global en cualquier app, habla, y el texto se pega en la posición de tu cursor; sin corte por silencio, con modelos Whisper más grandes y con audio que nunca sale de tu Mac.

¿Cuál es el mejor software de dictado para Mac?

Depende de lo que necesites. Para uso gratuito, integrado y ocasional, Apple Dictation está bien. Para transcribir archivos y reuniones, MacWhisper es la herramienta para Mac más querida. Para dictado en directo y continuo en cualquier app, con modelos Whisper locales más grandes y sin corte por silencio, una herramienta dedicada como SnailText encaja mejor; y, a diferencia de la mayoría de opciones, funciona tanto en Mac como en Windows con la misma experiencia. La elección correcta depende de si quieres dictado integrado ocasional, transcripción de archivos o dictado en directo todo el día.

Pruébalo en tu Mac

El plan gratuito es ilimitado con modelos locales compactos, sin cuenta necesaria. Si quieres modelos más grandes, soporte multiidioma, diccionario y snippets, Pro cuesta $7.49/mo · $89/yr. Devolución de 30 días sobre el primer cargo de pago.