Por qué "offline" es la pregunta de arquitectura, no una casilla de funciones

El dictado offline -también llamado reconocimiento de voz offline, voz a texto offline o voz a texto local- describe el software de escritura por voz donde el modelo de voz se ejecuta en tu propio hardware, no en un servidor remoto. La distinción es de arquitectura, no una casilla en un menú de ajustes de privacidad.

La mayoría de apps de dictado que anuncian privacidad siguen siendo apps de nube. Tienen una política de privacidad, un certificado de auditoría, una opción de Acuerdo de socio comercial, la promesa de no entrenar con tus datos. Eso son controles de política. Dependen de que el proveedor haga lo que dijo y de que tú confíes en que lo hará.

Una app de dictado realmente offline no tiene una política de privacidad en el mismo sentido. El audio no puede llegar a un servidor porque no hay ninguna llamada de red. El modelo no puede filtrar datos porque se ejecuta en un proceso de tu hardware, con tu sistema operativo controlando quién puede verlo.

La garantía de privacidad es la arquitectura, no una promesa.

Esta diferencia se nota en los peores casos. Cuando la plataforma de cumplimiento Delve quedó implicada en una investigación de fraude de auditoría en marzo de 2026 (según una investigación de Substack que analizó 494 informes SOC 2 presuntamente generados a través de la plataforma y encontró que el 99,8% compartía un texto idéntico de plantilla), clientes de varias empresas de dictado en la nube descubrieron que sus supuestas certificaciones SOC 2 habían sido generadas por una herramienta que producía informes esencialmente idénticos de plantilla. Las empresas afectadas respondieron cambiando de auditor (Wispr Flow contrató a A-LIGN como nuevo auditor y a Drata como nueva plataforma de cumplimiento, según el análisis del incidente de Voibe Resources). Los clientes no tenían forma de verificar qué se había auditado realmente en primer lugar. Las herramientas offline simplemente no tienen este problema, porque no hay nada que auditar en la capa de inferencia.

Un incidente aparte, ampliamente reportado, involucró a Wispr Flow capturando capturas de pantalla de la ventana activa del usuario cada pocos segundos y subiéndolas a infraestructura de IA de terceros como parte de una función de "conciencia de contexto" (documentado mediante análisis de tráfico de red publicado en Reddit en 2025, con el CTO del proveedor disculpándose públicamente después de que la empresa inicialmente vetara al usuario que lo reportó, según el reportaje de Embertype). La app ha cambiado desde entonces la implementación para leer el texto cercano al cursor mediante las API de accesibilidad en lugar de capturas de pantalla completas (según la documentación actual de Wispr Flow), pero el punto de fondo se mantiene: las apps de dictado en la nube pueden hacer cosas que no ves, y te enteras de ellas más tarde, si es que te enteras.

Una variante más sutil del mismo problema existe en apps que se presentan como "locales". SuperWhisper procesa el audio en el dispositivo: esa parte es cierta. Pero su función Smart Modes envía contexto adicional a la infraestructura de nube de Modal en cada dictado: el nombre de la app en la que estás escribiendo, el contenido del campo de texto enfocado, tu portapapeles e identificadores del sistema, incluido el nombre del equipo y la zona horaria. Esto está documentado en el prompt de sistema que ellos mismos exponen en su propio tráfico de red. Si dictas en un documento legal, una nota de paciente o una conversación privada de Slack, ese contexto sale de tu equipo aunque el audio no lo haga. "Audio local" y "todo local" son afirmaciones distintas.

Nada de esto significa que el dictado en la nube esté mal. Significa que el modelo de confianza es distinto. Si dictas listas de la compra y mensajes de Slack, el modelo de confianza probablemente está bien. Si dictas trabajo de clientes, notas médicas, borradores legales, información interna de la empresa o cualquier cosa que no querrías que estuviera en el servidor de otra persona, la respuesta de arquitectura es genuinamente mejor que la respuesta de política.

Cómo funciona Whisper local, y qué significa de verdad "en la RAM"

Las apps modernas de dictado offline usan la familia de modelos Whisper, lanzada originalmente como código abierto por OpenAI en 2022 y desarrollada ahora en múltiples implementaciones, incluidas whisper.cpp, faster-whisper, MLX Whisper y otras. Las variantes más pequeñas (tiny, base, small) ocupan entre 75MB y 500MB en disco y se ejecutan en hardware de consumo en tiempo real.

El proceso, en pasos concretos:

Paso 1. Pulsas un atajo. La app abre un flujo de audio desde tu micrófono a 16 kHz PCM mono, el formato que Whisper espera. Las muestras fluyen a un búfer rotatorio en la RAM, normalmente unos pocos megabytes por minuto de habla. Ningún archivo en disco.
Paso 2. Un detector de actividad de voz (VAD) vigila el flujo y decide cuándo termina el habla. Silero VAD es la opción habitual: un modelo ONNX pequeño que se ejecuta en milisegundos por fragmento y emite una señal de "frase terminada" tras aproximadamente medio segundo de silencio.
Paso 3. Cada frase cerrada se entrega al modelo Whisper. Whisper se ejecuta en tu CPU o GPU como un proceso enlazado dentro de la misma app: sin comunicación entre procesos, sin llamada de red.
Paso 4. El modelo produce tokens de texto. En Apple Silicon esto suele tardar unos pocos cientos de milisegundos para una frase de 10 segundos; en una CPU de portátil Intel moderna tarda un par de segundos; en una GPU NVIDIA dedicada va más rápido que en tiempo real.
Paso 5. El texto se pega en tu campo de texto activo mediante la API estándar de entrada de texto del sistema operativo. La misma API que usa tu teclado.
Paso 6. Cuando cierras la app, el sistema operativo recupera el búfer. Nada de la grabación sobrevive al proceso. No se escribe nada en disco a menos que actives explícitamente el historial.

No hay ninguna llamada de red en ninguno de estos pasos. Puedes verificarlo con cualquier monitor de red estándar: Little Snitch en Mac, Wireshark en cualquiera de los dos sistemas o los registros del cortafuegos integrado de tu sistema operativo.

Esto es lo que parece como patrón estructural, no como benchmark. Ejecuta cualquiera de estas apps con un monitor de red abierto durante un dictado de 60 segundos y verás recuentos de peticiones salientes en el siguiente orden de magnitud. Los números exactos varían según la compilación, los flags de funciones y el estado de autenticación; la diferencia entre cero y distinto de cero es el punto de arquitectura:

Peticiones de red salientes durante un dictado de 60 segundos, observadas en mayo de 2026.
App	Peticiones salientes	Qué son
SnailText (Whisper local)	0	Ninguna. El modelo se ejecuta dentro del proceso; el audio nunca sale de la RAM.
Wispr Flow (Modo Privacidad activo)	1 — 2	Latido de autenticación al backend del proveedor. El audio en sí se sigue enviando a la nube para transcribir: el Modo Privacidad desactiva la retención, no la transmisión.
STT en la nube de referencia (típico)	3 — 12	Autenticación, subida de audio (a menudo por fragmentos), descarga de la transcripción, telemetría. El recuento exacto depende del tamaño de fragmento y los flags de funciones.

Esta es la prueba a la que volvemos siempre cuando hablamos de "offline": no la copia de marketing, no la política de privacidad, sino una captura de paquetes durante una grabación real. Que SnailText esté en cero es la garantía de arquitectura. Que Wispr Flow en Modo Privacidad esté en uno o dos es honesto respecto a su diseño: el audio aún tiene que llegar a un servidor para transcribirse; el Modo Privacidad controla lo que el servidor guarda. STT en la nube en tres a doce es el coste normal de ofrecer reconocimiento de voz como servicio.

The architectural difference between offline and cloud dictation. Offline keeps the audio in a RAM buffer that the operating system releases when the app closes. Cloud sends the audio across a network boundary to a third-party server you don't control — the privacy policy applies to that custody, not to the architecture.

La parte de "en la RAM" es la garantía específica. El contenido de la RAM no persiste tras los reinicios. No es accesible para otros procesos salvo a través de las reglas estándar de aislamiento de procesos del sistema operativo. No lo respaldan Time Machine, iCloud ni OneDrive a menos que actives por separado una función que lo escriba en disco. Cuando cierras la app, el búfer desaparece.

El motivo de insistir en esto es que el detalle de arquitectura es la garantía real de privacidad. No hay ninguna política que tengas que creer; solo hay un camino de código, y el camino de código se puede observar.

El asunto del RGPD y HIPAA para el dictado offline

Los marcos legales en torno a los datos de voz se han endurecido sustancialmente a lo largo de 2025 y 2026. Bajo el Reglamento General de Protección de Datos de la UE, las grabaciones de voz son datos personales, y las huellas vocales se clasifican como datos biométricos de categoría especial cuando se procesan para identificación. El total acumulado de multas del RGPD superó los 7.100 millones de euros para 2026, con 1.200 millones impuestos solo en 2025 y un aumento interanual del 40% en multas vinculadas específicamente al manejo indebido de datos de voz (según el Informe de cumplimiento del RGPD 2026 de Kiteworks). La Autoridad de Protección de Datos de los Países Bajos por sí sola impuso una multa de 30,5 millones de euros a Clearview AI por infracciones de datos biométricos relacionadas con el reconocimiento facial.

En Estados Unidos, los niveles de sanción de HIPAA se actualizaron con efecto a partir del 28 de enero de 2026 a una estructura en la que las infracciones individuales pueden costar entre 145 $ y 2.190.294 $ según la categoría de culpa, con topes anuales de 2.190.294 $ por tipo de infracción. La Iniciativa de Análisis de Riesgos de la Oficina de Derechos Civiles a lo largo de 2025 ha apuntado específicamente a la "IA en la sombra": situaciones en las que el personal usa herramientas de IA de consumo sin pasar por los procesos formales de adquisición de proveedores y de Acuerdo de socio comercial. El dictado en la nube que procesa Información de Salud Protegida sin un Acuerdo de socio comercial firmado es una infracción desde la primera transcripción, independientemente de que algo salga mal después.

El dictado offline elimina la mayoría de estos modos de fallo porque los datos no cambian de custodia. El procesamiento local significa:

No hace falta un Acuerdo de tratamiento de datos con un proveedor de dictado, porque el proveedor no procesa los datos.
No hace falta un Acuerdo de socio comercial para HIPAA, porque ninguna PHI sale del control de la entidad cubierta.
No hace falta una evaluación de transferencia transfronteriza de datos, porque no hay ninguna transferencia.
No hace falta una Evaluación de impacto sobre la protección de datos para el pipeline de voz (puede que aún haga falta para otras partes de tu sistema global).
No hace falta gestión de riesgos de proveedor para el manejo de datos de voz, de nuevo porque el proveedor no maneja datos de voz.

La arquitectura en sí es el mecanismo de cumplimiento. Esto no significa que una organización regulada pueda desplegar cualquier herramienta de dictado offline sin pensarlo: aún tienes que verificar las afirmaciones, documentar la arquitectura y considerar casos límite como los volcados de fallo y los canales de actualización. Pero el trabajo de cumplimiento de base es muchísimo menor que para un equivalente en la nube.

Para las organizaciones que han lidiado con auditorías SOC 2 de proveedores, negociaciones de Acuerdos de socio comercial y revisiones de tratamiento de datos para el dictado en la nube, la simplificación es la mayor ventaja práctica de pasarse a offline.

Sin Acuerdo de socio comercial. Sin Acuerdo de tratamiento de datos. Solo un modelo local.

SnailText procesa todo en tu dispositivo. Plan gratuito ilimitado: sin cuenta, sin internet durante el dictado.

Descargar para Mac

Qué apps de dictado son realmente offline (una comprobación)

Cuatro apps de dictado funcionan enteramente offline por defecto en 2026: SnailText (Mac y Windows), MacWhisper (solo Mac), SuperWhisper en modo local (Mac y Windows) y Voibe (solo Mac). Tres apps son basadas en la nube por defecto con opciones de privacidad añadidas encima: Wispr Flow, Willow Voice y Speechify. Aqua Voice y la mayoría de funciones de dictado de Speechify son solo en la nube. La categoría es lo bastante pequeña como para que valga la pena ser concretos:

App	Local por defecto	Opción de nube	Mac	Win	Notas
SnailText	Sí	No (no en 2026)	✅	✅	Whisper + Parakeet local. Mismas funciones en Mac y Windows desde el primer día.
MacWhisper	Sí	Sí (Pro Plus, opcional)	✅	—	Whisper local para transcripción de archivos y dictado en vivo.
SuperWhisper	Sí (modo local)	Sí (BYOK Pro)	✅	✅	Admite modo solo local. Pro añade BYOK a OpenAI/Anthropic/ElevenLabs.
Voibe	Sí	No	✅	—	Whisper local para el flujo de dictado principal.
Wispr Flow	No	Sí (nube por defecto)	✅	✅	El Modo Privacidad desactiva el almacenamiento, pero el audio se sigue procesando en la nube.
Willow Voice	No	Sí (nube por defecto)	✅	✅	Dictado basado en la nube.
Aqua Voice	No	Sí (solo nube)	✅	—	Modelo Avalon propio en la nube. Buenos resultados de precisión.

Si la garantía offline te importa, la lista corta práctica se reduce a cuatro apps (nosotros, MacWhisper, SuperWhisper en modo local, Voibe). Tres de esas cuatro son solo para Mac o Mac primero. La que tiene paridad Mac y Windows desde el primer día somos nosotros, lo cual reconocemos que suena interesado, pero es el estado real del mercado.

SnailText - dictado offline para Mac y Windows

Plan gratuito: Whisper Tiny + Base ilimitados, sin cuenta necesaria. Cero peticiones salientes durante el dictado, verificable en tu cortafuegos.

Descargar para Mac

Apps de dictado local en 2026 - las cuatro que de verdad se ejecutan en tu dispositivo

"Dictado offline" y "app de dictado local" describen la misma arquitectura desde dos ángulos. Offline hace hincapié en lo que no ocurre (sin ida y vuelta a la nube). Local hace hincapié en dónde se ejecuta el modelo (en tu CPU, GPU o Neural Engine). Ambos términos apuntan a la misma lista corta de cuatro apps en 2026.

Una app de dictado local significa que el modelo de voz a texto -Whisper, Parakeet o uno propio del proveedor- se descarga como parte de la instalación de la app y lo ejecuta tu hardware en cada dictado. No se sube ningún audio. No se guardan transcripciones de forma remota. No hace falta cuenta para conseguir una transcripción. El proveedor no puede ver lo que dictas aunque quisiera, porque el audio nunca llega a sus servidores.

Esa propiedad -verificable por monitor de red, no por promesa- es la razón por la que las profesiones reguladas (terapeutas redactando notas de sesión, abogados redactando producto de trabajo privilegiado, clínicos documentando PHI) cada vez más optan por defecto por una app de dictado local en lugar de una en la nube. El panorama de cumplimiento se simplifica: no hay ningún procesador externo del audio porque el audio nunca se transmite. Puedes leer nuestras posiciones específicas para terapeutas, abogados y casos de uso orientados a la accesibilidad.

Cuándo el dictado offline tiene desventajas

El dictado offline tiene cinco desventajas prácticas frente al STT en la nube: los modelos locales más pequeños suelen ser de 1-7 puntos porcentuales menos precisos que las variantes Large en la nube con audio ruidoso o con acento, los idiomas menos comunes tienen menos soporte en modelos locales, la inferencia usa la CPU o GPU de tu hardware (lo cual importa en portátiles antiguos), la sincronización entre dispositivos requiere ingeniería deliberada (no hay un servidor central en el circuito por defecto) y las mejoras de precisión llegan como actualizaciones de software medidas en meses, en lugar de actualizaciones continuas del modelo en la nube medidas en días.

Límites del tamaño del modelo. Los modelos locales compactos (tiny, base, small) funcionan en cualquier máquina moderna pero son menos precisos que los grandes modelos de nube con audio muy ruidoso, acentos muy marcados o idiomas menos comunes. Para audio en inglés limpio en una sala silenciosa, la diferencia es pequeña. Para un hablante con acento grabando en una cafetería ruidosa, la diferencia puede crecer hasta varios puntos porcentuales.

Idiomas menos comunes. Whisper es más fuerte en inglés y en los principales idiomas europeos. Para vietnamita, bengalí, telugu y otros idiomas de menos recursos, la precisión del modelo local puede bajar de forma notable. Los proveedores de nube que usan modelos más grandes o ajustes finos específicos por idioma suelen tener ventaja aquí.

El coste de cómputo es tu hardware. Ejecutar la inferencia localmente cuesta electricidad y usa tu CPU o GPU. En Apple Silicon y en GPU dedicadas modernas el coste es insignificante. En portátiles antiguos sin aceleración por GPU, puede ser perceptible y el consumo de batería se vuelve un factor real.

Sin sincronización en vivo del estado del modelo entre dispositivos. Si entrenas vocabulario personalizado en tu Mac, no se sincroniza automáticamente con tu máquina Windows porque no hay un servidor central en el circuito. Las herramientas modernas (la nuestra incluida) sincronizan a través de un servidor de licencias con cifrado de extremo a extremo, pero es una capa que hay que diseñar de forma deliberada.

Las actualizaciones llegan como actualizaciones de software. Un proveedor de STT en la nube puede mejorar su modelo de la noche a la mañana, y tu precisión de dictado mejora sin que hagas nada. Las apps locales actualizan la precisión cuando lanzan una nueva versión de la app con un nuevo modelo incluido. El ciclo es de meses, no de días.

Para la mayoría del dictado de trabajadores del conocimiento en inglés o en los principales idiomas europeos, estas desventajas son menores. Para casos límite concretos, la nube tiene ventajas reales. El sentido de un diseño offline primero es hacer que lo correcto en privacidad sea lo predeterminado, no afirmar que siempre es la mejor opción técnica.

Cómo verificar que cualquier app de dictado es realmente offline

Verificar que una app de dictado se ejecuta offline lleva unos 60 segundos con herramientas estándar y sin conocimientos especiales:

Instala un monitor de red. Little Snitch en macOS (45 $ pago único), GlassWire en Windows (hay plan gratuito) o Wireshark en cualquiera de los dos sistemas (gratis, código abierto).
Cierra la app de dictado que quieras probar y luego abre el monitor de red.
Abre la app de dictado e inicia una sesión. Habla durante 10-20 segundos.
Detén la sesión y observa el registro de tráfico saliente del monitor de red filtrado por el proceso de la app de dictado.
Una app realmente offline genera cero peticiones salientes durante la grabación o la transcripción. Las comprobaciones de actualización al arrancar y las llamadas de verificación de licencia son normales y van por separado del dictado.

SnailText, como referencia, se ejecuta offline por defecto en Mac (Apple Silicon, M1 o posterior) y Windows (10 y 11, x86-64). El plan gratuito es dictado local ilimitado con modelos Whisper compactos, sin cuenta necesaria, sin límites de tiempo. La app hace llamadas salientes solo para comprobaciones de actualización del software al arrancar, verificación de licencia Pro (una vez por sesión en Pro) e informes de error anónimos opcionales (los activas tú, desactivados por defecto).

El plan Pro ($7.49/mo · $89/yr, 3 dispositivos) añade modelos Whisper y Parakeet TDT v3 más grandes con soporte multilingüe, ampliación de diccionario y snippets, y una garantía de devolución del dinero de 30 días.

Preguntas frecuentes

¿Cómo verifico que una app de dictado es realmente offline?

Ejecuta Little Snitch en macOS, GlassWire en Windows o Wireshark en cualquiera de los dos, y observa la actividad de red mientras dictas. Una app realmente offline genera cero tráfico saliente durante la grabación o la transcripción. Las comprobaciones de actualización al arrancar y las llamadas de verificación de licencia son normales y van por separado del dictado.

¿El dictado offline funciona sin internet?

Sí. El modelo se ejecuta enteramente en tu dispositivo. Puedes dictar en un avión, en una cafetería sin Wi-Fi, en un sótano, donde sea. Lo único que necesita internet es la descarga inicial de la app.

¿Whisper local es tan preciso como Whisper en la nube?

El modelo es el mismo código de código abierto de OpenAI. La diferencia de precisión depende de qué tamaño de modelo se ejecuta, no de dónde se ejecuta. Para audio en inglés limpio, los modelos locales Small/Medium y el Large en la nube se quedan a 1-3 puntos porcentuales. Para audio con acento o ruido, la diferencia puede ser de 3-7 puntos.

¿El dictado offline cumple con HIPAA?

Whisper local ejecutándose enteramente en tu dispositivo es el camino más sencillo hacia el cumplimiento de HIPAA en transcripción de voz, porque ninguna Información de Salud Protegida sale de tu control. No hace falta ningún Acuerdo de socio comercial porque no hay ningún socio comercial procesando los datos de voz. Aún tienes que manejar los datos correctamente en tu propio dispositivo (cifrado en reposo, controles de acceso, registros de auditoría según exija tu organización), pero la categoría de riesgo de datos en tránsito desaparece.

¿Qué es el Modo Privacidad de Wispr Flow?

El Modo Privacidad de Wispr Flow desactiva su almacenamiento de datos y el entrenamiento de modelos. No cambia el hecho de que el audio sigue enviándose a sus servidores para la transcripción. La arquitectura es nube-sin-retención, no local. Ambas pueden ser opciones razonables, pero son opciones distintas.

¿SnailText sube algo alguna vez?

Hacemos llamadas de red salientes para: comprobaciones de actualización del software (puedes desactivarlas en Ajustes), verificación de licencia Pro (solo usuarios Pro, una vez por sesión) e informes de error anónimos opcionales (desactivados por defecto, los activas tú). Nunca enviamos audio, transcripciones ni nada de lo que dictes.

¿Cuál es la mejor app de reconocimiento de voz offline en 2026?

La mejor app de reconocimiento de voz offline depende de tu plataforma y tus prioridades. En Mac y Windows, SnailText y SuperWhisper ofrecen inferencia local con Whisper acelerada por GPU. MacWhisper es solo para Mac pero tiene un buen flujo de transcripción de archivos. Voibe es solo para Mac. AirTypes es solo para Mac y Linux (aún no disponible en Windows). Para precisión pura de dictado sin ninguna dependencia de la nube, SnailText y SuperWhisper son las opciones más fuertes con paridad multiplataforma. SnailText añade un plan gratuito ilimitado sin necesidad de cuenta.

¿Puedo usar reconocimiento de voz offline sin GPU?

Sí. Los modelos Whisper Tiny y Base funcionan en tiempo real solo con CPU: un portátil moderno termina una frase de 10 segundos en 1-3 segundos sin ninguna GPU. El plan gratuito de SnailText incluye estos modelos sin límites. Si tienes una GPU integrada (Intel Iris, AMD Radeon integrada), Vulkan en Windows y Metal en Mac pueden acelerar de forma notable incluso gráficos integrados. Una GPU dedicada (NVIDIA, AMD) baja la latencia por debajo de 300ms en los modelos más grandes.

Aspecto	Dictado offline	Dictado en la nube
Dónde se procesa el audio	En tu dispositivo, en la RAM	Servidor remoto
Necesita conexión	No	Sí (para cada dictado)
Acuerdo de socio comercial (HIPAA)	No hace falta	Obligatorio antes del primer uso
Evaluación de transferencia de datos (RGPD)	No hace falta	Obligatoria para transferencias transfronterizas
Latencia	50-300ms (solo inferencia)	200-800ms (ida y vuelta + inferencia)
Precisión en inglés limpio	Competitiva con la nube en modelos medianos/grandes	Ligera ventaja en la cima (los modelos de nube más grandes)
Apps que usan esto por defecto en 2026	SnailText, MacWhisper, SuperWhisper (modo local), Voibe	Wispr Flow, Aqua Voice, Willow Voice

Dictado offline: escribir por voz sin la nube

Dictado offline vs en la nube de un vistazo