SnailText
ES

Voz a texto en Windows

Voz a texto en Windows — y lo que le falta a lo que trae Windows

·

Windows tiene dictado integrado. Funciona para frases cortas en inglés en apps de Microsoft. Para trabajo sostenido, otros idiomas o uso sin conexión, tiene límites estructurales documentados. SnailText es la alternativa local con Whisper.

El resumen

Windows incluye dos funciones de voz que se confunden habitualmente. Voice Typing (Win+H) trabaja en la nube — el audio va a Azure en cada dictado, cubre inglés y ~43 idiomas cloud, y se detiene tras unos 5-10 segundos de silencio (sin personalización). Voice Access (solo Windows 11 22H2+) funciona sin conexión pero solo admite 11 idiomas — variantes del inglés, dos del español, alemán, francés, italiano, japonés y dos del chino. Sin ruso, sin portugués, sin eslovaco, sin nórdicos. La función "Fluid Dictation" (con corrección gramatical automática de 2025) requiere un PC Copilot+ con NPU. SnailText ejecuta el modelo Whisper localmente en cualquier PC Windows moderno, funciona en cualquier app, admite cualquier idioma de Whisper y no depende del ecosistema de paquetes de idioma de Microsoft.

Dos funciones de voz en Windows, ambas con límites estructurales

La mayoría de artículos confunden Voice Typing y Voice Access. Son herramientas distintas con modelos de procesamiento distintos. Ambas vienen con Windows; ninguna cubre lo que un flujo de trabajo de dictado diario necesita en 2026.

CaracterísticaVoice Typing (Win+H)Voice Access (Win 11 22H2+)SnailText
ProcesamientoNube — audio a Azure en cada dictado, requiere internetSin conexión — corre en el dispositivoSin conexión — Whisper corre localmente en tu PC
Idiomas~43 idiomas cloud (Microsoft no los enumera en un solo lugar)Solo 11 idiomas: variantes del inglés, español (ES/MX), alemán, francés (FR/CA), italiano, japonés, chino simplificado y tradicionalCualquier idioma de Whisper (100+) — ruso, portugués, polaco, neerlandés, nórdicos, todos incluidos
Tiempo de espera en pausaUnos 5-10 segundos de silencio detienen la sesión; sin personalizaciónEl mismo corte sin personalizaciónIlimitado — corre hasta que vuelves a pulsar el atajo
Atajo de tecladoWin+H, no personalizableActivación solo por comando de voz; la barra de herramientas debe estar visibleCtrl+Espacio global (configurable a cualquier combinación)
Dónde funcionaLa mayoría de campos de texto, pero hay huecos documentados (Anki, algunos campos de Word, algunos textareas de navegador muestran aviso de "funcionalidad limitada")Principalmente apps de Microsoft; el comportamiento en apps de terceros varíaCualquier campo de texto en cualquier app — basado en pegado, como Ctrl+V
Puntuación automáticaOpción disponible, pero con fallos; el comando "coma" es poco fiable según los foros de MicrosoftMisma opción, misma fiabilidadWhisper infiere la puntuación de la prosodia — sin comandos que memorizar
Pulido "Fluid Dictation" (corrección gramatical, eliminación de muletillas)Solo en PC Copilot+ (NPU requerido: Snapdragon X, Intel Core Ultra, AMD Ryzen AI). Solo inglés.No disponibleDiccionario personalizado + fragmentos (plan Pro) para un resultado similar, en cualquier hardware
Compatibilidad con Windows 10No — solo Windows 11 22H2+. Windows 10 tiene la herramienta Reconocimiento de voz antigua, con distintas funcionesSí — Windows 10 (1903+) y Windows 11

Fuentes de las afirmaciones sobre Microsoft: enlazadas en la sección de texto a continuación. El "corte de pausa de 5-10 segundos" está documentado en foros de usuarios y respuestas de Microsoft Q&A, no en materiales de marketing de Microsoft.

Dos funciones de voz en Windows: qué es cada una

Windows en 2026 incluye dos funciones de dictado separadas. La mayoría de artículos online las tratan como un solo producto. No lo son.

Voice Typing (activado con Win+H) es una herramienta de dictado en la nube. Microsoft lo documenta explícitamente: para usar Voice Typing necesitas conexión a internet. En cada sesión de dictado, el audio del micrófono se envía a los servicios Azure Speech de Microsoft para su transcripción. El texto vuelve y se pega en el campo de texto activo, y el audio (según Microsoft) se desidentifica y no se almacena sin consentimiento — pero ha salido de tu dispositivo.

Voice Access es la función más nueva, añadida en Windows 11 22H2 (octubre de 2022). Es una herramienta de accesibilidad más amplia que incluye dictado pero también permite controlar el sistema operativo por voz: abrir apps, hacer clic, desplazarse, navegar. La parte de dictado de Voice Access corre en el dispositivo, sin conexión. No existe en Windows 10. En Windows 10 tienes en cambio la herramienta "Reconocimiento de voz de Windows", más antigua y con funciones distintas.

La diferencia práctica: Voice Typing admite más idiomas pero siempre necesita internet. Voice Access funciona sin conexión pero admite menos idiomas. Ninguna hace las dos cosas.

La cobertura de idiomas: el problema real

Voice Access — la opción sin conexión — solo incluye 11 idiomas: seis variantes del inglés (EE.UU., Reino Unido, India, Nueva Zelanda, Canadá, Australia), dos del español (España, México), alemán, francés (Francia y Canadá), italiano, japonés, chino simplificado y chino tradicional (Taiwán). Eso es todo.

Lo que falta: ruso, portugués (Brasil y Portugal), polaco, neerlandés, sueco, danés, noruego, finlandés, checo, húngaro, griego, turco, hindi, árabe, coreano, tailandés, vietnamita y decenas más. Cuando se preguntó por el sueco en el propio foro de Microsoft, la respuesta oficial confirma que las limitaciones son "por diseño" sin compromiso de hoja de ruta.

Voice Typing — la opción en la nube — admite más idiomas (~43, incluyendo portugués, coreano, tailandés, turco, vietnamita, hindi). Pero envía tu audio a Microsoft en cada dictado. Para cualquiera cuyo dictado contenga información de clientes, notas médicas, código fuente o cualquier dato sensible, "STT en la nube sin opción offline" es la arquitectura incorrecta.

SnailText ejecuta Whisper localmente. Whisper es multilingüe por diseño — el mismo modelo que maneja el inglés maneja 100+ idiomas, incluidos todos los que la opción offline de Microsoft no cubre. El dictado en ruso funciona en SnailText. El portugués funciona. El polaco, el neerlandés, el checo: todos en la misma instalación. Sin paquetes de idioma que descargar. Sin rodeo por la nube.

El tiempo de espera de Win+H — la queja más citada

Voice Typing de Windows tiene un tiempo de espera de silencio no personalizable que termina la sesión de dictado tras unos 5-10 segundos de pausa. El número exacto no aparece en los materiales de marketing de Microsoft, pero es el tema de varios hilos de usuarios, incluido un largo hilo de Microsoft Q&A y otro en Windows Forum preguntando cómo evitarlo. La respuesta en ambos: no se puede.

Para redactar un email de más de dos párrafos, esto implica reactivar Win+H dos o tres veces en un mismo mensaje. Para flujos de trabajo en los que se piensa mientras se dicta — notas de investigación, planes de tratamiento, borradores de escritos en los que las pausas para reflexionar son normales — el corte hace que la herramienta parezca que trabaja en tu contra.

SnailText corre mientras mantienes el atajo pulsado, o hasta que lo pulsas de nuevo para parar. No hay tiempo de espera por silencio. Un volcado de ideas de cinco minutos se dicta como una sola sesión.

"Fluid Dictation" requiere hardware especial — la mayoría de PCs no pasan el corte

La campaña de marketing de Microsoft en 2025 para Voice Typing se centró en "Fluid Dictation" — una capa de pulido que añade puntuación automática, elimina muletillas (eh, este, umm) y corrige la gramática en tiempo real. Las reseñas de esta función son positivas cuando funciona.

La propia documentación de Microsoft indica que Fluid Dictation requiere un PC Copilot+ — es decir, una NPU (Unidad de Procesamiento Neural) dedicada en el hardware: Snapdragon X (portátiles Surface de 2024+), Intel Core Ultra con NPU o AMD Ryzen AI. Y solo está disponible en inglés.

En 2026, la base instalada de PCs Copilot+ sigue siendo pequeña. Un PC Windows 11 estándar comprado en 2022 o 2023, sin NPU, obtiene la experiencia más básica de Voice Typing — sin corrección gramatical automática, sin eliminación de muletillas, sin pulido en tiempo real. El marketing de 2025 aplica a quizás el 5-10% de la base instalada de Windows.

Cómo SnailText cubre los huecos de voz a texto en Windows

Procesamiento local. SnailText ejecuta el modelo Whisper en tu PC — CPU en máquinas antiguas, Vulkan en GPUs integradas AMD e Intel, CUDA en GPUs NVIDIA. El audio se captura en un búfer en RAM, el modelo lo procesa, el texto transcrito se pega en el cursor y el audio se descarta. Compruébalo en tu monitor de red — sin tráfico saliente durante el dictado.

Cualquier idioma de Whisper. Más de 100 idiomas en la misma instalación, sin paquetes que descargar. El ruso funciona igual que el inglés. El portugués igual que el francés. Sin huecos por región — consulta también nuestra página de dictado offline para el argumento de arquitectura.

Sin tiempo de espera. Pulsa el atajo, habla todo el tiempo que quieras — cinco segundos o cinco minutos — vuelve a pulsarlo para parar. La transcripción es un bloque único.

Atajo configurable. El predeterminado es Ctrl+Espacio; reasígnalo a cualquier combinación que no conflicte con tus otros atajos. Sin bloqueo en Win+H.

Funciona en cualquier app. SnailText pega en el campo de texto activo, igual que Ctrl+V. Slack, Chrome, VS Code, Cursor, emuladores de terminal, EHRs en web, formularios, Anki — donde funcione un teclado, funciona el dictado.

Gratis para empezar. El modelo Whisper Base compacto cubre el dictado cotidiano en inglés y español; Pro añade modelos Whisper más grandes y más de 25 idiomas europeos via Parakeet TDT. Para el argumento multiplataforma, consulta voz a texto en Mac.

Cómo configurar voz a texto en Windows en 60 segundos

1. Descarga el instalador de SnailText desde snailtext.app/download/windows/.

2. Ejecuta el instalador. Windows SmartScreen puede avisar porque SnailText aún no tiene firma Authenticode de una autoridad de certificación reconocida por Microsoft — haz clic en "Más información" → "Ejecutar de todas formas".

3. En el primer arranque, SnailText descarga el modelo Whisper predeterminado (Base, unos 80 MB) y lo carga.

4. Configura tu atajo global en Ajustes. El predeterminado es Ctrl+Espacio.

5. Abre cualquier app — Slack, Chrome, Word, Notion, tu IDE. Pulsa el atajo. Habla. Vuelve a pulsarlo. El texto transcrito aparece en el cursor.

Preguntas frecuentes

¿Funciona en Windows 10?

+

Sí. SnailText es compatible con Windows 10 (64 bits, 1903 o posterior) y Windows 11. Voice Access — la opción offline de Microsoft — es solo para Windows 11 22H2+. En Windows 10, SnailText es una de las pocas opciones que te da dictado moderno con calidad Whisper.

¿En qué se diferencia de Voice Typing (Win+H)?

+

Voice Typing requiere conexión a internet y envía tu audio a los servidores Azure de Microsoft en cada dictado. SnailText ejecuta el modelo Whisper localmente — el audio nunca sale de tu PC. Voice Typing tiene un tiempo de espera de pausa no personalizable de 5-10 segundos; SnailText corre hasta que pulsas el atajo para parar. Voice Typing admite unos 43 idiomas cloud pero sin modo offline; SnailText admite cualquier idioma de Whisper (100+) sin conexión.

¿En qué se diferencia de Voice Access?

+

Voice Access es solo para Windows 11 22H2+ y admite únicamente 11 idiomas offline (variantes del inglés, español, alemán, francés, italiano, japonés, chino). Si necesitas ruso, portugués, polaco, neerlandés o cualquier idioma nórdico o eslavo, Voice Access no te cubre. SnailText ejecuta Whisper, que admite más de 100 idiomas offline en la misma instalación.

¿Por qué la opción offline de Microsoft admite tan pocos idiomas?

+

Microsoft ha confirmado en sus propios foros de soporte que la lista limitada de idiomas de Voice Access es por diseño, sin hoja de ruta pública para ampliarla. Voice Typing en la nube tiene más cobertura pero a costa de enviar todo el audio a Azure. SnailText esquiva esto ejecutando Whisper, que fue de código abierto y multilingüe desde el primer día.

¿Está disponible "Fluid Dictation" en mi PC?

+

Probablemente no, salvo que hayas comprado un PC Copilot+ en 2024 o después — es decir, un portátil con NPU dedicada (Snapdragon X, Intel Core Ultra con NPU o AMD Ryzen AI). La documentación de Microsoft limita explícitamente Fluid Dictation al hardware Copilot+, y solo está disponible en inglés. Un portátil Windows 11 estándar de 2022-2023 obtiene la experiencia básica de Voice Typing sin el pulido.

¿Subes mi audio a algún servidor?

+

No. Whisper corre localmente dentro de SnailText en tu PC. El búfer de audio permanece en RAM durante la sesión de grabación y no se escribe en el disco. No subimos audio a ningún servidor en ningún modo, gratuito o de pago. Puedes verificarlo en tu monitor de red — sin tráfico saliente durante el dictado.

¿Funciona sin una GPU NVIDIA?

+

Sí. SnailText detecta automáticamente la aceleración GPU disponible. NVIDIA CUDA es la más rápida, pero Vulkan (AMD e iGPUs Intel desde 2020 en adelante) y la reserva de CPU también funcionan. En un portátil Windows típico de 2022+, obtendrás rendimiento Whisper Medium varias veces más rápido que en tiempo real incluso sin GPU discreta.

¿Marcará el instalador Windows SmartScreen como sospechoso?

+

Es posible en la primera ejecución, porque SnailText aún no tiene firma Authenticode de una autoridad de certificación reconocida por Microsoft. El proceso "Más información" → "Ejecutar de todas formas" funciona. La certificación Authenticode está en curso.

¿Puedo usarlo para dictado de código en VS Code o Cursor?

+

Sí — SnailText pega en cualquier campo de texto, incluidos los textareas de VS Code y Cursor. El diccionario personalizado (Pro) es útil para código: añade términos como "kubectl", "gRPC", "async/await" y SnailText sustituye las versiones mal escuchadas antes de llegar al editor.

Voz a texto en Windows. Local. Cualquier idioma. Gratis para empezar.

Descarga para Windows 10 u 11. El modelo Whisper compacto corre en cualquier PC moderno. Sin paquetes de idioma, sin rodeo por la nube, sin tiempo de espera.