Dos funciones de voz en Windows: qué es cada una
Windows en 2026 incluye dos funciones de dictado separadas. La mayoría de artículos online las tratan como un solo producto. No lo son.
Voice Typing (activado con Win+H) es una herramienta de dictado en la nube. Microsoft lo documenta explícitamente: para usar Voice Typing necesitas conexión a internet. En cada sesión de dictado, el audio del micrófono se envía a los servicios Azure Speech de Microsoft para su transcripción. El texto vuelve y se pega en el campo de texto activo, y el audio (según Microsoft) se desidentifica y no se almacena sin consentimiento — pero ha salido de tu dispositivo.
Voice Access es la función más nueva, añadida en Windows 11 22H2 (octubre de 2022). Es una herramienta de accesibilidad más amplia que incluye dictado pero también permite controlar el sistema operativo por voz: abrir apps, hacer clic, desplazarse, navegar. La parte de dictado de Voice Access corre en el dispositivo, sin conexión. No existe en Windows 10. En Windows 10 tienes en cambio la herramienta "Reconocimiento de voz de Windows", más antigua y con funciones distintas.
La diferencia práctica: Voice Typing admite más idiomas pero siempre necesita internet. Voice Access funciona sin conexión pero admite menos idiomas. Ninguna hace las dos cosas.
La cobertura de idiomas: el problema real
Voice Access — la opción sin conexión — solo incluye 11 idiomas: seis variantes del inglés (EE.UU., Reino Unido, India, Nueva Zelanda, Canadá, Australia), dos del español (España, México), alemán, francés (Francia y Canadá), italiano, japonés, chino simplificado y chino tradicional (Taiwán). Eso es todo.
Lo que falta: ruso, portugués (Brasil y Portugal), polaco, neerlandés, sueco, danés, noruego, finlandés, checo, húngaro, griego, turco, hindi, árabe, coreano, tailandés, vietnamita y decenas más. Cuando se preguntó por el sueco en el propio foro de Microsoft, la respuesta oficial confirma que las limitaciones son "por diseño" sin compromiso de hoja de ruta.
Voice Typing — la opción en la nube — admite más idiomas (~43, incluyendo portugués, coreano, tailandés, turco, vietnamita, hindi). Pero envía tu audio a Microsoft en cada dictado. Para cualquiera cuyo dictado contenga información de clientes, notas médicas, código fuente o cualquier dato sensible, "STT en la nube sin opción offline" es la arquitectura incorrecta.
SnailText ejecuta Whisper localmente. Whisper es multilingüe por diseño — el mismo modelo que maneja el inglés maneja 100+ idiomas, incluidos todos los que la opción offline de Microsoft no cubre. El dictado en ruso funciona en SnailText. El portugués funciona. El polaco, el neerlandés, el checo: todos en la misma instalación. Sin paquetes de idioma que descargar. Sin rodeo por la nube.
El tiempo de espera de Win+H — la queja más citada
Voice Typing de Windows tiene un tiempo de espera de silencio no personalizable que termina la sesión de dictado tras unos 5-10 segundos de pausa. El número exacto no aparece en los materiales de marketing de Microsoft, pero es el tema de varios hilos de usuarios, incluido un largo hilo de Microsoft Q&A y otro en Windows Forum preguntando cómo evitarlo. La respuesta en ambos: no se puede.
Para redactar un email de más de dos párrafos, esto implica reactivar Win+H dos o tres veces en un mismo mensaje. Para flujos de trabajo en los que se piensa mientras se dicta — notas de investigación, planes de tratamiento, borradores de escritos en los que las pausas para reflexionar son normales — el corte hace que la herramienta parezca que trabaja en tu contra.
SnailText corre mientras mantienes el atajo pulsado, o hasta que lo pulsas de nuevo para parar. No hay tiempo de espera por silencio. Un volcado de ideas de cinco minutos se dicta como una sola sesión.
"Fluid Dictation" requiere hardware especial — la mayoría de PCs no pasan el corte
La campaña de marketing de Microsoft en 2025 para Voice Typing se centró en "Fluid Dictation" — una capa de pulido que añade puntuación automática, elimina muletillas (eh, este, umm) y corrige la gramática en tiempo real. Las reseñas de esta función son positivas cuando funciona.
La propia documentación de Microsoft indica que Fluid Dictation requiere un PC Copilot+ — es decir, una NPU (Unidad de Procesamiento Neural) dedicada en el hardware: Snapdragon X (portátiles Surface de 2024+), Intel Core Ultra con NPU o AMD Ryzen AI. Y solo está disponible en inglés.
En 2026, la base instalada de PCs Copilot+ sigue siendo pequeña. Un PC Windows 11 estándar comprado en 2022 o 2023, sin NPU, obtiene la experiencia más básica de Voice Typing — sin corrección gramatical automática, sin eliminación de muletillas, sin pulido en tiempo real. El marketing de 2025 aplica a quizás el 5-10% de la base instalada de Windows.
Cómo SnailText cubre los huecos de voz a texto en Windows
Procesamiento local. SnailText ejecuta el modelo Whisper en tu PC — CPU en máquinas antiguas, Vulkan en GPUs integradas AMD e Intel, CUDA en GPUs NVIDIA. El audio se captura en un búfer en RAM, el modelo lo procesa, el texto transcrito se pega en el cursor y el audio se descarta. Compruébalo en tu monitor de red — sin tráfico saliente durante el dictado.
Cualquier idioma de Whisper. Más de 100 idiomas en la misma instalación, sin paquetes que descargar. El ruso funciona igual que el inglés. El portugués igual que el francés. Sin huecos por región — consulta también nuestra página de dictado offline para el argumento de arquitectura.
Sin tiempo de espera. Pulsa el atajo, habla todo el tiempo que quieras — cinco segundos o cinco minutos — vuelve a pulsarlo para parar. La transcripción es un bloque único.
Atajo configurable. El predeterminado es Ctrl+Espacio; reasígnalo a cualquier combinación que no conflicte con tus otros atajos. Sin bloqueo en Win+H.
Funciona en cualquier app. SnailText pega en el campo de texto activo, igual que Ctrl+V. Slack, Chrome, VS Code, Cursor, emuladores de terminal, EHRs en web, formularios, Anki — donde funcione un teclado, funciona el dictado.
Gratis para empezar. El modelo Whisper Base compacto cubre el dictado cotidiano en inglés y español; Pro añade modelos Whisper más grandes y más de 25 idiomas europeos via Parakeet TDT. Para el argumento multiplataforma, consulta voz a texto en Mac.
Cómo configurar voz a texto en Windows en 60 segundos
1. Descarga el instalador de SnailText desde snailtext.app/download/windows/.
2. Ejecuta el instalador. Windows SmartScreen puede avisar porque SnailText aún no tiene firma Authenticode de una autoridad de certificación reconocida por Microsoft — haz clic en "Más información" → "Ejecutar de todas formas".
3. En el primer arranque, SnailText descarga el modelo Whisper predeterminado (Base, unos 80 MB) y lo carga.
4. Configura tu atajo global en Ajustes. El predeterminado es Ctrl+Espacio.
5. Abre cualquier app — Slack, Chrome, Word, Notion, tu IDE. Pulsa el atajo. Habla. Vuelve a pulsarlo. El texto transcrito aparece en el cursor.