Dois recursos de voz no Windows: o que é cada um
O Windows em 2026 tem dois recursos de ditado separados. A maioria dos artigos online os trata como um único produto. Não são.
Voice Typing (ativado com Win+H) é uma ferramenta de ditado baseada na nuvem. A Microsoft documenta isso explicitamente: para usar o Voice Typing, você precisa estar conectado à internet. A cada sessão de ditado, o áudio do microfone é enviado para os serviços Azure Speech da Microsoft para transcrição. O texto retorna e é colado no campo de texto ativo, e o áudio (segundo a Microsoft) é desidentificado e não armazenado sem consentimento — mas saiu do seu dispositivo.
Voice Access é o recurso mais novo, adicionado no Windows 11 22H2 (outubro de 2022). É uma ferramenta de acessibilidade mais ampla que inclui ditado, mas também permite controlar o sistema operacional por voz: abrir apps, clicar em botões, rolar, navegar. A parte de ditado do Voice Access roda no dispositivo, offline. Não existe no Windows 10. No Windows 10, você tem a ferramenta "Reconhecimento de Fala do Windows" mais antiga, com recursos diferentes.
A diferença prática: o Voice Typing suporta mais idiomas, mas sempre precisa de internet. O Voice Access roda offline, mas suporta menos idiomas. Nenhum dos dois faz as duas coisas.
A cobertura de idiomas: o problema real
O Voice Access — a opção offline — suporta apenas 11 idiomas: seis variantes do inglês (EUA, Reino Unido, Índia, Nova Zelândia, Canadá, Austrália), dois do espanhol (Espanha, México), alemão, francês (França e Canadá), italiano, japonês, chinês simplificado e chinês tradicional (Taiwan). Só isso.
O que falta: russo, português (Brasil e Portugal), polonês, holandês, sueco, dinamarquês, norueguês, finlandês, tcheco, húngaro, grego, turco, hindi, árabe, coreano, tailandês, vietnamita e dezenas de outros. A Microsoft confirmou no próprio fórum de suporte que as limitações de idioma do Voice Access são por design, sem compromisso de roadmap para expansão.
O Voice Typing — a opção na nuvem — suporta mais idiomas (~43, incluindo português, coreano, tailandês, turco, vietnamita, hindi). Mas envia seu áudio para a Microsoft a cada ditado. Para quem dita informações de clientes, notas médicas, código-fonte ou qualquer dado sensível, "STT na nuvem sem opção offline" é a arquitetura errada.
O SnailText executa o Whisper localmente. O Whisper é multilíngue por design — o mesmo modelo que processa inglês processa 100+ idiomas, incluindo todos os que a opção offline da Microsoft não cobre. O ditado em português funciona no SnailText. Polonês, holandês, tcheco: todos na mesma instalação. Sem pacotes de idioma para baixar. Sem desvio pela nuvem.
O tempo limite de pausa do Win+H — a reclamação mais citada
O Voice Typing do Windows tem um tempo limite de silêncio não personalizável que encerra a sessão de ditado após cerca de 5 a 10 segundos de pausa. O número exato não aparece nos materiais de marketing da Microsoft, mas é tema de vários tópicos de usuários. A resposta em ambos: não é possível alterar.
Para redigir um e-mail com mais de dois parágrafos, isso significa reativar Win+H duas ou três vezes na mesma mensagem. Para fluxos de trabalho em que se pensa enquanto se dita — notas de pesquisa, planos de tratamento, rascunhos em que pausas para reflexão são normais — o corte faz a ferramenta parecer que trabalha contra você.
O SnailText roda enquanto você mantém o atalho pressionado, ou até você pressioná-lo novamente para parar. Não há tempo limite de silêncio. Um despejo de ideias de cinco minutos é ditado como uma única sessão.
"Fluid Dictation" requer hardware especial — a maioria dos PCs não se qualifica
A campanha de marketing da Microsoft em 2025 para o Voice Typing focou no "Fluid Dictation" — uma camada de polimento que adiciona pontuação automática, remove vícios de linguagem (tipo, né, hmm) e corrige a gramática em tempo real. As avaliações desse recurso são positivas quando funciona.
A própria documentação da Microsoft indica que o Fluid Dictation requer um PC Copilot+ — ou seja, uma NPU (Unidade de Processamento Neural) dedicada no hardware: Snapdragon X (notebooks Surface de 2024+), Intel Core Ultra com NPU ou AMD Ryzen AI. E está disponível apenas em inglês.
Em 2026, a base instalada de PCs Copilot+ ainda é pequena. Um PC Windows 11 padrão comprado em 2022 ou 2023, sem NPU, tem a experiência básica do Voice Typing — sem correção gramatical automática, sem remoção de vícios, sem polimento em tempo real. O marketing de 2025 se aplica a talvez 5-10% da base instalada do Windows.
Como o SnailText preenche as lacunas de voz para texto no Windows
Processamento local. O SnailText executa o modelo Whisper no seu PC — CPU em máquinas mais antigas, Vulkan em GPUs integradas AMD e Intel, CUDA em GPUs NVIDIA. O áudio é capturado em um buffer na RAM, processado pelo modelo, o texto transcrito é colado no cursor e o áudio é descartado. Verifique no seu monitor de rede — sem tráfego de saída durante o ditado.
Qualquer idioma suportado pelo Whisper. Mais de 100 idiomas na mesma instalação, sem pacotes para baixar. O russo funciona igual ao inglês. O português funciona igual ao francês. Sem lacunas por região — veja também nossa página de ditado offline para o argumento de arquitetura.
Sem tempo limite. Pressione o atalho, fale pelo tempo que quiser — cinco segundos ou cinco minutos — pressione novamente para parar. A transcrição é um bloco único.
Atalho configurável. O padrão é Ctrl+Espaço; reatribua para qualquer combinação que não conflite com seus outros atalhos.
Funciona em qualquer app. O SnailText cola no campo de texto ativo, da mesma forma que Ctrl+V. Slack, Chrome, VS Code, Cursor, emuladores de terminal, formulários web, Anki — onde funcionar um teclado, o ditado funciona.
Grátis para começar. O modelo Whisper Base compacto cobre o ditado cotidiano em inglês e português; Pro adiciona modelos Whisper maiores e mais de 25 idiomas europeus via Parakeet TDT.
Como configurar voz para texto no Windows em 60 segundos
1. Baixe o instalador do SnailText em snailtext.app/download/windows/.
2. Execute o instalador. O Windows SmartScreen pode alertar porque o SnailText ainda não tem assinatura Authenticode de uma autoridade certificadora reconhecida pela Microsoft — clique em "Mais informações" → "Executar assim mesmo".
3. Na primeira inicialização, o SnailText baixa o modelo Whisper padrão (Base, cerca de 80 MB) e o carrega.
4. Configure seu atalho global em Configurações. O padrão é Ctrl+Espaço.
5. Abra qualquer app — Slack, Chrome, Word, Notion, sua IDE. Pressione o atalho. Fale. Pressione novamente. O texto transcrito aparece no cursor.