SnailText
PT

Voz para texto no Windows

Voz para texto no Windows — e o que falta no que o Windows oferece

·

O Windows tem ditado integrado. Funciona para frases curtas em inglês em apps da Microsoft. Para trabalho contínuo, outros idiomas ou uso offline, tem limitações estruturais documentadas. SnailText é a alternativa local com Whisper.

O resumo

O Windows tem dois recursos de voz que costumam ser confundidos. O Voice Typing (Win+H) é baseado na nuvem — o áudio vai para o Azure a cada ditado, cobre inglês e ~43 idiomas na nuvem, e para após cerca de 5-10 segundos de silêncio (sem personalização). O Voice Access (somente Windows 11 22H2+) funciona offline mas suporta apenas 11 idiomas — variantes do inglês, dois do espanhol, alemão, francês, italiano, japonês e dois do chinês. Sem russo, sem português, sem eslavos, sem nórdicos. O recurso "Fluid Dictation" (com correção gramatical automática de 2025) requer um PC Copilot+ com NPU. O SnailText executa o modelo Whisper localmente em qualquer PC Windows moderno, funciona em qualquer app, suporta qualquer idioma do Whisper e não depende do ecossistema de pacotes de idioma da Microsoft.

Dois recursos de voz no Windows, ambos com limitações estruturais

A maioria dos artigos confunde Voice Typing e Voice Access. São ferramentas diferentes com modelos de processamento diferentes. Ambas vêm com o Windows; nenhuma cobre o que um fluxo de trabalho de ditado diário precisa em 2026.

RecursoVoice Typing (Win+H)Voice Access (Win 11 22H2+)SnailText
ProcessamentoNuvem — áudio para o Azure a cada ditado, requer internetOffline — roda no dispositivoOffline — Whisper roda localmente no seu PC
Cobertura de idiomas~43 idiomas na nuvem (a Microsoft não os enumera em um único lugar)Apenas 11 idiomas: variantes do inglês, espanhol (ES/MX), alemão, francês (FR/CA), italiano, japonês, chinês simplificado e tradicionalQualquer idioma suportado pelo Whisper (100+) — russo, português, polonês, holandês, nórdicos, todos incluídos
Tempo limite de pausaCerca de 5-10 segundos de silêncio encerram a sessão; sem personalizaçãoMesmo corte sem personalizaçãoIlimitado — roda até você pressionar o atalho novamente
Atalho de tecladoWin+H, não personalizávelAtivação apenas por comando de voz; a barra de ferramentas deve estar visívelCtrl+Espaço global (configurável para qualquer combinação)
Onde funcionaNa maioria dos campos de texto, mas com lacunas documentadas (Anki, alguns campos do Word, alguns textareas de navegador mostram aviso de "funcionalidade limitada")Principalmente apps da Microsoft; o comportamento em apps de terceiros variaQualquer campo de texto em qualquer app — baseado em colagem, como Ctrl+V
Pontuação automáticaOpção disponível, mas com falhas; o comando "vírgula" é pouco confiável segundo fóruns da MicrosoftMesma opção, mesma confiabilidadeO Whisper infere a pontuação pela prosódia — sem comandos para memorizar
Polimento "Fluid Dictation" (correção gramatical, remoção de vícios de linguagem)Somente em PCs Copilot+ (NPU necessária: Snapdragon X, Intel Core Ultra, AMD Ryzen AI). Somente inglês.Não disponívelDicionário personalizado + snippets (plano Pro) para resultado similar, em qualquer hardware
Suporte ao Windows 10SimNão — somente Windows 11 22H2+. O Windows 10 tem a ferramenta de Reconhecimento de Fala mais antiga, com recursos diferentesSim — Windows 10 (1903+) e Windows 11

Fontes das afirmações sobre a Microsoft: vinculadas na seção de texto abaixo. O "corte de pausa de 5-10 segundos" está documentado em fóruns de usuários e respostas do Microsoft Q&A, não em materiais de marketing da Microsoft.

Dois recursos de voz no Windows: o que é cada um

O Windows em 2026 tem dois recursos de ditado separados. A maioria dos artigos online os trata como um único produto. Não são.

Voice Typing (ativado com Win+H) é uma ferramenta de ditado baseada na nuvem. A Microsoft documenta isso explicitamente: para usar o Voice Typing, você precisa estar conectado à internet. A cada sessão de ditado, o áudio do microfone é enviado para os serviços Azure Speech da Microsoft para transcrição. O texto retorna e é colado no campo de texto ativo, e o áudio (segundo a Microsoft) é desidentificado e não armazenado sem consentimento — mas saiu do seu dispositivo.

Voice Access é o recurso mais novo, adicionado no Windows 11 22H2 (outubro de 2022). É uma ferramenta de acessibilidade mais ampla que inclui ditado, mas também permite controlar o sistema operacional por voz: abrir apps, clicar em botões, rolar, navegar. A parte de ditado do Voice Access roda no dispositivo, offline. Não existe no Windows 10. No Windows 10, você tem a ferramenta "Reconhecimento de Fala do Windows" mais antiga, com recursos diferentes.

A diferença prática: o Voice Typing suporta mais idiomas, mas sempre precisa de internet. O Voice Access roda offline, mas suporta menos idiomas. Nenhum dos dois faz as duas coisas.

A cobertura de idiomas: o problema real

O Voice Access — a opção offline — suporta apenas 11 idiomas: seis variantes do inglês (EUA, Reino Unido, Índia, Nova Zelândia, Canadá, Austrália), dois do espanhol (Espanha, México), alemão, francês (França e Canadá), italiano, japonês, chinês simplificado e chinês tradicional (Taiwan). Só isso.

O que falta: russo, português (Brasil e Portugal), polonês, holandês, sueco, dinamarquês, norueguês, finlandês, tcheco, húngaro, grego, turco, hindi, árabe, coreano, tailandês, vietnamita e dezenas de outros. A Microsoft confirmou no próprio fórum de suporte que as limitações de idioma do Voice Access são por design, sem compromisso de roadmap para expansão.

O Voice Typing — a opção na nuvem — suporta mais idiomas (~43, incluindo português, coreano, tailandês, turco, vietnamita, hindi). Mas envia seu áudio para a Microsoft a cada ditado. Para quem dita informações de clientes, notas médicas, código-fonte ou qualquer dado sensível, "STT na nuvem sem opção offline" é a arquitetura errada.

O SnailText executa o Whisper localmente. O Whisper é multilíngue por design — o mesmo modelo que processa inglês processa 100+ idiomas, incluindo todos os que a opção offline da Microsoft não cobre. O ditado em português funciona no SnailText. Polonês, holandês, tcheco: todos na mesma instalação. Sem pacotes de idioma para baixar. Sem desvio pela nuvem.

O tempo limite de pausa do Win+H — a reclamação mais citada

O Voice Typing do Windows tem um tempo limite de silêncio não personalizável que encerra a sessão de ditado após cerca de 5 a 10 segundos de pausa. O número exato não aparece nos materiais de marketing da Microsoft, mas é tema de vários tópicos de usuários. A resposta em ambos: não é possível alterar.

Para redigir um e-mail com mais de dois parágrafos, isso significa reativar Win+H duas ou três vezes na mesma mensagem. Para fluxos de trabalho em que se pensa enquanto se dita — notas de pesquisa, planos de tratamento, rascunhos em que pausas para reflexão são normais — o corte faz a ferramenta parecer que trabalha contra você.

O SnailText roda enquanto você mantém o atalho pressionado, ou até você pressioná-lo novamente para parar. Não há tempo limite de silêncio. Um despejo de ideias de cinco minutos é ditado como uma única sessão.

"Fluid Dictation" requer hardware especial — a maioria dos PCs não se qualifica

A campanha de marketing da Microsoft em 2025 para o Voice Typing focou no "Fluid Dictation" — uma camada de polimento que adiciona pontuação automática, remove vícios de linguagem (tipo, né, hmm) e corrige a gramática em tempo real. As avaliações desse recurso são positivas quando funciona.

A própria documentação da Microsoft indica que o Fluid Dictation requer um PC Copilot+ — ou seja, uma NPU (Unidade de Processamento Neural) dedicada no hardware: Snapdragon X (notebooks Surface de 2024+), Intel Core Ultra com NPU ou AMD Ryzen AI. E está disponível apenas em inglês.

Em 2026, a base instalada de PCs Copilot+ ainda é pequena. Um PC Windows 11 padrão comprado em 2022 ou 2023, sem NPU, tem a experiência básica do Voice Typing — sem correção gramatical automática, sem remoção de vícios, sem polimento em tempo real. O marketing de 2025 se aplica a talvez 5-10% da base instalada do Windows.

Como o SnailText preenche as lacunas de voz para texto no Windows

Processamento local. O SnailText executa o modelo Whisper no seu PC — CPU em máquinas mais antigas, Vulkan em GPUs integradas AMD e Intel, CUDA em GPUs NVIDIA. O áudio é capturado em um buffer na RAM, processado pelo modelo, o texto transcrito é colado no cursor e o áudio é descartado. Verifique no seu monitor de rede — sem tráfego de saída durante o ditado.

Qualquer idioma suportado pelo Whisper. Mais de 100 idiomas na mesma instalação, sem pacotes para baixar. O russo funciona igual ao inglês. O português funciona igual ao francês. Sem lacunas por região — veja também nossa página de ditado offline para o argumento de arquitetura.

Sem tempo limite. Pressione o atalho, fale pelo tempo que quiser — cinco segundos ou cinco minutos — pressione novamente para parar. A transcrição é um bloco único.

Atalho configurável. O padrão é Ctrl+Espaço; reatribua para qualquer combinação que não conflite com seus outros atalhos.

Funciona em qualquer app. O SnailText cola no campo de texto ativo, da mesma forma que Ctrl+V. Slack, Chrome, VS Code, Cursor, emuladores de terminal, formulários web, Anki — onde funcionar um teclado, o ditado funciona.

Grátis para começar. O modelo Whisper Base compacto cobre o ditado cotidiano em inglês e português; Pro adiciona modelos Whisper maiores e mais de 25 idiomas europeus via Parakeet TDT.

Como configurar voz para texto no Windows em 60 segundos

1. Baixe o instalador do SnailText em snailtext.app/download/windows/.

2. Execute o instalador. O Windows SmartScreen pode alertar porque o SnailText ainda não tem assinatura Authenticode de uma autoridade certificadora reconhecida pela Microsoft — clique em "Mais informações" → "Executar assim mesmo".

3. Na primeira inicialização, o SnailText baixa o modelo Whisper padrão (Base, cerca de 80 MB) e o carrega.

4. Configure seu atalho global em Configurações. O padrão é Ctrl+Espaço.

5. Abra qualquer app — Slack, Chrome, Word, Notion, sua IDE. Pressione o atalho. Fale. Pressione novamente. O texto transcrito aparece no cursor.

Perguntas frequentes

Funciona no Windows 10?

+

Sim. O SnailText suporta Windows 10 (64 bits, 1903 ou posterior) e Windows 11. O Voice Access — a opção offline da Microsoft — é apenas para Windows 11 22H2+. No Windows 10, o SnailText é uma das poucas opções que oferece ditado moderno com qualidade Whisper.

Qual a diferença do Voice Typing (Win+H)?

+

O Voice Typing requer conexão com a internet e envia seu áudio para os servidores Azure da Microsoft a cada ditado. O SnailText executa o modelo Whisper localmente — o áudio nunca sai do seu PC. O Voice Typing tem um tempo limite de pausa não personalizável de 5-10 segundos; o SnailText roda até você pressionar o atalho para parar. O Voice Typing suporta cerca de 43 idiomas na nuvem, mas sem modo offline; o SnailText suporta qualquer idioma do Whisper (100+) offline.

Qual a diferença do Voice Access?

+

O Voice Access é apenas para Windows 11 22H2+ e suporta apenas 11 idiomas offline (variantes do inglês, espanhol, alemão, francês, italiano, japonês, chinês). Se você precisar de russo, português, polonês, holandês ou qualquer idioma nórdico ou eslavo, o Voice Access não te atende. O SnailText executa o Whisper, que suporta mais de 100 idiomas offline na mesma instalação.

Por que a opção offline da Microsoft suporta tão poucos idiomas?

+

A Microsoft confirmou em seus próprios fóruns de suporte que a lista limitada de idiomas do Voice Access é por design, sem roadmap público para expansão. O Voice Typing na nuvem tem mais cobertura, mas ao custo de enviar todo o áudio para o Azure. O SnailText contorna isso executando o Whisper, que foi multilíngue de código aberto desde o primeiro dia.

O "Fluid Dictation" está disponível no meu PC?

+

Provavelmente não, a menos que você tenha comprado um PC Copilot+ em 2024 ou depois — ou seja, um notebook com NPU dedicada (Snapdragon X, Intel Core Ultra com NPU ou AMD Ryzen AI). A documentação da Microsoft limita explicitamente o Fluid Dictation ao hardware Copilot+, e está disponível apenas em inglês. Um notebook Windows 11 padrão de 2022-2023 tem a experiência básica do Voice Typing sem o polimento.

Você envia meu áudio para algum servidor?

+

Não. O Whisper roda localmente dentro do SnailText no seu PC. O buffer de áudio fica na RAM durante a sessão de gravação e não é gravado no disco. Não enviamos áudio para nenhum servidor em nenhum modo, gratuito ou pago. Você pode verificar no seu monitor de rede — sem tráfego de saída durante o ditado.

Funciona sem uma GPU NVIDIA?

+

Sim. O SnailText detecta automaticamente a aceleração de GPU disponível. NVIDIA CUDA é a mais rápida, mas Vulkan (AMD e iGPUs Intel de 2020 em diante) e fallback de CPU também funcionam. Em um notebook Windows típico de 2022+, você obterá desempenho do Whisper Medium várias vezes mais rápido que em tempo real, mesmo sem GPU discreta.

O Windows SmartScreen vai sinalizar o instalador?

+

É possível na primeira execução, porque o SnailText ainda não tem assinatura Authenticode de uma autoridade certificadora reconhecida pela Microsoft. O processo "Mais informações" → "Executar assim mesmo" funciona. A certificação Authenticode está em andamento.

Posso usá-lo para ditado de código no VS Code ou Cursor?

+

Sim — o SnailText cola em qualquer campo de texto, incluindo textareas do VS Code e Cursor. O dicionário personalizado (Pro) é útil para código: adicione termos como "kubectl", "gRPC", "async/await" e o SnailText substitui as versões mal entendidas antes de chegar ao editor.

Voz para texto no Windows. Local. Qualquer idioma. Grátis para começar.

Baixe para Windows 10 ou 11. O modelo Whisper compacto roda em qualquer PC moderno. Sem pacotes de idioma, sem desvio pela nuvem, sem tempo limite de pausa.