Você aperta o atalho, começa uma frase e a tela mostra ela começando a partir da segunda palavra. “…me manda o arquivo quando der” em vez de “ei, você pode me mandar o arquivo quando der?”. Você perde a primeira palavra, às vezes as duas ou três primeiras. Aí você volta e as digita à mão, o que meio que anula o sentido de falar em vez de digitar.
Esta é uma das reclamações mais comuns sobre ditado em 2026. Os fóruns de suporte da Apple têm vários tópicos separados sobre o assunto. Usuários de Windows também enfrentam isso. E usuários de apps de terceiros também, especialmente depois de uma atualização. A boa notícia: a causa é bem compreendida, e quando você sabe o que está acontecendo dá para contornar ou escolher uma ferramenta que não tenha o problema.
É um problema de temporização, não do microfone
O instinto é culpar o microfone. As pessoas compram um headset novo, trocam de Bluetooth para cabo, mexem nas configurações de entrada. Isso raramente resolve, porque o microfone normalmente não é o problema. Veja o que realmente acontece. Quando você aciona o ditado, três coisas precisam se alinhar antes de sua voz poder ser gravada:
- O app muda para o modo de gravação.
- A sessão do microfone acorda e começa a entregar áudio.
- Em alguns sistemas, o sistema operacional cede a prioridade de áudio ao app. Nada disso é instantâneo. Há um intervalo — geralmente uma fração de segundo, às vezes mais — entre o momento em que você apertou a tecla e o momento em que o áudio está sendo capturado de verdade. Se você começa a falar dentro desse intervalo, sua primeira palavra acontece enquanto ainda não há nada escutando. Ela não é transcrita errado. Simplesmente some. É por isso que um microfone novo não ajuda. O hardware de áudio funciona perfeitamente. A palavra nunca chegou ao gravador, para começar.
Por que piora com o tempo (o caso do Mac)
Muita gente percebe o problema surgindo aos poucos: estava tudo bem quando instalaram o app e, semanas depois, a primeira palavra começou a desaparecer. Há uma razão específica para isso, e ela aparece sobretudo no Mac. Para deixar a ativação instantânea, muitos apps mantêm a sessão do microfone rodando em segundo plano entre os ditados em vez de abrir uma nova a cada vez. Isso funciona bem no começo. Mas a sessão em segundo plano pode acumular latência com o tempo, especialmente se outro app, como Zoom, Teams ou uma aba do navegador, agarra o microfone brevemente. Quando isso acontece, o macOS reordena as prioridades de áudio, e devolver o controle ao app de ditado leva um instante a mais do que costumava. Então, quando você aperta o atalho, o app acha que o microfone está pronto, mas o sistema operacional ainda está devolvendo o controle. O app inicia seu temporizador, você começa a falar e sua primeira palavra cai no intervalo da transferência. É por isso que fechar e reabrir o app resolve: uma inicialização limpa cria uma sessão de áudio nova, sem latência acumulada. Você não deveria precisar fazer isso, mas isso explica o padrão.
No Windows: o mesmo intervalo, outro encanamento
A história da latência da sessão aquecida acima é mais visível no Mac, mas o problema de fundo não é exclusivo do Mac. A causa raiz — um intervalo entre acionar o ditado e o áudio realmente ser capturado — existe também no Windows. O Windows gerencia as sessões do microfone de forma diferente do macOS, então a maneira exata como a latência se acumula não é idêntica, mas o sintoma é o mesmo: aperta a tecla, começa a falar, perde a primeira palavra. Aparece tanto no Windows Voice Typing (Win+H) quanto em apps de ditado de terceiros. As mesmas soluções provisórias se aplicam: espere um sinal de pronto real, comece com um som descartável e reinicie o app ou selecione o microfone de novo se o intervalo aparecer ao longo de uma sessão longa. E a mesma solução real se aplica — o app não deveria se apresentar como gravando até a captura ter realmente começado.
O que você pode fazer agora mesmo
Se você está preso a um app que faz isso, três soluções provisórias ajudam:
- Espere o sinal de pronto antes de falar. Se o app toca um som ou muda de cor quando está pronto, trate isso como uma luz verde e não comece até ver ou ouvir. O meio segundo de paciência poupa a redigitação.
- Comece com uma sílaba descartável. Diga “hum” ou “ok” primeiro, e depois sua frase de verdade. O app engole o som descartável no intervalo de ativação, e suas palavras reais chegam limpas. Um pouco bobo, mas funciona.
- Reinicie a sessão quando a latência aparecer. Se você está ditando há horas e a primeira palavra começa a sumir, feche e reabra o app, ou alterne o microfone nas configurações. Qualquer uma das opções força uma sessão de áudio nova e restaura a resposta instantânea. Esses são remendos, não soluções. A solução real precisa vir do app.
A solução real: não afirme “pronto” antes de estar
Todo o problema se resume a uma decisão de design: quando o app diz que está escutando? Muitos apps pulam direto para uma animação de gravação no instante em que você aperta a tecla. A pílula fica vermelha, a forma de onda começa a dançar, tudo diz “vai”. Mas, por baixo dos panos, a captura de áudio ainda não começou de verdade. A animação está reagindo ao seu apertar de tecla, não à gravação real. Então você confia na luz verde, começa a falar e perde a primeira palavra mesmo assim, porque a luz estava mentindo. A solução é o app separar dois estados:
- Preparando — “Ouvi você apertar a tecla, estou me preparando”. Um sinal neutro que não significa que a gravação começou.
- Gravando — exibido somente depois que o fluxo de áudio está realmente capturando, confirmado pelo próprio gravador, não presumido a partir do apertar do botão. Quando um app faz isso, o momento em que ele diz “vai” é o momento em que está de fato capturando. Espere por esse sinal e sua primeira palavra sempre chega, porque não sobra nenhum intervalo entre o sinal e a captura real.
Como o SnailText lida com isso
Esta é exatamente a falha que o SnailText foi construído para evitar, então vale detalhar o design como exemplo concreto da solução acima. No instante em que você aperta o atalho, o SnailText mostra um estado de preparando distinto: uma animação neutra, sem cor vermelha de gravação, sem forma de onda. Significa “se preparando”, não “gravando agora”. O app não muda para o estado de gravação, nem trata nenhum áudio como parte da sua transcrição, até o fluxo de áudio ter realmente começado a capturar. Essa mudança é disparada pelo gravador confirmando que a captura começou, não pelo apertar da tecla. Como nada conta como sua fala até a captura real ser confirmada, as palavras iniciais da sua frase não se perdem no intervalo de ativação. Não há nenhuma janela em que o app pareça pronto sem estar. Além disso, há um som de pronto opcional. Quando a gravação começa de verdade, ele toca um sinal curto, então você recebe uma luz verde clara e honesta para começar a falar. Ele roda localmente como tudo o mais no app, e é o tipo de sinal em que você pode realmente confiar, porque dispara com a captura real, não com o apertar do botão. Para ser direto: nenhum app pode prometer que o sistema operacional nunca vai introduzir um soluço, e uma conexão Bluetooth instável ainda pode cortar uma sílaba em qualquer ferramenta. Mas o caso comum — a primeira palavra sumindo porque o app disse “vai” antes de falar sério — é um problema de design, e é um que tem solução.
A versão curta
Seu ditado corta a primeira palavra porque há um intervalo entre apertar a tecla e o áudio realmente ser capturado, e você está falando dentro desse intervalo. É uma questão de temporização, não do seu microfone. Espere um sinal de pronto real, use uma sílaba descartável ou reinicie quando a latência se acumular. E se você está cansado de ficar remendando isso, escolha um app que não diga que está gravando até realmente estar — baixe o SnailText e o estado de gravação só dispara com a captura real.