Por que o Apple Dictation não é suficiente para o ditado diário
O Apple Dictation funciona. Roda no dispositivo em qualquer Mac com chip M1 ou posterior, a transcrição é aceitável para frases curtas e não custa nada. Para uma mensagem rápida ou uma busca de uma linha, cumpre o papel.
Deixa de ser suficiente quando você tenta usá-lo para trabalho real. A documentação da Apple afirma que o Dictation não tem limite de duração estrito no Apple Silicon — mas para automaticamente após 30 segundos de silêncio detectado, o que inclui as pausas naturais enquanto você pensa. Reativar o atalho duas ou três vezes em um único e-mail vira rotina.
O segundo problema é a precisão em conteúdo técnico. O Apple Dictation vai bem com fala clara e geral, e visivelmente pior com código, jargão, inglês com sotaque e vocabulário específico de domínio. Ferramentas de terceiros rodando modelos Whisper são materialmente melhores.
O terceiro é o limite de integração. O Apple Dictation funciona dentro de apps da Apple e na maioria dos campos de texto nativos do macOS. Não tem um fluxo consistente em web apps, apps Electron ou terminais. Você acaba desativando em metade dos lugares onde quer usar.
Ditado no Apple Silicon: por que o Whisper é rápido nos chips M
O motor whisper.cpp, que alimenta a maioria dos apps modernos de ditado no Mac incluindo o nosso, compila com aceleração GPU Metal por padrão no Apple Silicon. Metal é a API de GPU da Apple e, nos chips M, fica diretamente sobre o pool de memória unificada. Os pesos do modelo e o buffer de áudio ficam na mesma memória física que o código do seu app — sem cópia de memória entre CPU e GPU.
Esse único detalhe arquitetural explica por que os Macs com chip M executam modelos Whisper maiores mais rápido que hardware Intel equivalente, muitas vezes em tempo real ou mais rápido. No Windows, a mesma classe de modelo normalmente requer uma GPU discreta NVIDIA para alcançar latência comparável.
Para dados de latência por chip de M1 a M4 com Whisper Small / Medium / Large v3, veja nossa análise detalhada de ditado para Mac. O SnailText também faz streaming de inferência em frases fechadas enquanto você fala, então a espera real no cursor parece menor do que o tempo de passada do modelo sugere.
Voz para texto no Mac para código, documentos e trabalho clínico
O atalho é o mesmo em todos os apps. Cmd+Shift+Space (configurável). Pressione uma vez, a gravação começa. Pressione novamente, o texto transcrito aparece no cursor. Sem menu, sem barra de ferramentas, sem mudança de foco. Veja como funciona para o pipeline completo.
O dicionário personalizado (Pro) cuida das palavras que o Whisper ainda não conhece — os nomes do seu stack, dos seus colegas, termos legais específicos da jurisdição, códigos DSM para clínicos. Adicione um termo uma vez e o SnailText substitui a versão mal entendida antes de chegar ao campo de texto.
O áudio nunca sai do seu Mac. O buffer fica na RAM durante a gravação e é descartado assim que o texto fica pronto. Verificável no Little Snitch ou Lulu — sem tráfego de saída durante o ditado. No Windows? Veja voz para texto no Windows.