Por que o Dictation integrado da Apple não basta para o uso diário
O Apple Dictation funciona. Ele roda no dispositivo em qualquer Mac com chip M1 ou mais novo, a transcrição é aceitável para rajadas curtas, e não custa nada. Para uma mensagem de texto rápida ou uma busca de uma linha, ele dá conta do recado.
Ele deixa de bastar no momento em que você tenta usá-lo para trabalho de verdade.
A primeira coisa que você esbarra é o corte por silêncio. A documentação da Apple diz que o Dictation no Apple Silicon não tem limite rígido de duração, mas o sistema para automaticamente depois de 30 segundos de silêncio detectado - e "silêncio" inclui as pausas naturais que você faz enquanto compõe. Não há configuração para estender o corte. Ditar um e-mail com mais de dois parágrafos significa reativar duas ou três vezes. Várias discussões nos próprios fóruns de suporte da Apple observam que a sensibilidade do corte mudou ao longo das atualizações do iOS 18 e do macOS Tahoe.
A segunda é a precisão em qualquer coisa técnica. O Apple Dictation vai bem em fala clara e geral e é visivelmente pior em código, jargão, inglês com sotaque e vocabulário específico de domínio - justamente os tipos de conteúdo em que desenvolvedores, médicos e advogados de fato usam ditado. As ferramentas de terceiros que rodam modelos modernos da classe Whisper são bem melhores no mesmo conteúdo. Estamos segurando números específicos de WER nesta página até publicarmos uma metodologia de benchmark reproduzível - outros já publicaram suas próprias comparações (VoicePrivate, Voicci, PromptQuorum têm testes de 2026), mas preferimos não citar números que não reproduzimos sob condições controladas.
A terceira é o limite da integração. O Apple Dictation funciona dentro de apps da Apple e na maioria dos campos de texto nativos do macOS. Ele não tem um fluxo consistente de atalho para colar em apps web, apps Electron ou terminais. Você acaba desativando-o na metade dos lugares onde quer usá-lo.
Existe uma boa ferramenta de ditado integrada para uso casual, e existe uma categoria separada de ferramentas feitas para quem digita para viver. A categoria existe porque a ferramenta casual nunca foi projetada para ser a segunda.
O que um app de ditado de verdade para Mac faz
Um app de ditado para Mac é uma ferramenta que converte voz falada em texto digitado em qualquer aplicação através de um atalho global, com o modelo de reconhecimento de fala rodando localmente no Apple Silicon. Os três componentes que definem a categoria são: um atalho universal que funciona em todo app do macOS, incluindo apps web, apps Electron e terminais; um modelo de reconhecimento de fala com mais de 95% de precisão em áudio limpo em inglês; e um pipeline de processamento local que mantém o áudio no seu dispositivo.
Um atalho que funciona da mesma forma em todo app. Você o pressiona uma vez, a gravação começa. Você o pressiona de novo, a gravação para. Seu texto transcrito aparece na posição do cursor, qualquer que seja o app em que você esteja. Sem configuração específica por app, sem árvores de menu, sem espera.
Um modelo de reconhecimento de fala que é de fato bom. O plano gratuito dos apps de ditado modernos para Mac vem com modelos Whisper compactos que atingem mais de 95% de precisão em áudio limpo em inglês. Os planos pagos adicionam modelos maiores, idiomas adicionais e pós-processamento para remoção de palavras de preenchimento e pontuação. O objetivo é não ter que pensar no modelo de jeito nenhum depois que ele está rodando.
Um pipeline local que não precisa da internet. O buffer de áudio fica na RAM, o modelo roda na GPU ou no Neural Engine do seu Mac, e o texto aparece no campo de texto ativo. Nada sai da sua máquina, a menos que você explicitamente opte por um recurso na nuvem.
Essa terceira parte é a que define a categoria. Quando você tem uma ferramenta que roda o modelo no seu próprio hardware, a história da privacidade muda de "prometemos não usar mal seu áudio" para "seu áudio não sai do dispositivo". É um argumento diferente, com consequências diferentes.
O Apple Silicon torna o Whisper local genuinamente rápido
Rodar modelos Whisper grandes localmente no Windows geralmente significa instalar o CUDA, encontrar uma GPU NVIDIA compatível e ajustar tamanhos de batch. No Mac, o mesmo fluxo já vem pronto.
O motor whisper.cpp, que move a maioria dos apps de ditado modernos para Mac, incluindo o nosso, compila com aceleração de GPU Apple Metal por padrão no Apple Silicon. O Metal é a API de GPU da Apple e, nos chips série M, ele fica diretamente sobre o pool de memória unificada, o que significa que os pesos do modelo e o buffer de áudio vivem na mesma memória física que o código da sua aplicação. Não há cópia de memória entre CPU e GPU antes de cada inferência. Esse único detalhe de arquitetura é o motivo pelo qual um MacBook Air M1 consegue rodar o Whisper Large v3 Turbo em tempo real, enquanto o mesmo modelo em um laptop Windows normalmente precisa de uma GPU NVIDIA dedicada.
Em qualquer Mac com Apple Silicon do M1 em diante, você pode rodar o modelo Whisper small ou medium localmente e nunca sentir a latência. O texto aparece no momento em que você para de falar. A diferença entre um Air M1 e um M5 Pro é se você também consegue rodar os modelos grandes sem pensar, não se o ditado funciona ou não.
O outro lado dessa história são os Macs Intel mais antigos. A própria documentação da Apple deixa claro que os Macs Intel rodando o Apple Dictation enviam áudio para os servidores da Apple, porque o caminho no dispositivo só funciona no Apple Silicon. Os apps de terceiros que usam whisper.cpp também precisam da aceleração Metal para serem usáveis em tempo real. O hardware mínimo realista para ditado local moderno no Mac é o M1 ou mais novo.
Local vs nuvem - por que importa para o ditado diário
Uma ferramenta de ditado na nuvem envia cada fala para um servidor remoto, transcreve lá e devolve o texto. O modelo rodando na nuvem costuma ser maior do que o que você consegue rodar localmente, o que pode significar uma pequena vantagem de precisão em condições com ruído. O custo de latência é a ida e volta, tipicamente 200-800ms em uma conexão boa, mais em uma ruim.
Uma ferramenta de ditado local roda o modelo no seu Mac. A latência é só o tempo de inferência, que no Apple Silicon costuma ser mais rápido do que a ida e volta a um servidor na nuvem. O áudio fica no seu dispositivo. Não há custo de inferência além da eletricidade para rodar o chip.
Para o ditado diário, a abordagem local se acumula ao longo do tempo. Se você dita 8000 palavras por dia no trabalho, está rodando milhares de chamadas de inferência. Uma ferramenta local processa isso de graça em hardware que você já tem. Uma ferramenta na nuvem ou cobra uma assinatura ou queima créditos de API que você comprou da OpenAI ou de outro provedor. Ao longo de um ano, a diferença de custo para um usuário pesado fica na casa das centenas de dólares, e a diferença de privacidade está na categoria de "tudo o que você disse o ano inteiro, em algum servidor" versus "nada saiu do seu dispositivo".
Ainda há casos em que a nuvem tem vantagem. Para sotaques muito carregados com os quais os modelos locais compactos têm dificuldade, ou para idiomas menos comuns como vietnamita ou bengali, onde o Whisper local tem lacunas de precisão conhecidas, os modelos maiores na nuvem ainda superam o que um app local consegue fazer hoje. A ferramenta certa depende do que você de fato dita.
Como construímos o ditado para Mac e Windows ao mesmo tempo
O SnailText roda em Mac e Windows a partir de uma única base de código, com paridade de recursos desde o primeiro dia. A maioria dos apps de ditado para Mac saiu primeiro no Mac e adicionou o Windows anos depois: o MacWhisper é só para Mac, o SuperWhisper lançou o Windows em novembro de 2025 (cerca de dois anos depois da versão macOS), o Voibe e o Aqua Voice são só para Mac. O mercado de apps de ditado para Mac está maduro há anos; o lado Windows é uma expansão recente.
Nós seguimos um caminho diferente. O SnailText foi construído desde o primeiro dia como um app Tauri com um único núcleo em Rust compartilhado entre Mac e Windows. O mesmo motor whisper.cpp roda nas duas plataformas, com aceleração Metal no Mac e Vulkan no Windows. O atalho, a interface da overlay, o histórico, o dicionário, os snippets - tudo isso é idêntico. Não há lacuna de recursos do tipo "app Mac primeiro, app Windows depois".
Para quem só usa Mac, essa decisão de design não importa muito. Para quem usa os dois, ou trabalha em uma casa ou equipe onde alguns estão no Mac e outros no Windows, ou que pode trocar de plataforma no futuro, ela significa uma ferramenta em vez de duas.
O que você de fato faz com ditado no Mac, no dia a dia
Os usuários de ditado no Mac passam a maior parte do tempo de entrada em cinco casos de uso: respostas de e-mail e Slack (maior frequência, economiza cerca de uma hora por dia de trabalho para o trabalho típico de conhecimento), primeiros rascunhos de escrita longa a 2-3× a velocidade de digitação, tarefas de linguagem natural ligadas a código como mensagens de commit e prompts para agentes de IA, notas de voz que pulam o fluxo de gravar-transferir-transcrever, e uso de acessibilidade durante a recuperação de LER/DORT ou como preferência permanente de entrada.
Respostas de e-mail e Slack. Caso de maior frequência. Uma resposta de duas frases que levaria 30 segundos para digitar leva 5 segundos para ditar. Ao longo de um dia de trabalho com 40-80 respostas curtas, você economiza uma hora.
Escrita longa. Primeiros rascunhos de posts de blog, ensaios, documentação ou notas. A maioria dos escritores dita mais rápido do que digita, muitas vezes em 2-3×. A transcrição fica bruta e precisa de edição, mas a edição é mais rápida do que produzir o primeiro rascunho teria sido.
Ditado ligado a código. Não escrever código caractere por caractere, mas escrever as partes em linguagem natural do trabalho com código: mensagens de commit, descrições de PR, comentários explicando lógica complicada, prompts para assistentes de código de IA como Cursor ou Claude. Nossa página para vibe-coders cobre esse caso de uso em detalhe.
Notas de voz para texto. Você está passeando com o cachorro, tem uma ideia, pressiona o atalho, fala por 30 segundos. O texto está numa nota quando você volta. O fluxo do Apple Voice Memos exige que você grave, transfira, transcreva e revise. Uma ferramenta de ditado em tempo real remove esses passos.
Acessibilidade. Lesões no pulso, LER/DORT, recuperação de cirurgia, ou simplesmente preferir a voz como entrada principal. Uma boa ferramenta de ditado local é uma ferramenta de acessibilidade de verdade, e o aspecto offline importa mais aqui do que em qualquer outro lugar.
Como começar no Mac
O download está na nossa página de download para Mac. Distribuímos um DMG notarizado, então não há aviso do Gatekeeper na primeira execução no macOS Sequoia ou Tahoe. É necessário Apple Silicon (M1 ou mais novo). O app tem cerca de 150MB e descompacta para cerca de 600MB com o modelo padrão Whisper Small incluído.
A primeira execução pede duas permissões: acesso ao microfone (óbvio) e acesso de acessibilidade (para que possamos colar texto em outros apps). As duas são solicitações de permissão padrão do macOS. Não pedimos mais nada.
O atalho padrão é Option+Space. Você pode mudá-lo em Configurações se ele conflitar com algo. Pressione o atalho uma vez para começar, pressione de novo para parar. O texto aparece no seu cursor.
O plano gratuito é ditado ilimitado com modelos locais compactos, sem necessidade de conta, sem limites de tempo. O plano Pro ($7.49/mo · $89/yr, 3 dispositivos) adiciona modelos maiores, suporte a vários idiomas, expansão de snippets, entradas de dicionário e uma garantia de devolução do dinheiro de 30 dias na primeira cobrança paga.
FAQ
Isto funciona em Macs com Intel?
Tecnicamente sim, em forma reduzida. O motor whisper.cpp funciona em CPUs Intel, mas a velocidade de inferência sem aceleração Metal é bem mais lenta. O ditado em tempo real com o modelo small é aceitável no limite em um iMac Intel topo de linha de 2019 ou 2020. Recomendamos Apple Silicon (M1 ou mais novo) para a experiência de fato descrita nesta página.
Qual a diferença em relação ao Apple Dictation?
O Apple Dictation é integrado ao macOS, roda no dispositivo no Apple Silicon e é gratuito. A documentação da Apple diz que não há limite rígido de duração, mas o Dictation para automaticamente depois de 30 segundos de silêncio - e as pausas para pensar contam. Também não há extensibilidade (sem vocabulário personalizado, sem snippets, sem personalização de atalho além do toggle básico). O SnailText roda modelos maiores da classe Whisper, não tem corte por silêncio, suporta vocabulário personalizado e snippets, e funciona com um atalho unificado em todos os apps.
Vocês enviam meu áudio para algum lugar?
Não. O Whisper local roda no nosso app, no seu Mac. O buffer de áudio fica na RAM durante a sessão de gravação e não é gravado em disco. Não enviamos áudio para nenhum servidor em nenhum modo, gratuito ou pago. STT na nuvem opcional para usuários Pro com casos de áudio difíceis está no nosso roteiro, mas não está no produto hoje.
E quanto a HIPAA, GDPR, setores regulados?
O caminho mais simples para a conformidade no ditado por voz é não transmitir o áudio para lugar nenhum. O Whisper local faz exatamente isso - sem necessidade de Business Associate Agreement, sem Data Processing Agreement, sem avaliação de transferência de dados além-fronteiras. Nossa página de Privacidade cobre os detalhes legais; a versão curta é que dados que nunca saem do seu dispositivo são os dados mais fáceis de manter em conformidade.
Como a precisão se compara à do Wispr Flow ou SuperWhisper?
Para áudio limpo em inglês, nossos modelos locais compactos igualam o Apple Dictation (cerca de 95%) e os modelos medium e large igualam o Wispr Flow e o SuperWhisper Pro (cerca de 97-99%). Para sotaques muito carregados ou ruído de fundo, os modelos na nuvem ainda têm uma leve vantagem sobre os modelos locais na nossa categoria. Para todo o resto, a diferença é pequena o suficiente para que as questões de privacidade e custo importem mais.
Funciona com vocabulário personalizado?
Sim, no Pro. Você pode adicionar termos personalizados (o nome da sua empresa, nomes de produtos, os nomes dos seus filhos) e expansões de snippets (digite um gatilho, receba uma frase mais longa). Ambos são aplicados durante a transcrição, não depois.
E quanto ao ditado em vários idiomas?
O plano Pro suporta mais de 25 idiomas com o Parakeet TDT v3, que é cerca de 10× mais rápido que o Whisper para idiomas europeus. O plano gratuito é só em inglês, com os modelos Whisper compactos.
Como ditar em um Mac?
De duas formas. A rota integrada: abra Ajustes do Sistema, ative Teclado → Ditado, depois pressione o atalho de ditado (Control duas vezes, por padrão) dentro de qualquer campo de texto e comece a falar. O Apple Dictation roda no dispositivo no Apple Silicon, mas para depois de 30 segundos de silêncio e só funciona de forma confiável em alguns apps. A rota de terceiros: instale um app de ditado local como o SnailText, pressione seu atalho global em qualquer app, fale, e o texto é colado no seu cursor - sem corte por silêncio, modelos Whisper maiores, e áudio que nunca sai do seu Mac.
Qual é o melhor software de ditado para Mac?
Depende do que você precisa. Para uso gratuito, integrado e ocasional, o Apple Dictation serve. Para transcrição de arquivos e reuniões, o MacWhisper é a ferramenta Mac mais querida. Para ditado ao vivo contínuo em qualquer app, com modelos Whisper locais maiores e sem corte por silêncio, uma ferramenta dedicada como o SnailText é a melhor escolha - e, ao contrário da maioria das opções, ela roda em Mac e Windows com a mesma experiência. A escolha certa depende de você querer ditado integrado ocasional, transcrição de arquivos ou ditado ao vivo o dia inteiro.