O SuperWhisper é um produto maduro. Está disponível no macOS desde 2023, construiu uma comunidade dedicada e tem o sistema de Modes mais completo na categoria de ditado — modelo por contexto, vocabulário, prompt e atalho de teclado, tudo em um só lugar. Se você o usa há um ano e funciona bem, não há razão óbvia para mudar.
Os motivos que levam as pessoas a buscar alternativas são específicos: o preço vitalício de $249,99 é um compromisso significativo para um produto que você ainda está avaliando; o app para Windows foi lançado em novembro de 2025 e carrega uma lacuna de maturidade de dois anos visível em relação ao macOS; e uma descoberta de privacidade de meados de 2026 que a maioria das avaliações não aborda muda o cálculo para fluxos de trabalho regulados ou sensíveis à privacidade.
Este artigo cobre sete alternativas com dados reais dos nossos próprios testes — não material de marketing dos sites de cada fornecedor.
O que o SuperWhisper realmente é (e o que mudou em 2026)
O SuperWhisper é um aplicativo de ditado com três caminhos de processamento:
- STT local — whisper.cpp rodando no seu hardware (ou Parakeet como padrão no Windows). O áudio nunca sai do dispositivo na etapa de transcrição.
- STT na nuvem — BYOK (Bring Your Own Key) opcional para OpenAI, Anthropic, ElevenLabs Scribe. Você paga o provedor de API separadamente.
- Pós-processamento do Smart Modes — uma chamada de LLM na nuvem que reformata a transcrição bruta antes de colar. Isso vem ativado por padrão e é o que a maioria das avaliações descreve como o recurso de “limpeza com IA”.
A descoberta de privacidade que importa: o Smart Modes envia um payload de contexto significativo para a infraestrutura de nuvem da Modal em cada ditado onde está habilitado. Com base no prompt do sistema visível dentro da própria interface do SuperWhisper (não por engenharia reversa — ele é acessível na visualização de detalhes do histórico de gravações), esse payload inclui o nome do aplicativo ativo, o conteúdo do campo de texto em foco, o conteúdo completo da sua área de transferência, entidades nomeadas extraídas, nome do computador, idioma e horário do sistema.
Se você ditar em um documento contendo informações de clientes, um rascunho jurídico ou estratégia interna de produto — e o Smart Modes estiver ativo — esse contexto sai da sua máquina mesmo que a transcrição de áudio em si não tenha saído. O STT é local; o pós-processamento não é.
Essa é uma escolha documentada de design do produto, não uma vulnerabilidade de segurança. Mas é arquiteturalmente diferente de “ditado local”, e isso importa para usuários em ambientes de saúde, jurídico ou corporativo.
Dados de latência dos nossos próprios testes (SuperWhisper v1.4.0, Windows 11)
Testamos o SuperWhisper v1.4.0 em um Asus ProArt H7606 (AMD Ryzen AI 9 HX 370, RTX 5070 Laptop 8GB) em maio de 2026, alimentando o áudio por um cabo virtual. Todos os modelos locais rodaram na CPU — o backend de GPU não estava sendo ativado nesta configuração de hardware. Os tempos são do stop à inserção do texto no campo ativo.
| Gravação de teste | Parakeet local · CPU | Whisper Standard local · CPU | S1-Voice nuvem | Ultra nuvem |
|---|---|---|---|---|
| Código técnico (117 s) | 6 s | 8 s | 13 s | 3 s |
| Fala casual (82 s) | 5 s | 4 s | 2 s | 2 s |
| Café barulhento (80 s, +5 dB SNR) | 5 s | 6 s | 1,5 s | 2 s |
| Números e datas (35 s) | 1 s | 3 s | 1 s | 1 s |
Todos os tempos: tecla stop → texto no campo ativo. Modelos locais rodaram na CPU (GPU backend inativo neste hardware). Ultra = segundo modelo cloud do SuperWhisper (provavelmente baseado em Whisper).
O resultado mais notável: o Parakeet na CPU leva 6 segundos em um arquivo técnico de 2 minutos — lento o suficiente para ser disruptivo. Os modelos na nuvem (S1-Voice, Ultra) chegam a 2–3 segundos em fala conversacional, mas o S1-Voice salta para 13 segundos no arquivo de código técnico, provavelmente porque o Smart Modes envia o contexto da janela em foco (que era um editor de código) como parte do payload na nuvem, adicionando tempo de processamento.
No Apple Silicon com aceleração Metal, os números de latência local do SuperWhisper são materialmente melhores — esses dados de CPU no Windows refletem um caminho degradado que muitos usuários de Windows vão enfrentar a menos que a GPU esteja configurada corretamente.
As 7 alternativas avaliadas
1. SnailText — multiplataforma, pipeline totalmente local
Plataformas: Mac, Windows | Preço: Grátis (Whisper Base ilimitado), Pro $7.49 / month ou $89 / year para até 3 dispositivos | Local: Sim — STT e pós-processamento ambos no dispositivo
O SnailText é um app de ditado para Mac e Windows onde todo o pipeline — transcrição via whisper.cpp ou Parakeet TDT v3, limpeza opcional com LLM via Gemma 3 local — roda no seu hardware. Sem componente de nuvem no caminho de ditado. É a resposta direta às duas principais fraquezas do SuperWhisper: maturidade no Windows e a descoberta de privacidade do Smart Modes.
Onde o SuperWhisper ganha: sistema de Modes mais maduro, STT na nuvem com BYOK, app para iOS, comunidade mais ativa. Onde o SnailText ganha: plano gratuito ilimitado (sem limite de 15 minutos), uma assinatura cobre 3 dispositivos, áudio e contexto ficam totalmente locais. Veja nossa comparação detalhada entre SnailText e SuperWhisper para uma análise completa, ou baixe o SnailText e teste você mesmo o pipeline local.
2. Voibe — licença vitalícia para Mac, otimizado para Apple Neural Engine
Plataformas: Somente Mac | Preço: Grátis (limitado), Vitalício $198/dispositivo | Local: Sim — Apple Neural Engine
O Voibe é um app de ditado exclusivo para Mac otimizado para o Apple Neural Engine em vez da GPU Metal, o que lhe dá uma vantagem de velocidade sobre apps baseados em whisper.cpp nos chips da série M. O plano Vitalício por $198 é $50 mais barato que os $249,99 do SuperWhisper. Não é uma opção se você precisar trabalhar no Windows ou Linux.
3. MacWhisper — licença vitalícia mais barata no Mac
Plataformas: Somente Mac | Preço: Grátis (Tiny + Base), Pro $29/ano ou $49 vitalício | Local: Sim — whisper.cpp
O MacWhisper oferece uma licença vitalícia por $49 — um quinto do preço do SuperWhisper. A profundidade de recursos é menor (Modes básicos, sem BYOK, somente Mac), mas para usuários que querem ditado local competente a um preço único baixo, é a opção mais acessível da categoria.
4. VoiceInk — ditado open-source para Mac (GPL v3)
Plataformas: Somente Mac | Preço: Grátis (compilar do código-fonte), $25–$159 binário pré-compilado | Local: Sim — whisper.cpp + Parakeet, 4,9k estrelas no GitHub
O VoiceInk é o único app de ditado maduro e totalmente open-source para Mac. A licença GPL v3 significa que você pode ler, auditar e modificar cada linha. Para usuários em saúde ou direito que precisam verificar a pilha de software em vez de confiar em uma política de privacidade, o open-source é a única opção arquiteturalmente sólida. Limitações: somente Mac, os preços do binário pré-compilado estão divididos em níveis confusos.
5. Wispr Flow — melhor limpeza com IA, somente na nuvem
Plataformas: Mac, Windows, iOS, Android | Preço: Grátis (2.000 palavras/semana), Pro $15/usuário/mês | Local: Não
O Wispr Flow é um app de ditado na nuvem com a limpeza de IA mais refinada da categoria — remoção de palavras de preenchimento em tempo real, correção gramatical, adaptação de tom por aplicativo. Se a reescrita com IA é o recurso que você quer e o processamento de áudio na nuvem é aceitável, o Wispr Flow lidera a categoria. Sem modo offline, preço por usuário, $15/mês por pessoa. Veja nosso comparativo de alternativas ao Wispr Flow para ver como ele se compara com 9 ferramentas.
6. OpenWhispr — open-source multiplataforma incluindo Linux
Plataformas: Mac, Windows, Linux | Preço: Grátis (2.000 palavras/semana hospedado), ilimitado auto-hospedado | Local: Configurável | GitHub: 2,7k estrelas, licença MIT
O OpenWhispr é a única alternativa nesta lista que roda no Linux, e um dos dois que é open-source (MIT, mais permissivo que o GPL do VoiceInk). Auto-hospedado com sua própria chave de API remove o limite de palavras. Menos refinado que o SuperWhisper ou o SnailText para uso diário; a documentação pressupõe familiaridade técnica.
7. Aqua Voice — STT na nuvem com modelo proprietário
Plataformas: Mac, Windows, iOS | Preço: Grátis (1.000 palavras), Pro ~$12/mês | Local: Não — somente nuvem
O Aqua Voice usa um modelo proprietário Avalon focado em precisão com vocabulário técnico. Somente na nuvem, sem modo offline. Vale avaliar se a precisão com termos específicos do domínio é a principal preocupação e a residência de dados não é uma restrição.
Como escolher
| Sua situação | Melhor escolha | Por quê |
|---|---|---|
| Mac + Windows, totalmente local | SnailText | Suporte igual em ambas as plataformas, sem nuvem no pipeline de ditado |
| Só Mac, quer licença vitalícia | Voibe ($198) ou MacWhisper ($49) | Voibe: mais recursos + velocidade ANE. MacWhisper: menor preço |
| Precisa de open-source para conformidade | VoiceInk (Mac) ou OpenWhispr (multiplataforma) | Código auditável, sem precisar confiar em fornecedor |
| Precisa de suporte a Linux | OpenWhispr | Única opção nesta lista com suporte a Linux |
| Melhor limpeza de IA, nuvem OK | Wispr Flow | Reescrita mais refinada da categoria, $15/usuário/mês |
| Ficar com SuperWhisper | SuperWhisper (Mac) | Experiência Mac mais refinada, melhor sistema Modes — se o Smart Modes na nuvem for aceitável |
SuperWhisper testado na versão v1.4.0 no Windows 11 26H2, maio de 2026. Preços dos concorrentes em junho de 2026 — verifique os valores atuais antes de comprar.