SnailText
PT

Análise técnica de reconhecimento de fala

Whisper vs Parakeet TDT qual modelo open-source vence em 2026

A OpenAI lançou o Whisper em 2022. A NVIDIA lançou o Parakeet TDT v3 em 2025. Hoje eles são os dois modelos de fala open-source que aplicativos desktop de produção realmente usam. Veja o que os diferencia e quando cada um é a escolha certa.

Pelo fundador da SnailText · Publicado

Versão curta

O Whisper da OpenAI e o Parakeet TDT da NVIDIA são os dois modelos de reconhecimento de fala com licença aberta que aplicativos desktop e embarcados embarcam em 2026. O Whisper é o padrão mais seguro: comunidade enorme, comportamentos bem compreendidos, centenas de fine-tunes, 99 idiomas. O Parakeet TDT é mais rápido por token no CPU, vem com pontuação nativa e iguala o Whisper em precisão para inglês, com suporte a 25 idiomas. A maioria dos aplicativos escolhe o Whisper pela amplitude; os que escolhem o Parakeet estão otimizando para latência em inglês.

Whisper vs Parakeet TDT em um relance

Whisper vs Parakeet TDT em um relance (verified 2026-05-25)
Critério Whisper Parakeet TDT
Architecture Transformer encoder + autoregressive decoder FastConformer encoder + TDT decoder (single-pass)
Released Sep 2022 (large-v3 in late 2023) Mid 2025 (v3 multilingual)
Languages 99 (long tail weak) 25 (deliberately scoped, higher quality per language)
License MIT (no attribution required) CC-BY-4.0 (attribution required)
Model size (production) ~250 MB Small Q5_1, ~1.5 GB Large Q5_1 ~640 MB INT8 ONNX
Punctuation / casing Inconsistent at small sizes; needs post-processor Built into model output
CPU latency 2-5x real-time (laptop CPU, Small) 50-100x real-time (NVIDIA published)
GPU latency Sub-second short clips on Apple Silicon / RTX Sub-second on same hardware (less variation)
Streaming maturity Battle-tested with Silero VAD Younger, fewer worked examples
Community fine-tunes Hundreds (medical, legal, accented variants) Limited (NVIDIA-released only, mostly)

O que “Whisper” e “Parakeet” realmente significam

São famílias de modelos, não produtos. Ambos são lançados sob licenças permissivas (Whisper sob MIT, Parakeet TDT sob CC-BY-4.0), o que significa que um aplicativo pode embarcar os pesos do modelo dentro de um instalador e executar a inferência completamente offline sem pagar nenhuma taxa por minuto a um fornecedor. Esse fato por si só é incomum em 2026 — a maioria dos reconhecimentos de fala com qualidade comercial ainda exige uma chamada à nuvem e uma cobrança por segundo.

O Whisper da OpenAI foi lançado em setembro de 2022. Cinco tamanhos de modelo (tiny / base / small / medium / large) com a variante large treinada em 680.000 horas de áudio multilíngue com supervisão fraca (conforme o paper original do Whisper). A arquitetura é um Transformer encoder-decoder clássico: janelas de mel-spectrogram de 32 segundos na entrada, sequências de tokens byte-pair na saída. Cinco iterações subsequentes foram lançadas: large-v2 (final de 2022), large-v3 (final de 2023), large-v3-turbo (final de 2024), e uma série de variantes destiladas pela comunidade open-source.

O Parakeet TDT (Token-and-Duration Transducer) da NVIDIA foi disponibilizado ao público em meados de 2025. A variante principal é a parakeet-tdt-0.6b-v3: 600 milhões de parâmetros, 25 idiomas suportados incluindo os principais idiomas europeus e asiáticos. A arquitetura é FastConformer encoder + TDT decoder — fundamentalmente diferente do decoder autorregressivo do Whisper. A NVIDIA também publica variantes RNN-T e CTC do Parakeet; o TDT é o que ganhou força para inferência em desktop por causa do seu perfil de latência.

Para os fins deste artigo, quando dizemos “Whisper” nos referimos à linha large-v3 / large-v3-turbo, pois são as versões usadas em aplicativos de ditado em produção. Quando dizemos “Parakeet” nos referimos ao Parakeet TDT 0.6B v3.

Arquitetura em um parágrafo

O Whisper é autorregressivo: o decoder produz um token por vez, cada token condicionado a todos os tokens anteriores. Esta é a abordagem transformer padrão usada por modelos de linguagem no estilo GPT. A vantagem é que o modelo pode produzir saídas de tamanho arbitrário e integrar contexto por toda a janela de áudio. A desvantagem é que o tempo de decodificação escala com o comprimento da saída — um clipe de áudio de 30 segundos produzindo 100 palavras demora proporcionalmente mais do que um produzindo 20 palavras.

O Parakeet TDT é um transducer: o encoder roda uma vez sobre todo o áudio, produzindo uma sequência de embeddings acústicos, e o decoder emite tokens de texto mais uma previsão de duração para cada token em uma única passagem. Estruturalmente isso se parece mais com um modelo CTC do que com um modelo de linguagem. A vantagem é que o tempo de inferência é essencialmente fixo por segundo de áudio, independentemente de quão densa seja a fala — os números publicados pela NVIDIA afirmam cerca de 50-100x em tempo real em um CPU moderno. A desvantagem é que o modelo tem uma janela de contexto efetiva mais curta para coerência entre frases.

Quando cada um vence em precisão

Em áudio inglês limpo, os dois modelos são estatisticamente indistinguíveis em taxa de erro de palavras (WER). Os benchmarks da NVIDIA colocam o Parakeet TDT 0.6B em 2,6% WER no conjunto de teste clean do LibriSpeech e 5,1% no conjunto other. O Whisper large-v3 fica na mesma faixa (cerca de 2,0-2,5% clean, 4,0-5,0% other) dependendo do build, conforme o paper do Whisper. Um usuário ditando em um aplicativo desktop em um ambiente silencioso não consegue distinguir qual motor está rodando.

Em inglês com sotaque ou ruído, o Whisper leva vantagem. Cinco anos de fine-tuning pela comunidade, fine-tunes para domínios específicos (médico, jurídico, variantes com sotaque) e as variantes maiores com 1,5B de parâmetros dão ao Whisper uma vantagem considerável. A comunidade do Whisper lançou centenas de modelos derivados no Hugging Face; a comunidade do Parakeet lançou apenas alguns até agora. Se o seu áudio tem ruído ou sotaque consistente, o ecossistema do Whisper é mais útil em 2026.

Em cobertura multilíngue, o Whisper suporta 99 idiomas, o Parakeet TDT v3 suporta 25. A cobertura do Whisper é mais ampla em número bruto, mas a cauda longa (vietnamita, bengali, telugu) tem qualidade fraca. Os 25 idiomas do Parakeet foram treinados de forma mais deliberada e tendem a produzir qualidade superior por idioma suportado. Para idiomas europeus, o Parakeet geralmente iguala ou supera o Whisper. Para idiomas com poucos recursos, o Whisper é a única opção.

Em formatação, o Parakeet tem uma vantagem nativa importante. O modelo produz pontuação, capitalização e normalização inversa de texto (escrevendo “vinte e quinze” como “2015”) como parte da sua saída de decodificação. O Whisper só produz tudo isso em tamanhos grandes de modelo e tende a perder pontuação em clipes curtos. Para obter formatação confiável do Whisper, implementações em produção adicionam um pós-processador de pontuação separado — o Silero TE é a escolha comum. Isso representa um componente a menos em um pipeline baseado em Parakeet.

Quando cada um vence em latência

É aqui que os dois modelos divergem de verdade.

O custo de inferência do Whisper é dominado pelo encoder, que roda em tempo aproximadamente fixo por janela de 30 segundos, independentemente da densidade da fala. O custo do decoder é proporcional à quantidade de tokens de saída. De ponta a ponta, um laptop desktop típico rodando Whisper Small via whisper.cpp transcreve um clipe de 10 segundos em 0,3 a 1,5 segundos dependendo da disponibilidade da GPU. Um clipe de 30 segundos leva de 0,7 a 4 segundos. A dependência do comprimento da saída é real, mas raramente dominante.

O custo de inferência do Parakeet TDT é dominado pela passagem do encoder sobre o áudio, com o decoder TDT sendo essencialmente gratuito em comparação. Os números publicados pela NVIDIA e benchmarks independentes de terceiros colocam o Parakeet TDT em 50-100x em tempo real em um CPU moderno para inglês. O mesmo hardware rodando Whisper Small via whisper.cpp ficaria em 2-5x em tempo real no CPU.

Para ditado interativo — onde o usuário espera o resultado em menos de um segundo após terminar uma frase — a diferença importa mais em hardware CPU-only. Em um laptop recente sem GPU discreta, o Whisper Small pode parecer lento em frases mais longas. O Parakeet no mesmo hardware fica bem abaixo de um segundo. Em máquinas com GPU, os dois modelos são rápidos o suficiente para o usuário percebê-los como instantâneos; a diferença é real na medição, mas invisível no uso.

Há também uma história de custo de inicialização. A inicialização da GPU do whisper.cpp no Vulkan pode levar de 5 a 30 segundos dependendo do hardware e do estado do driver. O Parakeet rodando no ONNX Runtime CPU inicia em menos de um segundo. Para um aplicativo que monta um modelo de forma lazy na primeira utilização, a latência percebida na primeira gravação é consideravelmente melhor com o Parakeet no CPU do que com o Whisper na GPU.

O que isso significa no nosso próprio produto

Embarcamos os dois motores no mesmo aplicativo desktop, então a conversa sobre latência é uma conversa que temos a cada release. Dois aprendizados de produção se destacam, formulados como padrões em vez de números para os quais temos benchmarks publicados. Primeiro, a inferência em streaming em uma máquina com GPU reduz a espera após parar o Whisper para cerca de um ou dois segundos mesmo em ditados longos — a maior parte da inferência acontece durante a gravação em si, então o usuário só espera pelo último trecho parcial. Segundo, em hardware CPU-only a diferença entre os dois motores é grande o suficiente para parecer categórica, não incremental — o Parakeet no CPU consistentemente parece interativo em ditados mais longos onde o Whisper Small no mesmo hardware não.

Optamos intencionalmente por não publicar tabelas de comparação de tempo de execução entre os dois motores ainda. Um head-to-head reproduzível precisa de uma metodologia fixa — mesma amostra de áudio, mesmo build do modelo, mesmo hardware em estado conhecido — e essa metodologia ainda está sendo finalizada. Quando publicarmos a nossa, ela ficará em uma página de metodologia separada para a qual este artigo vai apontar.

Tamanho do modelo e o que cabe em um instalador

O Whisper é distribuído em cinco tamanhos:

  • Tiny: 75 MB FP16, cerca de 39 MB quantizado Q5_1
  • Base: 142 MB FP16, cerca de 74 MB quantizado
  • Small: 466 MB FP16, cerca de 244 MB quantizado
  • Medium: 1,5 GB FP16, cerca de 769 MB quantizado
  • Large: 3 GB FP16, cerca de 1,5 GB quantizado

O Parakeet TDT 0.6B v3 é distribuído em cerca de 640 MB no formato INT8 ONNX. A NVIDIA também publica uma variante de 1,1B que tem aproximadamente 1,2 GB em ONNX.

Na prática, um instalador de aplicativo desktop pode embarcar confortavelmente o Whisper Tiny ou Base, pedindo ao usuário para baixar o Whisper Small / Medium / Large na primeira utilização. O Parakeet fica em tamanho entre o Whisper Small e o Medium, então embarcar o modelo Parakeet é viável, mas empurra o instalador para mais de 600 MB por conta própria.

Licenciamento

Os dois modelos são amigáveis ao uso comercial, mas com requisitos de atribuição diferentes.

O Whisper tem licença MIT. A atribuição é exigida apenas em distribuições de código-fonte; distribuições binárias podem embarcar os pesos do modelo sem nenhum crédito visível ao usuário. Esta é a opção mais permissiva de qualquer modelo de fala open-source com qualidade de produção.

O Parakeet TDT tem licença CC-BY-4.0. O uso comercial é explicitamente permitido, mas a atribuição deve aparecer em algum lugar que os usuários possam encontrar — tipicamente uma seção “Sobre” / “Créditos” listando “Usa NVIDIA Parakeet-TDT-0.6B-v3 (CC-BY-4.0)”. Isso não é oneroso, mas é um passo que os aplicativos precisam dar e que o Whisper não exige.

As duas licenças permitem embarcar dentro de software comercial pago, derivar variantes com fine-tuning e vender assinaturas de aplicativos que usam os modelos.

A história multilíngue em detalhes

Para um aplicativo que precisa lidar com múltiplos idiomas, a escolha depende de quais são os 25 idiomas que o Parakeet suporta e quais outros importam.

Os idiomas suportados pelo Parakeet TDT v3 cobrem o grande conjunto europeu (inglês, espanhol, francês, alemão, italiano, português, holandês, polonês, russo, ucraniano, tcheco, húngaro, sueco, norueguês, dinamarquês, finlandês, grego, romeno, croata, búlgaro, catalão, basco) mais alguns idiomas asiáticos (japonês, coreano, mandarim) e outros. A lista completa está no model card do Parakeet no Hugging Face.

O que o Parakeet não suporta: a maioria dos idiomas do Sul e Sudeste Asiático (vietnamita, tailandês, hindi, bengali, telugu, tâmil), a maioria dos idiomas africanos e a maioria dos idiomas do Oriente Médio fora do árabe.

O Whisper suporta todos esses mais 80 outros, embora com qualidade significativamente mais fraca na cauda longa. Para o vietnamita em particular, o Whisper produz saída utilizável e o Parakeet simplesmente não rodaria.

Um padrão prático em 2026 é embarcar os dois motores: Parakeet para os 25 idiomas que ele suporta bem, Whisper como fallback para o restante. Isso adiciona complexidade na instalação, mas oferece a melhor qualidade por idioma.

Realidade em produção — o que os aplicativos desktop realmente fazem

Com base no que está publicamente visível em 2026:

  • SuperWhisper embarca o Whisper como padrão do modo local, com APIs na nuvem como Pro opt-in.
  • MacWhisper embarca exclusivamente o Whisper.
  • Voibe embarca o Whisper.
  • Wispr Flow é baseado em nuvem, sem rodar nenhum dos modelos no dispositivo.
  • SnailText embarca o Whisper como padrão com o Parakeet TDT disponível como opção para usuários que querem menor latência no CPU e pontuação nativa.

O padrão é que o Whisper ainda ocupa o slot padrão porque seu ecossistema é mais maduro e seus comportamentos são melhor compreendidos. O Parakeet é o challenger em ascensão; ele é genuinamente melhor em alguns eixos (latência no CPU, formatação, throughput), mas os fine-tunes e o tooling da comunidade ainda estão se desenvolvendo.

Para um novo projeto começando hoje, a questão é mais ou menos: você precisa da cobertura de idiomas mais ampla do Whisper ou da menor latência do Parakeet? A maioria das equipes escolhe o Whisper pela cobertura de idiomas e aceita o custo de latência. Equipes otimizando especificamente para ditado desktop com foco em inglês escolhem cada vez mais o Parakeet.

Matriz de decisão — qual motor para cada caso de uso

Se você quer uma resposta de uma página para “qual devo usar?”, esta matriz é ela. Cada linha é uma situação real de produto que vimos desenvolvedores perguntarem; a coluna à direita é o modelo que escolheríamos se estivéssemos começando o projeto hoje.

SituaçãoPickWhy
Aplicativo de podcast ou transcrição somente em inglêsParakeetNative punctuation + 50-100x real-time CPU = serves long files without queueing
Notas de reunião multilíngue (10-25 idiomas)ParakeetBetter per-language quality than Whisper in the supported set
Aplicativo multilíngue que precisa de vietnamita / hindi / tailandês / etcWhisperOnly choice — Parakeet does not support these languages
Ditado desktop em laptops CPU-onlyParakeetWhisper Small on CPU is borderline interactive; Parakeet lands under a second
Ditado desktop em máquinas com GPUEitherBoth feel instant in interactive use; pick on language coverage
Setor regulamentado (médico, jurídico) com vocabulário de domínioWhisperExisting fine-tunes for medical / legal terminology; Parakeet community has none yet
Dispositivo embarcado / edge (Raspberry Pi, mobile)Whisperwhisper.cpp has years of embedded tuning; Parakeet ONNX is heavier
Codificação por voz (Cursor, Copilot, terminal)EitherBoth work; Parakeet’s built-in formatting is a small win for snake_case style

Quando escolher o Whisper

Escolha o Whisper se você precisar de qualquer uma dessas coisas e a latência CPU-only for aceitável.

  • Idiomas fora dos 25 do Parakeet. Vietnamita, hindi, bengali, tailandês, tâmil, a maioria dos idiomas africanos e a maioria dos idiomas do Oriente Médio — o Whisper é a única opção realista, mesmo que a qualidade na cauda longa seja mais fraca do que para os principais idiomas.
  • Um fine-tune da comunidade que corresponda ao seu domínio. Médico, jurídico, inglês com sotaque, idiomas com poucos recursos — o ecossistema do Whisper no Hugging Face tem centenas de modelos derivados. O ecossistema de fine-tunes do Parakeet ainda é pequeno.
  • Licenciamento máximo permissivo. MIT significa sem exigência de atribuição, sem obrigação de divulgação em seção “Sobre”. Para algumas distribuições comerciais isso importa.
  • Implantação embarcada ou em edge. O whisper.cpp foi otimizado por anos para rodar em Raspberry Pi, iOS, Android. O path ONNX do Parakeet é viável, mas menos testado em produção nesses ambientes.

Quando escolher o Parakeet

Escolha o Parakeet se o seu caso de uso for focado em inglês ou coberto pelos seus 25 idiomas, e a latência no CPU importar.

  • Inferência CPU sustentada. O número de 50-100x em tempo real em um CPU de laptop moderno não é teórico — ele faz a transcrição de arquivos longos parecer instantânea de uma forma que o Whisper Small simplesmente não consegue igualar sem uma GPU.
  • Pontuação e capitalização nativas. O Whisper em tamanhos pequenos perde pontuação; o padrão Whisper-plus-Silero-TE funciona, mas adiciona um estágio de pós-processamento. O Parakeet emite pontuação na mesma passagem de decodificação.
  • Precisão para inglês próxima do topo do campo de modelos abertos. 2,6% WER no LibriSpeech clean é competitivo com o Whisper large-v3 (cerca de 2,0-2,5%) — próximo o suficiente para que a maioria dos usuários não perceba a diferença.
  • Você está começando um novo projeto em 2026. O Parakeet foi lançado em 2025 e é genuinamente mais moderno. Se você não tem código de pipeline Whisper legado para manter, começar no Parakeet para aplicativos focados em inglês é o padrão correto.

A pergunta “preciso dos dois?”

Se você tem esforço de integração disponível, embarcar os dois e deixar o usuário escolher é a resposta de maior qualidade. A razão mais comum para fazer isso: dar a usuários avançados um modo rápido para inglês (Parakeet) enquanto ainda suporta a cauda longa de idiomas menos comuns (Whisper). É o que fizemos no SnailText.

Não começamos com os dois. O Whisper foi embarcado primeiro porque seu ecossistema estava mais avançado e queríamos paridade entre Mac e Windows desde o primeiro dia. A integração do Parakeet veio mais tarde, quando continuávamos ouvindo a mesma reclamação de usuários de inglês-only no Windows sem GPU discreta: “a transcrição é boa, mas a espera mata o fluxo”. Colocar o Parakeet no mesmo hardware Windows tornou a espera visivelmente mais curta — o suficiente para a reclamação mudar de “a espera mata o fluxo” para “isso parece normal” — e a pontuação melhorou sem um pós-processador separado. Essa única mudança na reação dos usuários justificou o trabalho de dual-runtime. Se a sua situação é de idioma único e a reclamação de latência é a mesma, você provavelmente pode pular o Whisper completamente e embarcar apenas o Parakeet; mantivemos os dois porque nossa base de usuários é multilíngue.

O que você perde com cada um

Escolher apenas o Whisper significa:

  • Inferência CPU mais lenta (importa mais em laptops mais antigos)
  • Pós-processamento manual de pontuação em muitas configurações
  • Aceitação de alucinações ocasionais em áudio silencioso ou com sinal fraco (mitigado por VAD, mas nunca zero)
  • Um arquivo de modelo maior para a mesma precisão em inglês

Escolher apenas o Parakeet significa:

  • Perda de 74 dos 99 idiomas suportados pelo Whisper
  • Menos tooling da comunidade e menos fine-tunes
  • Um ecossistema mais novo com menos exemplos funcionais e respostas no Stack Overflow
  • Um único fornecedor (NVIDIA) controlando lançamentos futuros de modelos (versus OpenAI mais toda a comunidade open-source de destilação para o Whisper)

E as APIs na nuvem?

Este artigo é sobre modelos abertos que você embarca offline. Para completude: as principais APIs na nuvem em 2026 são Whisper API da OpenAI, API de áudio da Anthropic, Speech-to-Text do Google, AWS Transcribe, Azure Speech, AssemblyAI, Deepgram e ElevenLabs Scribe. Elas não são diretamente comparáveis ao Whisper-o-modelo ou ao Parakeet-o-modelo. Elas rodam em hardware de servidor que aplicativos desktop não conseguem igualar em throughput bruto, mas exigem uma chamada de rede por gravação e uma cobrança por segundo, o que as coloca em uma categoria operacional diferente. A escolha entre STT na nuvem e local é a maior decisão arquitetural; a escolha entre Whisper e Parakeet é posterior à decisão “queremos local”.

Se você já tomou a decisão “queremos local” e só quer ditar, o SnailText entrega os dois motores em um só app e deixa você alternar conforme o caso de uso. Baixe-o — grátis para começar, funciona offline, sem conta.

SnailText é ditado por voz offline para Mac e Windows: local, privado, grátis para começar.

Baixar para Mac

Perguntas comuns

O Parakeet TDT é gratuito para uso comercial?

Sim, sob a licença CC-BY-4.0. Você pode distribuí-lo em software comercial pago com atribuição em uma seção Sobre ou Créditos.

O Whisper é gratuito para uso comercial?

Sim, sob a licença MIT. Nenhuma atribuição é necessária, nem mesmo em distribuições binárias.

Qual é mais preciso, Whisper ou Parakeet?

Em áudio inglês limpo, estatisticamente são iguais (ambos com WER de 2-3% no LibriSpeech clean). Em inglês com sotaque ou ruído, o Whisper leva vantagem graças aos fine-tunes da comunidade. Nos 25 idiomas que o Parakeet suporta, os dois geralmente ficam a menos de um ponto percentual.

Os dois modelos funcionam offline?

Sim. Ambos são distribuídos como arquivos de modelo estáticos com runtimes de inferência open-source (whisper.cpp para o Whisper, ONNX Runtime ou NeMo para o Parakeet) que não dependem de Python e não precisam de conexão com a internet.

Qual é mais rápido?

O Parakeet TDT é significativamente mais rápido no CPU — tipicamente 50-100x em tempo real versus o Whisper em torno de 2-5x no mesmo hardware. Na GPU, os dois são rápidos o suficiente para parecerem instantâneos em uso interativo.

Por que a maioria dos aplicativos ainda usa Whisper se o Parakeet é mais rápido?

Três razões: o Whisper existe há três anos a mais e tem muito mais tooling da comunidade, suporta 99 idiomas contra 25 do Parakeet, e tem licença MIT (sem overhead de atribuição). A vantagem de latência do Parakeet importa mais para aplicativos focados em inglês direcionados a hardware CPU-only.

O Parakeet suporta streaming?

Sim, mas o suporte a streaming ainda é mais recente do que no Whisper. Várias implementações da comunidade estão disponíveis e o tooling oficial da NVIDIA suporta inferência em streaming. Para pipelines de streaming em produção em 2026, Whisper com Silero VAD ainda é a combinação mais testada em produção.

Quer os dois motores em um único aplicativo desktop polido?

O SnailText embarca o Whisper como padrão, com o Parakeet TDT disponível para usuários que querem menor latência no CPU. O plano gratuito tem ditado local ilimitado, sem necessidade de conta.