Análisis técnico de reconocimiento de voz

Whisper vs Parakeet TDT qué modelo open gana en 2026

OpenAI lanzó Whisper en 2022. NVIDIA lanzó Parakeet TDT v3 en 2025. Son ahora los dos modelos de voz open que las apps de escritorio en producción realmente usan. Aquí están las diferencias, y cuándo cada uno es la elección correcta.

Por el fundador de SnailText · Publicado 2026-05-25

Versión corta

Whisper de OpenAI y Parakeet TDT de NVIDIA son los dos modelos de reconocimiento de voz con licencia abierta que las apps de escritorio y embebidas usan en 2026. Whisper es la opción más segura por defecto: comunidad enorme, quirks bien entendidos, cientos de fine-tunes, 99 idiomas. Parakeet TDT es más rápido por token en CPU, incluye puntuación nativa, y iguala a Whisper en precisión para inglés mientras soporta 25 idiomas. La mayoría de las apps eligen Whisper por amplitud; las que eligen Parakeet están optimizando para latencia en inglés primero.

Whisper vs Parakeet TDT de un vistazo

Whisper vs Parakeet TDT de un vistazo (verified 2026-05-25)
Eje	Whisper	Parakeet TDT
Architecture	Transformer encoder + autoregressive decoder	FastConformer encoder + TDT decoder (single-pass)
Released	Sep 2022 (large-v3 in late 2023)	Mid 2025 (v3 multilingual)
Languages	99 (long tail weak)	25 (deliberately scoped, higher quality per language)
License	MIT (no attribution required)	CC-BY-4.0 (attribution required)
Model size (production)	~250 MB Small Q5_1, ~1.5 GB Large Q5_1	~640 MB INT8 ONNX
Punctuation / casing	Inconsistent at small sizes; needs post-processor	Built into model output
CPU latency	2-5x real-time (laptop CPU, Small)	50-100x real-time (NVIDIA published)
GPU latency	Sub-second short clips on Apple Silicon / RTX	Sub-second on same hardware (less variation)
Streaming maturity	Battle-tested with Silero VAD	Younger, fewer worked examples
Community fine-tunes	Hundreds (medical, legal, accented variants)	Limited (NVIDIA-released only, mostly)

A qué se refieren realmente “Whisper” y “Parakeet”

Son familias de modelos, no productos. Ambos se publican bajo licencias permisivas (Whisper bajo MIT, Parakeet TDT bajo CC-BY-4.0), lo que significa que una aplicación puede incluir los pesos del modelo dentro de un instalador y ejecutar inferencia completamente offline sin pagar a ningún proveedor una tarifa por minuto. Ese hecho por sí solo es inusual en 2026 - la mayoría del reconocimiento de voz de calidad comercial sigue requiriendo un round-trip a la nube y un medidor por segundo.

Whisper de OpenAI se publicó en septiembre de 2022. Cinco tamaños de modelo (tiny / base / small / medium / large) con la variante large entrenada con 680.000 horas de audio multilingüe débilmente supervisado (según el paper original de Whisper). La arquitectura es un Transformer encoder-decoder estándar: ventanas mel-spectrogram de 32 segundos como entrada, secuencias de tokens byte-pair como salida. Se han publicado cinco iteraciones posteriores: large-v2 (finales de 2022), large-v3 (finales de 2023), large-v3-turbo (finales de 2024), y una serie de variantes destiladas de la comunidad open-source.

Parakeet TDT (Token-and-Duration Transducer) de NVIDIA se publicó al público a mediados de 2025. La variante principal es parakeet-tdt-0.6b-v3: 600 millones de parámetros, 25 idiomas soportados incluyendo la mayoría de los idiomas europeos principales y asiáticos. La arquitectura es FastConformer encoder + TDT decoder - fundamentalmente diferente del decoder autoregresivo de Whisper. NVIDIA también publica variantes RNN-T y CTC de Parakeet; TDT es la que ha arraigado para inferencia en escritorio por su perfil de latencia.

A efectos de este artículo, cuando decimos “Whisper” nos referimos a la línea large-v3 / large-v3-turbo, ya que son las que se usan en apps de dictado en producción. Cuando decimos “Parakeet” nos referimos a Parakeet TDT 0.6B v3.

La arquitectura en un párrafo

Whisper es autoregresivo: el decoder produce un token a la vez, cada token condicionado en todos los tokens anteriores. Este es el enfoque transformer estándar que usan los modelos de lenguaje al estilo GPT. La ventaja es que el modelo puede producir salidas arbitrariamente largas e integrar contexto a lo largo de toda la ventana de audio. La desventaja es que el tiempo de decodificación escala con la longitud de la salida.

Parakeet TDT es un transducer: el encoder se ejecuta una vez sobre el audio completo, produciendo una secuencia de embeddings acústicos, y el decoder emite tokens de texto más una predicción de duración para cada token en un único paso. La ventaja es que el tiempo de inferencia es esencialmente fijo por segundo de audio — los números publicados por NVIDIA afirman alrededor de 50-100x real-time en una CPU moderna.

Cuándo gana cada uno en precisión

En audio en inglés limpio los dos modelos son estadísticamente indistinguibles en word error rate. Los benchmarks de NVIDIA en LibriSpeech sitúan a Parakeet TDT 0.6B en 2,6% WER en el test set clean. Whisper large-v3 está en el mismo rango (alrededor de 2,0-2,5% clean) dependiendo del build.

En inglés con acento o ruido Whisper tiene ventaja. Cinco años de fine-tuning por la comunidad, fine-tunes para dominios específicos (médico, legal, variantes con acento), y las variantes de 1,5B parámetros dan a Whisper una ventaja de partida.

En cobertura multilingüe Whisper soporta 99 idiomas, Parakeet TDT v3 soporta 25. Para idiomas europeos, Parakeet generalmente iguala o supera a Whisper. Para idiomas de bajos recursos, Whisper es la única opción.

En formato Parakeet tiene una gran ventaja incorporada. El modelo produce puntuación, mayúsculas y normalización inversa de texto como parte de su salida. Whisper produce todo esto solo en tamaños de modelo grandes.

Cuándo gana cada uno en latencia

Para dictado interactivo en hardware exclusivamente CPU, la diferencia es más notable. En un portátil reciente sin GPU dedicada, Whisper Small puede sentirse lento en frases largas. Parakeet en el mismo hardware aterriza bien por debajo de un segundo. En máquinas equipadas con GPU, ambos modelos son suficientemente rápidos que el usuario los percibe como instantáneos.

También hay una historia de coste de arranque. La inicialización de GPU de whisper.cpp en Vulkan puede tardar de 5 a 30 segundos dependiendo del hardware y el estado del driver. Parakeet ejecutándose en ONNX Runtime CPU arranca en menos de un segundo.

Lo que esto significa en nuestro propio producto

Incluimos ambos motores en la misma app de escritorio. Dos observaciones de producción destacan. Primero, la inferencia en streaming en una máquina con GPU reduce la espera post-stop en Whisper a aproximadamente uno o dos segundos incluso en dictados largos. Segundo, en hardware exclusivamente CPU la diferencia entre los dos motores es lo suficientemente grande como para sentirse categórica, no incremental.

Tamaño del modelo y qué cabe en un instalador

Whisper se distribuye en cinco tamaños: Tiny (39 MB Q5_1), Base (74 MB), Small (244 MB), Medium (769 MB), Large (1,5 GB). Parakeet TDT 0.6B v3 se distribuye en torno a 640 MB en formato INT8 ONNX.

Licencias

Whisper tiene licencia MIT. Sin requisito de atribución incluso en distribuciones binarias.

Parakeet TDT tiene licencia CC-BY-4.0. Uso comercial explícitamente permitido, pero la atribución debe aparecer en algún lugar que los usuarios puedan encontrar — típicamente una sección de “Acerca de” / “Créditos”.

La historia multilingüe en detalle

Parakeet TDT v3 cubre los principales idiomas europeos (inglés, español, francés, alemán, italiano, portugués, neerlandés, polaco, ruso, ucraniano, checo, húngaro, sueco, noruego, danés, finlandés, griego, rumano, croata, búlgaro, catalán, vasco) más algunos asiáticos (japonés, coreano, mandarín).

Lo que Parakeet no soporta: la mayoría de los idiomas del sur y sudeste asiático (vietnamita, tailandés, hindi, bengalí, telugu, tamil), la mayoría de los idiomas africanos y de Oriente Medio fuera del árabe. Para vietnamita en particular, Whisper produce salida utilizable y Parakeet no podría ejecutarse.

Realidad en producción

Basándonos en lo que es públicamente visible en 2026: SuperWhisper incluye Whisper como modo local por defecto. MacWhisper y Voibe incluyen Whisper exclusivamente. Wispr Flow está basado en la nube. SnailText incluye Whisper como opción por defecto con Parakeet TDT disponible para usuarios que quieren menor latencia en CPU.

Matriz de decisión — qué motor para qué caso de uso

Situación	Pick	Why
App de podcast o transcripción solo en inglés	Parakeet	Native punctuation + 50-100x real-time CPU = serves long files without queueing
Notas de reuniones multilingüe (10-25 idiomas)	Parakeet	Better per-language quality than Whisper in the supported set
App multilingüe que necesita vietnamita / hindi / tailandés / etc	Whisper	Only choice — Parakeet does not support these languages
Dictado en escritorio en portátiles exclusivamente CPU	Parakeet	Whisper Small on CPU is borderline interactive; Parakeet lands under a second
Dictado en escritorio en máquinas con GPU	Either	Both feel instant in interactive use; pick on language coverage
Industria regulada (médica, legal) con vocabulario de dominio	Whisper	Existing fine-tunes for medical / legal terminology; Parakeet community has none yet
Dispositivo embebido / edge (Raspberry Pi, móvil)	Whisper	whisper.cpp has years of embedded tuning; Parakeet ONNX is heavier
Codificación por voz (Cursor, Copilot, terminal)	Either	Both work; Parakeet’s built-in formatting is a small win for `snake_case` style

Cuándo elegir Whisper

Elige Whisper si necesitas idiomas fuera de los 25 de Parakeet, un fine-tune de la comunidad para tu dominio, licencia máximamente permisiva (MIT), o deployment embebido o edge.

Cuándo elegir Parakeet

Elige Parakeet si tu caso de uso es inglés primero o cubierto por sus 25 idiomas, necesitas inferencia CPU sostenida (50-100x real-time), quieres puntuación y capitalización incorporadas sin post-procesador, o estás empezando un nuevo proyecto en 2026.

La pregunta “¿necesito ambos?”

Si tienes el esfuerzo de integración disponible, distribuir ambos y dejar que el usuario elija es la respuesta de mayor calidad. En SnailText mantuvimos ambos porque nuestra base de usuarios es multilingüe — Parakeet para el modo rápido en inglés, Whisper como fallback para el resto de idiomas.

¿Qué pasa con las APIs en la nube?

Este artículo trata sobre modelos open que distribuyes offline. Las principales APIs en la nube en 2026 son la API Whisper de OpenAI, Google Speech-to-Text, AWS Transcribe, Azure Speech, AssemblyAI, Deepgram y ElevenLabs Scribe. Requieren un round-trip de red por grabación y un medidor por segundo — la categoría operacional es diferente. La elección entre STT en la nube y local es la decisión arquitectónica más importante; la elección entre Whisper y Parakeet es posterior a “queremos local.”

Si ya has tomado la decisión de “queremos local” y solo quieres dictar, SnailText distribuye ambos motores en una sola app y te deja cambiar según el caso de uso. Descárgalo — gratis para empezar, funciona offline, sin cuenta.

SnailText es dictado por voz offline para Mac y Windows: local, privado, gratis para empezar.

Descargar para Mac

Preguntas comunes

¿Es Parakeet TDT gratuito para uso comercial?

Sí, bajo CC-BY-4.0. Puedes incluirlo en software comercial de pago con atribución en una sección de Créditos o Acerca de.

¿Es Whisper gratuito para uso comercial?

Sí, bajo licencia MIT. No se requiere atribución ni siquiera en distribuciones binarias.

¿Cuál es más preciso, Whisper o Parakeet?

En audio en inglés limpio, estadísticamente son iguales (ambos alrededor del 2-3% WER en LibriSpeech clean). En inglés con acento o ruido, Whisper tiene ventaja gracias a los fine-tunes de la comunidad. En los 25 idiomas que soporta Parakeet, los dos suelen estar dentro de un punto porcentual.

¿Pueden ambos modelos funcionar offline?

Sí. Ambos se distribuyen como archivos de modelo estáticos con runtimes de inferencia open-source (whisper.cpp para Whisper, ONNX Runtime o NeMo para Parakeet) que no enlazan Python y no necesitan conexión a internet.

¿Cuál es más rápido?

Parakeet TDT es significativamente más rápido en CPU - típicamente 50-100x real-time frente a Whisper en torno a 2-5x real-time en el mismo hardware. En GPU ambos son suficientemente rápidos como para sentirse instantáneos en uso interactivo.

¿Por qué la mayoría de las apps siguen usando Whisper si Parakeet es más rápido?

Por tres razones: Whisper lleva tres años más en el mercado y tiene mucho más tooling de comunidad, soporta 99 idiomas frente a los 25 de Parakeet, y tiene licencia MIT. La ventaja de latencia de Parakeet importa más para apps solo en inglés dirigidas a hardware exclusivamente CPU.

¿Soporta Parakeet streaming?

Sí, pero el soporte para streaming es más joven que el de Whisper. Para pipelines de streaming en producción en 2026, Whisper con Silero VAD sigue siendo la combinación más battle-tested.

Lecturas relacionadas

¿Quieres ambos motores en una app de escritorio pulida?

SnailText incluye Whisper como opción por defecto, con Parakeet TDT disponible para usuarios que quieren menor latencia en CPU. El tier gratuito tiene dictado local ilimitado, sin necesidad de cuenta.

Descargar para Mac Cómo funciona whisper.cpp