A qué se refieren realmente “Whisper” y “Parakeet”
Son familias de modelos, no productos. Ambos se publican bajo licencias permisivas (Whisper bajo MIT, Parakeet TDT bajo CC-BY-4.0), lo que significa que una aplicación puede incluir los pesos del modelo dentro de un instalador y ejecutar inferencia completamente offline sin pagar a ningún proveedor una tarifa por minuto. Ese hecho por sí solo es inusual en 2026 - la mayoría del reconocimiento de voz de calidad comercial sigue requiriendo un round-trip a la nube y un medidor por segundo.
Whisper de OpenAI se publicó en septiembre de 2022. Cinco tamaños de modelo (tiny / base / small / medium / large) con la variante large entrenada con 680.000 horas de audio multilingüe débilmente supervisado (según el paper original de Whisper). La arquitectura es un Transformer encoder-decoder estándar: ventanas mel-spectrogram de 32 segundos como entrada, secuencias de tokens byte-pair como salida. Se han publicado cinco iteraciones posteriores: large-v2 (finales de 2022), large-v3 (finales de 2023), large-v3-turbo (finales de 2024), y una serie de variantes destiladas de la comunidad open-source.
Parakeet TDT (Token-and-Duration Transducer) de NVIDIA se publicó al público a mediados de 2025. La variante principal es parakeet-tdt-0.6b-v3: 600 millones de parámetros, 25 idiomas soportados incluyendo la mayoría de los idiomas europeos principales y asiáticos. La arquitectura es FastConformer encoder + TDT decoder - fundamentalmente diferente del decoder autoregresivo de Whisper. NVIDIA también publica variantes RNN-T y CTC de Parakeet; TDT es la que ha arraigado para inferencia en escritorio por su perfil de latencia.
A efectos de este artículo, cuando decimos “Whisper” nos referimos a la línea large-v3 / large-v3-turbo, ya que son las que se usan en apps de dictado en producción. Cuando decimos “Parakeet” nos referimos a Parakeet TDT 0.6B v3.
La arquitectura en un párrafo
Whisper es autoregresivo: el decoder produce un token a la vez, cada token condicionado en todos los tokens anteriores. Este es el enfoque transformer estándar que usan los modelos de lenguaje al estilo GPT. La ventaja es que el modelo puede producir salidas arbitrariamente largas e integrar contexto a lo largo de toda la ventana de audio. La desventaja es que el tiempo de decodificación escala con la longitud de la salida.
Parakeet TDT es un transducer: el encoder se ejecuta una vez sobre el audio completo, produciendo una secuencia de embeddings acústicos, y el decoder emite tokens de texto más una predicción de duración para cada token en un único paso. La ventaja es que el tiempo de inferencia es esencialmente fijo por segundo de audio — los números publicados por NVIDIA afirman alrededor de 50-100x real-time en una CPU moderna.
Cuándo gana cada uno en precisión
En audio en inglés limpio los dos modelos son estadísticamente indistinguibles en word error rate. Los benchmarks de NVIDIA en LibriSpeech sitúan a Parakeet TDT 0.6B en 2,6% WER en el test set clean. Whisper large-v3 está en el mismo rango (alrededor de 2,0-2,5% clean) dependiendo del build.
En inglés con acento o ruido Whisper tiene ventaja. Cinco años de fine-tuning por la comunidad, fine-tunes para dominios específicos (médico, legal, variantes con acento), y las variantes de 1,5B parámetros dan a Whisper una ventaja de partida.
En cobertura multilingüe Whisper soporta 99 idiomas, Parakeet TDT v3 soporta 25. Para idiomas europeos, Parakeet generalmente iguala o supera a Whisper. Para idiomas de bajos recursos, Whisper es la única opción.
En formato Parakeet tiene una gran ventaja incorporada. El modelo produce puntuación, mayúsculas y normalización inversa de texto como parte de su salida. Whisper produce todo esto solo en tamaños de modelo grandes.
Cuándo gana cada uno en latencia
Para dictado interactivo en hardware exclusivamente CPU, la diferencia es más notable. En un portátil reciente sin GPU dedicada, Whisper Small puede sentirse lento en frases largas. Parakeet en el mismo hardware aterriza bien por debajo de un segundo. En máquinas equipadas con GPU, ambos modelos son suficientemente rápidos que el usuario los percibe como instantáneos.
También hay una historia de coste de arranque. La inicialización de GPU de whisper.cpp en Vulkan puede tardar de 5 a 30 segundos dependiendo del hardware y el estado del driver. Parakeet ejecutándose en ONNX Runtime CPU arranca en menos de un segundo.
Lo que esto significa en nuestro propio producto
Incluimos ambos motores en la misma app de escritorio. Dos observaciones de producción destacan. Primero, la inferencia en streaming en una máquina con GPU reduce la espera post-stop en Whisper a aproximadamente uno o dos segundos incluso en dictados largos. Segundo, en hardware exclusivamente CPU la diferencia entre los dos motores es lo suficientemente grande como para sentirse categórica, no incremental.
Tamaño del modelo y qué cabe en un instalador
Whisper se distribuye en cinco tamaños: Tiny (39 MB Q5_1), Base (74 MB), Small (244 MB), Medium (769 MB), Large (1,5 GB). Parakeet TDT 0.6B v3 se distribuye en torno a 640 MB en formato INT8 ONNX.
Licencias
Whisper tiene licencia MIT. Sin requisito de atribución incluso en distribuciones binarias.
Parakeet TDT tiene licencia CC-BY-4.0. Uso comercial explícitamente permitido, pero la atribución debe aparecer en algún lugar que los usuarios puedan encontrar — típicamente una sección de “Acerca de” / “Créditos”.
La historia multilingüe en detalle
Parakeet TDT v3 cubre los principales idiomas europeos (inglés, español, francés, alemán, italiano, portugués, neerlandés, polaco, ruso, ucraniano, checo, húngaro, sueco, noruego, danés, finlandés, griego, rumano, croata, búlgaro, catalán, vasco) más algunos asiáticos (japonés, coreano, mandarín).
Lo que Parakeet no soporta: la mayoría de los idiomas del sur y sudeste asiático (vietnamita, tailandés, hindi, bengalí, telugu, tamil), la mayoría de los idiomas africanos y de Oriente Medio fuera del árabe. Para vietnamita en particular, Whisper produce salida utilizable y Parakeet no podría ejecutarse.
Realidad en producción
Basándonos en lo que es públicamente visible en 2026: SuperWhisper incluye Whisper como modo local por defecto. MacWhisper y Voibe incluyen Whisper exclusivamente. Wispr Flow está basado en la nube. SnailText incluye Whisper como opción por defecto con Parakeet TDT disponible para usuarios que quieren menor latencia en CPU.
Matriz de decisión — qué motor para qué caso de uso
| Situación | Pick | Why |
|---|---|---|
| App de podcast o transcripción solo en inglés | Parakeet | Native punctuation + 50-100x real-time CPU = serves long files without queueing |
| Notas de reuniones multilingüe (10-25 idiomas) | Parakeet | Better per-language quality than Whisper in the supported set |
| App multilingüe que necesita vietnamita / hindi / tailandés / etc | Whisper | Only choice — Parakeet does not support these languages |
| Dictado en escritorio en portátiles exclusivamente CPU | Parakeet | Whisper Small on CPU is borderline interactive; Parakeet lands under a second |
| Dictado en escritorio en máquinas con GPU | Either | Both feel instant in interactive use; pick on language coverage |
| Industria regulada (médica, legal) con vocabulario de dominio | Whisper | Existing fine-tunes for medical / legal terminology; Parakeet community has none yet |
| Dispositivo embebido / edge (Raspberry Pi, móvil) | Whisper | whisper.cpp has years of embedded tuning; Parakeet ONNX is heavier |
| Codificación por voz (Cursor, Copilot, terminal) | Either | Both work; Parakeet’s built-in formatting is a small win for snake_case style |
Cuándo elegir Whisper
Elige Whisper si necesitas idiomas fuera de los 25 de Parakeet, un fine-tune de la comunidad para tu dominio, licencia máximamente permisiva (MIT), o deployment embebido o edge.
Cuándo elegir Parakeet
Elige Parakeet si tu caso de uso es inglés primero o cubierto por sus 25 idiomas, necesitas inferencia CPU sostenida (50-100x real-time), quieres puntuación y capitalización incorporadas sin post-procesador, o estás empezando un nuevo proyecto en 2026.
La pregunta “¿necesito ambos?”
Si tienes el esfuerzo de integración disponible, distribuir ambos y dejar que el usuario elija es la respuesta de mayor calidad. En SnailText mantuvimos ambos porque nuestra base de usuarios es multilingüe — Parakeet para el modo rápido en inglés, Whisper como fallback para el resto de idiomas.
¿Qué pasa con las APIs en la nube?
Este artículo trata sobre modelos open que distribuyes offline. Las principales APIs en la nube en 2026 son la API Whisper de OpenAI, Google Speech-to-Text, AWS Transcribe, Azure Speech, AssemblyAI, Deepgram y ElevenLabs Scribe. Requieren un round-trip de red por grabación y un medidor por segundo — la categoría operacional es diferente. La elección entre STT en la nube y local es la decisión arquitectónica más importante; la elección entre Whisper y Parakeet es posterior a “queremos local.”
Si ya has tomado la decisión de “queremos local” y solo quieres dictar, SnailText distribuye ambos motores en una sola app y te deja cambiar según el caso de uso. Descárgalo — gratis para empezar, funciona offline, sin cuenta.