Pourquoi "hors ligne" est une question d'architecture, pas un élément de checklist

La dictée hors ligne, aussi appelée reconnaissance vocale hors ligne, parole vers texte hors ligne ou parole vers texte local, décrit un logiciel de voix vers texte dans lequel le modèle de parole s'exécute sur votre propre matériel, pas sur un serveur distant. La distinction est d'architecture, pas une case à cocher dans un menu de réglages de confidentialité.

La plupart des applis de dictée qui annoncent de la confidentialité sont encore des applis cloud. Elles ont une politique de confidentialité, un certificat d'audit, une option de Business Associate Agreement, une promesse de ne pas s'entraîner sur vos données. Ce sont des contrôles de politique. Ils dépendent du fait que le fournisseur fasse ce qu'il a dit, et de votre confiance qu'il le fera.

Une appli de dictée véritablement hors ligne n'a pas de politique de confidentialité au même sens. L'audio ne peut pas atteindre un serveur parce qu'il n'y a pas d'appel réseau. Le modèle ne peut pas faire fuiter de données parce qu'il s'exécute dans un processus sur votre matériel, avec votre système d'exploitation contrôlant qui peut le voir.

La garantie de confidentialité, c'est l'architecture, pas une promesse.

Cette différence apparaît dans les pires cas. Quand la plateforme de conformité Delve a été impliquée dans une enquête sur une fraude d'audit en mars 2026 (selon une enquête publiée sur Substack qui a analysé 494 rapports SOC 2 censément générés par la plateforme, trouvant 99,8% avec un texte-modèle identique), des clients de plusieurs entreprises de dictée dans le cloud ont découvert que les certifications SOC 2 qu'ils présumaient avoir avaient été générées par un outil qui produisait des rapports essentiellement identiques. Les entreprises affectées ont réagi en changeant d'auditeur (Wispr Flow a engagé A-LIGN comme nouvel auditeur et Drata comme nouvelle plateforme de conformité, selon l'analyse de l'incident par Voibe Resources). Les clients n'avaient aucun moyen de vérifier ce qui avait réellement été audité au départ. Les outils hors ligne n'ont tout simplement pas ce problème, parce qu'il n'y a rien à auditer dans la couche d'inférence.

Un incident séparé et largement relayé impliquait Wispr Flow capturant des captures d'écran de la fenêtre active de l'utilisateur toutes les quelques secondes et les envoyant à une infrastructure d'IA tierce dans le cadre d'une fonctionnalité de "context awareness" (documenté par une analyse de trafic réseau publiée sur Reddit en 2025, le CTO du fournisseur s'excusant publiquement après que l'entreprise avait initialement banni l'utilisateur qui avait signalé le problème, selon le reportage d'Embertype). Depuis, l'appli a changé l'implémentation pour lire le texte près du curseur via les accessibility APIs au lieu de captures d'écran complètes (selon la documentation actuelle de Wispr Flow), mais le point de fond reste valable : les applis de dictée dans le cloud peuvent faire des choses que vous ne voyez pas, et vous le découvrez plus tard, quand vous le découvrez.

Une variante plus subtile du même problème existe dans des applis qui se vendent comme "locales". SuperWhisper traite l'audio sur l'appareil, et cette partie est vraie. Mais leur fonctionnalité Smart Modes envoie un contexte supplémentaire à l'infrastructure cloud de Modal à chaque dictée : le nom de l'appli dans laquelle vous tapez, le contenu du champ de texte en focus, votre presse-papiers et des identifiants système, dont le nom de l'ordinateur et le fuseau horaire. C'est documenté dans le system prompt qu'ils exposent dans leur propre trafic réseau. Si vous dictez dans un document juridique, dans une note de patient ou dans une conversation privée du Slack, ce contexte quitte votre machine même si l'audio ne la quitte pas. "Audio local" et "tout local" sont des affirmations différentes.

Rien de tout cela ne signifie que la dictée dans le cloud soit une erreur. Cela signifie que le modèle de confiance est différent. Si vous dictez des listes de courses et des messages du Slack, le modèle de confiance est probablement très bien. Si vous dictez du travail client, des notes médicales, des brouillons juridiques, des informations internes de l'entreprise ou tout ce que vous ne voudriez pas voir rester sur le serveur de quelqu'un d'autre, la réponse d'architecture est véritablement meilleure que la réponse de politique.

Comment fonctionne Whisper local, et ce que "en RAM" signifie vraiment

Les applis modernes de dictée hors ligne utilisent la famille de modèles Whisper, initialement publiée en open source par OpenAI en 2022 et aujourd'hui développée dans plusieurs implémentations, dont whisper.cpp, faster-whisper, MLX Whisper et d'autres. Les variantes plus petites (tiny, base, small) font entre 75MB et 500MB sur le disque et tournent sur du matériel grand public en temps réel.

Le pipeline, en étapes concrètes :

Étape 1. Vous appuyez sur un raccourci. L'appli ouvre un flux audio depuis votre microphone en 16 kHz mono PCM, le format que Whisper attend. Les échantillons affluent vers un buffer roulant en RAM, typiquement quelques mégaoctets par minute de parole. Aucun fichier sur le disque.
Étape 2. Un détecteur d'activité vocale (VAD) observe le flux et décide quand la parole se termine. Le Silero VAD est le choix courant : un petit modèle ONNX qui tourne en millisecondes par segment et émet un signal de "phrase terminée" après environ une demi-seconde de silence.
Étape 3. Chaque phrase fermée est remise au modèle Whisper. Whisper s'exécute sur votre CPU ou GPU comme un processus lié à l'appli elle-même, sans communication inter-processus, sans appel réseau.
Étape 4. Le modèle produit des tokens de texte. Sur Apple Silicon cela prend normalement quelques centaines de millisecondes pour une phrase de 10 secondes ; sur un CPU de laptop Intel moderne cela prend quelques secondes ; sur un GPU NVIDIA dédié c'est plus rapide que le temps réel.
Étape 5. Le texte est collé dans votre champ de texte actif via l'API standard de saisie de texte du système d'exploitation. La même API que votre clavier utilise.
Étape 6. Quand vous fermez l'appli, le système d'exploitation récupère le buffer. Rien de l'enregistrement ne survit au processus. Rien n'est écrit sur le disque à moins que vous n'activiez explicitement l'historique.

Il n'y a pas d'appel réseau dans aucune de ces étapes. Vous pouvez le vérifier avec n'importe quel moniteur réseau standard : Little Snitch sur Mac, Wireshark sur n'importe quel système, ou les journaux de pare-feu intégrés à votre système d'exploitation.

Voici à quoi cela ressemble en tant que schéma structurel, pas en tant que benchmark. Lancez n'importe laquelle de ces applis avec un moniteur réseau ouvert pendant une dictée de 60 secondes et vous verrez des comptes de requêtes sortantes dans la fourchette suivante. Les chiffres exacts varient avec le build, les feature flags et l'état d'authentification ; la différence entre zéro et non-zéro est le point d'architecture :

Requêtes réseau sortantes pendant une dictée de 60 secondes, observées en mai 2026.
App	Requêtes sortantes	Ce qu'elles sont
SnailText (Whisper local)	0	Aucune. Le modèle s'exécute dans son propre processus ; l'audio ne quitte jamais la RAM.
Wispr Flow (Mode Confidentialité activé)	1 — 2	Heartbeat d'authentification vers le backend du fournisseur. L'audio lui-même est encore envoyé au cloud pour la transcription ; le Mode Confidentialité désactive la rétention, pas la transmission.
Référence de STT dans le cloud (typique)	3 — 12	Authentification, upload d'audio (souvent par morceaux), téléchargement de la transcription, télémétrie. Le compte exact dépend de la taille du segment et des feature flags.

C'est le test auquel nous revenons toujours quand on parle de "hors ligne" : pas le texte marketing, pas la politique de confidentialité, mais une capture de paquets pendant un vrai enregistrement. SnailText à zéro est la garantie d'architecture. Wispr Flow en Mode Confidentialité à un ou deux est honnête quant à sa conception, parce que l'audio doit encore atteindre un serveur pour être transcrit ; le Mode Confidentialité contrôle ce que le serveur conserve. Un STT dans le cloud entre trois et douze est le coût normal d'exécuter la reconnaissance vocale comme un service.

The architectural difference between offline and cloud dictation. Offline keeps the audio in a RAM buffer that the operating system releases when the app closes. Cloud sends the audio across a network boundary to a third-party server you don't control — the privacy policy applies to that custody, not to the architecture.

La partie "en RAM" est la garantie spécifique. Le contenu de la RAM ne persiste pas entre les redémarrages. Il n'est pas accessible à d'autres processus en dehors des règles standard d'isolation de processus du système d'exploitation. Il n'est pas inclus dans les sauvegardes Time Machine, iCloud ou OneDrive à moins que vous n'activiez à part une fonctionnalité qui l'écrit sur le disque. Quand vous fermez l'appli, le buffer disparaît.

La raison d'insister là-dessus est que le détail d'architecture est la véritable garantie de confidentialité. Il n'y a pas de politique à laquelle vous deviez faire confiance ; il n'y a que le chemin du code, et le chemin du code peut être observé.

L'histoire du RGPD et de la HIPAA pour la dictée hors ligne

Les cadres juridiques autour des données vocales se sont nettement resserrés au cours de 2025 et 2026. Sous le Règlement Général sur la Protection des Données de l'UE, les enregistrements vocaux sont des données personnelles, et les empreintes vocales sont classées comme données biométriques de catégorie spéciale lorsqu'elles sont traitées à des fins d'identification. Les amendes totales du RGPD ont dépassé 7,1 milliards d'euros cumulés jusqu'en 2026, avec 1,2 milliard d'euros appliqués rien qu'en 2025 et une hausse de 40% d'une année sur l'autre des amendes spécifiquement liées à une mauvaise gestion des données vocales (selon le Rapport de Conformité RGPD 2026 de Kiteworks). À elle seule, l'Autorité néerlandaise de Protection des Données a infligé une amende de 30,5 millions d'euros à Clearview AI pour des violations de données biométriques impliquant la reconnaissance faciale.

Aux États-Unis, les niveaux de pénalité de la HIPAA ont été mis à jour, en vigueur depuis le 28 janvier 2026, vers une structure où des violations individuelles peuvent coûter entre 145 $ et 2 190 294 $, selon la catégorie de faute, avec des plafonds annuels de 2 190 294 $ par type de violation. L'initiative d'analyse de risque de l'Office for Civil Rights, tout au long de 2025, a spécifiquement visé la "shadow AI" : des situations où des employés utilisent des outils d'IA grand public sans passer par les processus formels d'acquisition de fournisseur et de BAA. La dictée dans le cloud qui traite de la Protected Health Information sans un Business Associate Agreement signé est une violation dès la première transcription, indépendamment de si quelque chose tourne mal ensuite.

La dictée hors ligne élimine la plupart de ces modes de défaillance parce que les données ne changent pas de garde. Le traitement local signifie :

Aucun Data Processing Agreement nécessaire avec un fournisseur de dictée, parce que le fournisseur ne traite pas les données.
Aucun Business Associate Agreement nécessaire pour la HIPAA, parce qu'aucune PHI ne sort du contrôle de l'entité couverte.
Aucune évaluation de transfert transfrontalier de données, parce qu'il n'y a pas de transfert.
Aucun Data Protection Impact Assessment pour le pipeline vocal (un peut encore être nécessaire pour d'autres parties de votre système dans son ensemble).
Aucune gestion de risque de fournisseur pour le traitement des données de parole, là encore parce que le fournisseur ne traite pas de données de parole.

L'architecture elle-même est le mécanisme de conformité. Cela ne veut pas dire qu'une organisation réglementée puisse déployer n'importe quel outil de dictée hors ligne sans réfléchir : vous devez encore vérifier les affirmations, documenter l'architecture et considérer les cas limites comme les crash dumps et les canaux de mise à jour. Mais le travail de conformité de base est radicalement moindre que pour un équivalent dans le cloud.

Pour les organisations qui se sont déjà débattues avec des audits SOC 2 de fournisseurs, des négociations de BAA et des revues de DPA pour la dictée dans le cloud, la simplification est le plus grand avantage pratique isolé du passage au hors ligne.

Pas de BAA. Pas de DPA. Juste un modèle local.

SnailText traite tout sur votre appareil. Tier gratuit illimité, sans compte, sans internet pendant la dictée.

Télécharger pour Mac

Quelles applis de dictée sont réellement hors ligne (une vérification)

Quatre applis de dictée tournent entièrement hors ligne par défaut en 2026 : SnailText (Mac et Windows), MacWhisper (Mac uniquement), SuperWhisper en mode local (Mac et Windows) et Voibe (Mac uniquement). Trois applis sont basées sur le cloud par défaut avec des options de confidentialité par-dessus : Wispr Flow, Willow Voice et Speechify. Aqua Voice et la plupart des fonctionnalités de dictée de Speechify sont cloud uniquement. La catégorie est assez petite pour qu'il vaille la peine d'être concret :

App	Local par défaut	Option cloud	Mac	Win	Observations
SnailText	Oui	Non (pas en 2026)	✅	✅	Whisper + Parakeet local. Parité de fonctionnalités Mac/Windows dès le premier jour.
MacWhisper	Oui	Oui (Pro Plus, optionnel)	✅	—	Whisper local pour la transcription de fichiers et la dictée en direct.
SuperWhisper	Oui (mode local)	Oui (BYOK Pro)	✅	✅	Mode local uniquement pris en charge. Pro ajoute BYOK pour OpenAI/Anthropic/ElevenLabs.
Voibe	Oui	Non	✅	—	Whisper local pour le flux principal de dictée.
Wispr Flow	Non	Oui (cloud par défaut)	✅	✅	Le Mode Confidentialité désactive le stockage, mais l'audio est encore traité dans le cloud.
Willow Voice	Non	Oui (cloud par défaut)	✅	✅	Dictée basée sur le cloud.
Aqua Voice	Non	Oui (cloud uniquement)	✅	—	Modèle Avalon propriétaire dans le cloud. Bons benchmarks de précision.

Si la garantie hors ligne vous importe, la liste courte pratique se resserre à quatre applis (nous, MacWhisper, SuperWhisper mode local, Voibe). Trois de ces quatre sont Mac uniquement ou Mac-d'abord. Le seul avec une parité Mac et Windows dès le premier jour, c'est nous, ce qui sonne intéressé, nous l'admettons, mais c'est l'état réel du marché.

SnailText - dictée hors ligne pour Mac et Windows

Tier gratuit : Whisper Tiny + Base illimités, sans compte requis. Zéro requête sortante pendant la dictée, vérifiable dans votre pare-feu.

Télécharger pour Mac

Applis de dictée locale en 2026 - les quatre qui tournent vraiment sur votre appareil

"Dictée hors ligne" et "appli de dictée locale" décrivent la même architecture sous deux angles. Hors ligne souligne ce qui n'arrive pas (pas d'aller-retour vers le cloud). Local souligne où le modèle s'exécute (sur votre CPU, GPU ou Neural Engine). Les deux termes pointent vers la même liste courte de quatre applis en 2026.

Une appli de dictée locale signifie que le modèle de parole vers texte (Whisper, Parakeet ou un modèle propre au fournisseur) est téléchargé dans le cadre de l'installation de l'appli et exécuté par votre matériel à chaque dictée. Aucun audio n'est envoyé. Aucune transcription n'est stockée à distance. Aucun compte n'est nécessaire pour obtenir une transcription. Le fournisseur ne peut pas voir ce que vous dictez même s'il le voulait, parce que l'audio n'atteint jamais ses serveurs.

Cette propriété, vérifiable par moniteur réseau, pas par promesse, est la raison pour laquelle des professions réglementées (thérapeutes rédigeant des notes de séance, avocats rédigeant du travail privilégié, cliniciens documentant de la PHI) adoptent de plus en plus par défaut une appli de dictée locale plutôt qu'une appli cloud. Le cadre de conformité se simplifie : il n'y a pas de processeur tiers de l'audio parce que l'audio n'est jamais transmis. Vous pouvez lire nos positions spécifiques pour les thérapeutes, les avocats et les cas d'usage tournés vers l'accessibilité.

Quand la dictée hors ligne a des compromis

La dictée hors ligne a cinq compromis pratiques par rapport au STT dans le cloud : les modèles locaux plus petits sont typiquement 1-7 points de pourcentage moins précis que les variantes Large dans le cloud sur de l'audio bruyant ou avec accent, les langues moins courantes ont une prise en charge de modèle local plus faible, l'inférence utilise le CPU ou le GPU de votre matériel ce qui pèse sur les laptops plus anciens, la synchronisation entre appareils exige une ingénierie délibérée (il n'y a pas de serveur central dans la boucle par défaut) et les améliorations de précision arrivent comme des mises à jour logicielles mesurées en mois, au lieu de mises à jour continues de modèle dans le cloud mesurées en jours.

Limites de taille de modèle. Les modèles locaux compacts (tiny, base, small) tournent sur n'importe quelle machine moderne, mais sont moins précis que les grands modèles dans le cloud pour de l'audio très bruyant, des accents très marqués ou des langues moins courantes. Pour de l'audio en anglais propre dans une pièce silencieuse, la différence est petite. Pour un locuteur avec accent enregistrant dans un café bruyant, la différence peut croître à plusieurs points de pourcentage.

Langues moins courantes. Whisper est plus fort en anglais et dans les principales langues européennes. Pour le vietnamien, le bengali, le télougou et d'autres langues à moins de ressources, la précision du modèle local peut chuter de manière significative. Les fournisseurs de cloud utilisant des modèles plus grands ou des réglages fins spécifiques à une langue ont souvent l'avantage ici.

Le coût de calcul, c'est votre matériel. Exécuter l'inférence localement coûte de l'électricité et utilise votre CPU ou GPU. Sur Apple Silicon et sur les GPU dédiés modernes, le coût est négligeable. Sur les laptops plus anciens sans accélération GPU, il peut être perceptible et la consommation de batterie devient un facteur réel.

Pas de synchronisation en direct de l'état du modèle entre appareils. Si vous entraînez un vocabulaire personnalisé sur votre Mac, il ne se synchronise pas automatiquement avec votre machine Windows parce qu'il n'y a pas de serveur central dans la boucle. Les outils modernes (le nôtre inclus) synchronisent via un serveur de licence avec chiffrement de bout en bout, mais c'est une couche qui doit être conçue exprès.

Les mises à jour arrivent comme des mises à jour logicielles. Un fournisseur de STT dans le cloud peut améliorer son modèle du jour au lendemain, et votre précision de dictée s'améliore sans aucune action de votre part. Les applis locales mettent à jour la précision quand elles publient une nouvelle version de l'appli avec un nouveau modèle intégré. Le cycle est en mois, pas en jours.

Pour la plupart de la dictée de travailleur du savoir en anglais ou dans les principales langues européennes, ces compromis sont mineurs. Pour des cas limites spécifiques, le cloud a de vrais avantages. Le but d'une conception offline-first est de rendre le choix par défaut correct-en-confidentialité, pas d'affirmer que c'est toujours le meilleur choix technique.

Comment vérifier si n'importe quelle appli de dictée est réellement hors ligne

Vérifier qu'une appli de dictée tourne hors ligne prend environ 60 secondes avec des outils standard et aucune expertise particulière :

Installez un moniteur réseau. Little Snitch sur macOS (45 $ paiement unique), GlassWire sur Windows (un tier gratuit existe) ou Wireshark sur n'importe quel système (gratuit, open source).
Fermez l'appli de dictée que vous voulez tester, puis ouvrez le moniteur réseau.
Ouvrez l'appli de dictée et démarrez une session. Parlez pendant 10-20 secondes.
Arrêtez la session et observez le journal de trafic sortant du moniteur réseau filtré sur le processus de l'appli de dictée.
Une appli véritablement hors ligne génère zéro requête sortante pendant l'enregistrement ou la transcription. Les vérifications de mise à jour du logiciel au démarrage et les appels de vérification de licence sont normaux et séparés de la dictée.

SnailText, pour référence, tourne hors ligne par défaut sur Mac (Apple Silicon, M1 ou postérieur) et sur Windows (10 et 11, x86-64). Le tier gratuit est de la dictée locale illimitée avec des modèles Whisper compacts, sans compte requis, sans limites de temps. L'appli fait des appels sortants uniquement pour les vérifications de mise à jour du logiciel au démarrage, la vérification de licence Pro (une fois par session sur Pro) et des rapports d'erreur anonymes optionnels (opt-in, désactivés par défaut).

Le tier Pro ($7.49/mo · $89/yr, 3 appareils) ajoute des modèles Whisper plus grands et Parakeet TDT v3 avec prise en charge multi-langue, l'expansion de dictionnaire et de snippets, et une garantie de remboursement de 30 jours.

FAQ

Comment vérifier qu'une appli de dictée est vraiment hors ligne ?

Lancez Little Snitch sur macOS, GlassWire sur Windows ou Wireshark sur l'un ou l'autre système et observez l'activité réseau pendant que vous dictez. Une appli véritablement hors ligne génère zéro trafic sortant pendant l'enregistrement ou la transcription. Les vérifications de mise à jour du logiciel au démarrage et les appels de vérification de licence sont normaux et séparés de la dictée.

La dictée hors ligne fonctionne-t-elle sans internet ?

Oui. Le modèle s'exécute entièrement sur votre appareil. Vous pouvez dicter dans un avion, dans un café sans Wi-Fi, dans un sous-sol, où vous voulez. La seule chose qui a besoin d'internet est le téléchargement initial de l'appli.

Whisper local est-il aussi précis que Whisper dans le cloud ?

Le modèle est le même code open source d'OpenAI. La différence de précision tient à la taille du modèle qui tourne, pas à l'endroit où il tourne. Pour de l'audio en anglais propre, le Small/Medium local et le Large dans le cloud restent dans une fourchette de 1-3 points de pourcentage. Pour de l'audio avec accent ou bruyant, la différence peut atteindre 3-7 points.

La dictée hors ligne est-elle conforme à la HIPAA ?

Whisper local exécuté entièrement sur votre appareil est le chemin le plus simple vers la conformité HIPAA en transcription vocale, parce qu'aucune Protected Health Information ne sort de votre contrôle. Aucun Business Associate Agreement n'est nécessaire parce qu'il n'y a aucun business associate qui traite les données vocales. Vous devez encore gérer les données correctement sur votre propre appareil (chiffrement au repos, contrôles d'accès, journaux d'audit comme l'exige votre organisation), mais la catégorie de risque des données en transit est éliminée.

Qu'est-ce que le Mode Confidentialité de Wispr Flow ?

Le Mode Confidentialité de Wispr Flow désactive le stockage des données et l'entraînement de leur modèle. Il ne change pas le fait que l'audio est encore envoyé à leurs serveurs pour la transcription. L'architecture est cloud-sans-rétention, pas locale. Les deux peuvent être des choix raisonnables, mais ce sont des choix différents.

SnailText envoie-t-il un jour quelque chose ?

Nous faisons des appels réseau sortants pour : les vérifications de mise à jour du logiciel (vous pouvez les désactiver dans les Réglages), la vérification de licence Pro (utilisateurs Pro uniquement, une fois par session) et des rapports d'erreur anonymes optionnels (désactivés par défaut, vous choisissez de les activer). Nous n'envoyons jamais d'audio, de transcriptions ni rien de ce que vous dictez.

Quelle est la meilleure appli de reconnaissance vocale hors ligne en 2026 ?

La meilleure appli de reconnaissance vocale hors ligne dépend de votre plateforme et de vos priorités. Sur Mac et Windows, SnailText et SuperWhisper offrent une inférence locale avec Whisper et accélération GPU. MacWhisper est Mac uniquement, mais a un solide flux de transcription de fichiers. Voibe est Mac uniquement. AirTypes est Mac et Linux uniquement (Windows pas encore disponible). Pour une pure précision de dictée sans aucune dépendance au cloud, SnailText et SuperWhisper sont les options les plus solides avec parité entre plateformes. SnailText ajoute un tier gratuit illimité sans compte requis.

Puis-je faire de la reconnaissance vocale hors ligne sans GPU ?

Oui. Les modèles Whisper Tiny et Base tournent en temps réel sur le CPU seul - un laptop moderne termine une phrase de 10 secondes en 1-3 secondes sans aucun GPU. Le tier gratuit de SnailText inclut ces modèles sans limites. Si vous avez un GPU intégré (Intel Iris, AMD Radeon intégré), Vulkan sur Windows et Metal sur Mac peuvent accélérer de manière significative même les graphismes intégrés. Un GPU dédié (NVIDIA, AMD) fait passer la latence sous les 300ms sur les plus grands modèles.

Aspect	Dictée hors ligne	Dictée dans le cloud
Où l'audio est traité	Sur votre appareil, en RAM	Serveur distant
Exige un réseau	Non	Oui (pour chaque dictée)
Business Associate Agreement (HIPAA)	Pas nécessaire	Obligatoire avant la première utilisation
Évaluation de transfert de données (RGPD)	Pas nécessaire	Obligatoire pour un flux transfrontalier
Latence	50-300ms (inférence seule)	200-800ms (aller-retour + inférence)
Précision en anglais propre	Compétitive avec le cloud sur les modèles medium/large	Léger avantage tout en haut (plus grands modèles dans le cloud)
Applis avec ce schéma en 2026	SnailText, MacWhisper, SuperWhisper (mode local), Voibe	Wispr Flow, Aqua Voice, Willow Voice

Dictée hors ligne - voix vers texte sans le cloud

Dictée hors ligne vs cloud en un coup d'œil