Pourquoi Apple Dictation ne suffit pas pour la dictée vocale du quotidien
Apple Dictation fonctionne. Il tourne sur l'appareil sur tout Mac doté d'une puce M1 ou plus récente, la transcription est acceptable pour des phrases courtes, et il ne coûte rien. Pour un message rapide ou une requête de recherche d'une ligne, il fait l'affaire.
Il cesse de suffire dès que vous tentez de l'utiliser pour du vrai travail. La documentation d'Apple indique que Dictation n'a pas de limite de durée stricte sur Apple Silicon - mais il s'arrête après 30 secondes de silence détecté, ce qui inclut les pauses naturelles que vous prenez en réfléchissant. Réactiver le raccourci deux ou trois fois dans un seul e-mail devient une routine.
Deuxième point : la précision sur le contenu technique. Apple Dictation est correct sur la parole claire et générale, et visiblement moins bon sur le code, le jargon, l'anglais accentué et le vocabulaire propre à un domaine. Les outils tiers tournant sur des modèles Whisper sont nettement meilleurs.
Troisième point : la frontière d'intégration. Apple Dictation fonctionne dans les applis Apple et la plupart des champs de texte natifs macOS. Il n'a pas de flux cohérent dans les applis web, les applis Electron ou les terminaux. Vous finissez par le désactiver dans la moitié des endroits où vous voudriez l'utiliser.
Dictée sur Apple Silicon : pourquoi Whisper tourne vite sur les puces M
Le moteur whisper.cpp, qui propulse la plupart des applis de dictée Mac récentes dont la nôtre, se compile avec l'accélération GPU Metal par défaut sur Apple Silicon. Metal est l'API GPU d'Apple, et sur les puces M elle repose directement sur le pool de mémoire unifiée. Les poids du modèle et le buffer audio vivent dans la même mémoire physique que le code de votre application - sans copie mémoire entre CPU et GPU.
Ce seul détail d'architecture explique pourquoi les Mac à puce M exécutent les modèles Whisper plus grands plus vite que du matériel Intel équivalent, souvent en temps réel ou mieux. Sur Windows, la même classe de modèle exige généralement une GPU NVIDIA dédiée pour atteindre une latence comparable.
Pour les chiffres de latence par puce de M1 à M4 avec Whisper Small / Medium / Large v3, voyez notre analyse détaillée de la dictée pour Mac. SnailText fait aussi du streaming d'inférence sur les phrases closes pendant que vous parlez, si bien que l'attente réelle au curseur paraît plus courte que ce que suggère le temps brut d'une passe du modèle.
Dictée vocale sur Mac pour le code, les documents et le travail clinique
Le raccourci est le même dans toutes les applis. Option+Space (configurable). Appuyez une fois, l'enregistrement démarre. Appuyez de nouveau, le texte transcrit se pose au curseur. Pas de menu, pas de barre d'outils, pas de changement de focus. Voyez comment ça marche pour le pipeline complet.
Le dictionnaire personnalisé (Pro) gère les mots que Whisper ne connaît pas encore - les noms de votre stack, ceux de vos collègues, les termes juridiques propres à une juridiction, les codes DSM pour les cliniciens. Ajoutez un terme une fois et SnailText remplace la version mal comprise avant qu'elle n'arrive dans le champ de texte.
L'audio ne quitte jamais votre Mac. Le buffer reste en RAM pendant l'enregistrement et est supprimé dès que le texte est prêt. Vérifiable dans Little Snitch ou Lulu - aucun trafic sortant pendant la dictée. Sous Windows ? Voyez dictée vocale sur Windows.