Corriger une mauvaise qualité de transcription

Si les transcriptions de Hedy contiennent beaucoup d’erreurs — mots manqués, noms propres incorrects, phrases brouillées — la cause est rarement le modèle d’IA lui-même. C’est presque toujours l’un des éléments suivants : environnement de capture audio médiocre, mauvais microphone, mauvais réglage de langue, ou fournisseur qui ne correspond pas à votre cas d’utilisation. Voici comment diagnostiquer et corriger chaque cause, classée selon sa fréquence.

Commencez par vérifier les bases

Avant de changer quoi que ce soit, vérifiez ceci :

Le paramètre Meeting/Class Language correspond-il à la langue que vous parlez réellement ? Settings > Profile > Language Preferences. Le fournisseur de reconnaissance vocale par défaut (Whisper) ne détecte pas automatiquement la langue — il transcrit en supposant la langue que vous avez configurée. Si les deux ne correspondent pas, chaque mot sera faux. Consultez La transcription est sortie dans la mauvaise langue.
Le bon microphone est-il sélectionné ? Settings > Sessions > Microphone Settings. Si vous avez choisi par erreur un casque Bluetooth débranché ou un micro USB déconnecté, Hedy enregistre du silence et la transcription sera inutilisable.

La plupart des plaintes de “mauvaise qualité” viennent de l’un de ces deux réglages, pas d’un problème technique.

Améliorer l’environnement audio

Hedy n’applique pas de suppression du bruit côté client, de contrôle automatique du gain ni d’annulation d’écho. L’audio envoyé à la transcription correspond essentiellement à ce que votre microphone capte. Audio plus propre à l’entrée = transcription plus propre à la sortie.

Rapprochez le microphone des personnes qui parlent. Pour les réunions en personne, un téléphone placé au milieu d’une petite table fonctionne pour 4 à 5 personnes. Pour une grande salle, 8 personnes ou plus, ou un environnement bruyant, utilisez plusieurs appareils ou un micro de conférence dédié.
Réduisez le bruit de fond. Ventilateurs, climatisation, appareils de cuisine, circulation et autres personnes qui parlent en arrière-plan dégradent tous la précision. Fermez les portes et fenêtres. Éteignez le ventilateur si possible.
Évitez d’enregistrer depuis des haut-parleurs d’ordinateur portable captés par le micro du même ordinateur. Si vous essayez de capturer une réunion lue via les haut-parleurs du portable (par exemple, une vidéo YouTube), utilisez plutôt les fonctionnalités de capture de l’audio système. Consultez Hedy ne capture pas les autres participants dans les réunions virtuelles.
Ne parlez pas les uns par-dessus les autres. Les paroles qui se chevauchent sont le cas le plus difficile pour toute reconnaissance vocale. La diarisation de Hedy essaie de séparer les locuteurs, mais si plusieurs personnes parlent en même temps, la précision chute fortement.

Choisir le bon fournisseur de reconnaissance vocale

Hedy prend en charge cinq fournisseurs de reconnaissance vocale — trois locaux, deux cloud. Vous pouvez les consulter et les modifier dans Settings > Speech & AI > Speech Recognition Options.

Fournisseur	Type	Idéal pour	Compromis
Local Speech Recognition (Whisper) — par défaut	Local	Usage sensible à la confidentialité, travail hors ligne, large prise en charge des langues	Plus lent que le cloud sur les cartes graphiques intégrées ; utilise la langue de réunion configurée (pas d’auto-détection)
Local Speech Recognition (Parakeet) [Beta]	Local (Macs Apple Silicon et modèles iPhone/iPad pris en charge)	Transcription en temps réel plus rapide pour l’anglais et les principales langues européennes	Beta ; liste de langues plus étroite que Whisper ; peut confondre des langues similaires
Local Speech Recognition (Nemotron) [Beta]	Local (Macs Apple Silicon et modèles iPhone/iPad pris en charge)	Transcription en temps réel plus rapide avec étiquettes de locuteur sur l’appareil ; propose un mode anglais uniquement et un mode multilingue	Beta ; identifie la langue à partir de l’audio plutôt que de votre réglage de langue de réunion
Deepgram (nécessite votre propre clé API)	Cloud	Précision cloud, auto-détection multilingue, grandes réunions	Nécessite un compte Deepgram et une clé API ; pas local
OpenAI (nécessite votre propre clé API)	Cloud	Précision cloud, détection automatique de la langue	Nécessite un compte OpenAI et une clé API ; pas local

Si vous utilisez le fournisseur par défaut Whisper et que la précision n’est pas suffisante, essayez dans cet ordre selon votre situation :

Sur les Macs Apple Silicon ou les modèles iPhone/iPad compatibles, pour l’anglais ou les principales langues européennes : essayez Parakeet ou Nemotron. Ils s’exécutent sur le Neural Engine d’Apple et sont souvent plus rapides et plus précis que Whisper pour la transcription en temps réel. Les deux restent en beta — ils identifient la langue à partir de l’audio, donc surveillez les confusions entre “langues similaires” (par exemple, allemand vs néerlandais). Pour les réunions non anglophones sur Nemotron, utilisez son mode Multilingual.
Pour les réunions multilingues, les accents marqués ou les environnements bruyants : essayez Deepgram (auto-détection multilingue) ou OpenAI (auto-détection). Les deux nécessitent votre propre clé API, mais ils surpassent généralement les modèles locaux sur l’audio difficile.
Si vous devez rester hors ligne ou entièrement privé et que Whisper est lent sur votre matériel : consultez Corriger la transcription lente sur Windows (paramètres GPU) pour le correctif d’accélération GPU spécifique à Windows, ou passez à Parakeet si vous êtes sur Apple Silicon.

Utiliser le vocabulaire personnalisé pour les noms propres

Si Hedy transcrit mal les noms, termes techniques, noms de produits ou jargon métier, ajoutez-les au Custom Vocabulary.

Ouvrez les Settings de Hedy
Allez dans Personalization > Custom Vocabulary > Manage Vocabulary Terms
Saisissez chaque terme dans “Enter a custom term…” et appuyez sur Add
Assurez-vous que Enable Custom Vocabulary est activé

Le Custom Vocabulary est transmis directement à la transcription Whisper locale comme prompt, ce qui l’aide à reconnaître et orthographier correctement les termes propres à votre domaine. Il aide aussi l’étape de nettoyage de transcription (qui s’exécute sur tous les fournisseurs, y compris Parakeet, Nemotron, Deepgram et OpenAI) à repérer et corriger les erreurs.

Remarque : Custom Vocabulary a son effet direct le plus fort lorsque vous utilisez Whisper STT local. Pour Parakeet, Nemotron, Deepgram et OpenAI, l’étape de nettoyage bénéficie toujours de votre liste de vocabulaire, mais le moteur de reconnaissance vocale lui-même ne la reçoit pas comme prompt.

Pour un guide plus complet sur la création d’une bonne liste de vocabulaire, consultez le guide du vocabulaire personnalisé.

Corriger les problèmes matériels de microphone

Si la qualité audio se dégrade en pleine session ou si seules certaines personnes sont captées, le matériel est suspect :

Les casques Bluetooth se dégradent souvent lorsque la batterie baisse ou que la portée augmente. Consultez AirPods et casques Bluetooth qui se coupent.
Les microphones USB peuvent souffrir de problèmes de câble — essayez un autre port USB ou un autre câble
Les micros intégrés d’ordinateur portable conviennent pour une ou deux personnes assises près du clavier. Ils ne sont pas idéaux pour les salles de conférence.
Les téléphones dans une coque ou sous du tissu peuvent produire un son étouffé

Test rapide : enregistrez un court mémo vocal avec le même microphone dans Dictaphone / Recorder / une application simple équivalente. Si cet enregistrement sonne mal, le problème vient du micro, pas de Hedy.

Format audio utilisé par Hedy

Pour référence, Hedy capture l’audio en 16 kHz, mono, PCM 16 bits — le standard de la reconnaissance vocale. Ce format va directement vers Whisper local et Deepgram. Pour OpenAI Realtime, Hedy rééchantillonne en 24 kHz avant l’envoi (format requis par OpenAI). Tous ces formats conviennent à la parole, mais sont avec perte pour la musique ou l’audio haute fidélité. N’attendez pas d’excellents résultats en essayant de transcrire des chansons.

Quand escalader

Si vous avez vérifié tout ce qui précède et que la précision reste mauvaise :

Notez le type précis d’erreur (mauvais mots, sections manquées, mauvaise attribution des locuteurs, texte complètement incohérent)
Capturez un échantillon de 30 secondes où l’erreur se produit
Contactez-nous via le widget de chat avec l’échantillon et votre configuration fournisseur/langue

Nous pouvons généralement identifier s’il s’agit d’un problème d’environnement, de configuration ou de fournisseur.

Articles connexes

Vous avez toujours des problèmes ? Contactez-nous via le widget de chat avec votre fournisseur, votre réglage Meeting/Class Language, le modèle de votre appareil et un échantillon où le problème est visible.