Fournisseurs de reconnaissance vocale dans Hedy

Que sont les fournisseurs de reconnaissance vocale ?

Hedy prend en charge plusieurs options de reconnaissance vocale, vous offrant la flexibilité de choisir entre une confidentialité totale avec le traitement local ou des alternatives basées sur le cloud. Vous pouvez changer de fournisseur à tout moment en fonction de vos besoins actuels — utilisez le traitement local pour les sessions hors ligne et les services cloud lorsque vous préférez leurs fonctionnalités spécifiques.

Premiers pas

Ouvrez l’application Hedy
Accédez à Settings (appuyez sur votre icône de profil)
Faites défiler jusqu’à « Speech Recognition Options »
Sélectionnez votre fournisseur préféré dans le menu déroulant
Configurez les paramètres spécifiques au fournisseur si nécessaire
Votre sélection prendra effet lors de la prochaine session

Fournisseurs disponibles

Hedy propose quatre options de reconnaissance vocale, chacune avec des caractéristiques uniques :

Local Speech Recognition (Whisper) : Option par défaut — 100 % privée, fonctionne hors ligne, sans coût d’utilisation. Votre audio ne quitte jamais votre appareil. Disponible sur toutes les plateformes prises en charge par Hedy.
Local Speech Recognition (Nemotron) [Beta] : Un nouveau moteur de streaming sur l’appareil, avec des transcriptions en direct et des étiquettes de locuteur sur l’appareil. Vous choisissez entre un mode anglais uniquement (l’option la plus rapide) et un mode multilingue qui couvre un large ensemble de langues majeures. Disponible sur toutes les plateformes pour lesquelles Hedy propose une application native : Mac Apple Silicon, iPhone 12 (ou plus récent), iPad Air 4 (ou plus récent), Windows et Android. Sur le matériel Apple, il s’exécute sur le Neural Engine et étiquette les locuteurs en direct ; sous Windows et Android, les étiquettes sont ajoutées à la fin de la session. Nécessite un téléchargement unique du modèle (environ 0,6 Go pour l’anglais uniquement, 0,7 Go pour le multilingue).
Deepgram : Service cloud avec streaming en temps réel et fonctionnalités de mise en forme intelligente. Utilise Nova-3, qui prend en charge des dizaines de langues. Hedy expose toutes les langues proposées par Nova-3, vous permettant de transcrire des réunions dans n’importe quelle langue prise en charge sans changer de fournisseur. Nécessite votre propre clé API.
OpenAI : Transcription cloud avec Voice Activity Detection et détection automatique de la langue. Hedy prolonge automatiquement les longues sessions au-delà de la limite de 60 minutes par connexion d’OpenAI en faisant tourner les connexions en arrière-plan, afin que les réunions de plus d’une heure se poursuivent sans interruption. Nécessite votre propre clé API.

Configurer Local Speech Recognition (Whisper)

Lorsque vous utilisez Whisper, vous pouvez optimiser les réglages pour votre appareil et vos besoins :

Pour les utilisateurs macOS :

Small Model : Traitement le plus rapide, recommandé pour les Mac Intel
Regular Model : Équilibre entre vitesse et précision pour la plupart des utilisateurs
Large Model : Capacités améliorées pour les langues autres que l’anglais (nécessite un téléchargement de 1,5 Go)

Pour les utilisateurs iOS/Android :

Standard Model : Option par défaut adaptée à la plupart des appareils
Large Model : Option de modèle alternative (iPhone 12+ ou Android 2024+ recommandé)

Voice Activity Detection (VAD) :

La VAD filtre automatiquement les silences et le bruit de fond pour améliorer la qualité de la transcription. Cette fonctionnalité est activée par défaut pour Whisper.

Activer/Désactiver : Activez ou désactivez la VAD en fonction de votre environnement d’enregistrement
Sensibilité : Ajustez de « High Sensitivity » (capture plus de parole, y compris les sons plus faibles) à « Maximum Filtering » (ne capture que la parole claire, filtre davantage le bruit de fond)

Paramètres de vitesse de transcription :

Slower : Attend les phrases complètes avant de les afficher
Normal : Équilibre entre vitesse et rythme d’affichage
Faster : Affichage quasi en temps réel avec des mises à jour plus fréquentes

Configurer Local Speech Recognition (Nemotron)

Nemotron est actuellement en Beta. Il transcrit entièrement sur l’appareil et affiche des transcriptions en direct pendant que vous parlez. Il est disponible sur toutes les plateformes pour lesquelles Hedy propose une application native : iOS, iPadOS, macOS, Windows et Android. Sur le matériel Apple, il s’exécute sur le Neural Engine.

Exigences de l’appareil :

Mac Apple Silicon (M1 ou plus récent), ou
iPhone 12 ou plus récent, ou iPad Air 4 ou plus récent

Anglais uniquement ou multilingue :

Dans le menu déroulant des fournisseurs, Nemotron apparaît comme deux choix, afin que vous puissiez sélectionner celui qui correspond à vos réunions :

Local Speech Recognition (Nemotron English Only) : transcription anglaise en streaming, l’option la plus rapide.
Local Speech Recognition (Nemotron Multilingual) : streaming sur l’appareil dans un large ensemble de langues majeures, lorsque vous avez besoin de plus que l’anglais.

Les deux s’exécutent entièrement sur l’appareil, et les deux identifient la langue à partir de l’audio plutôt qu’à partir de votre réglage de langue de réunion.

Configuration initiale :

Sélectionnez Local Speech Recognition (Nemotron English Only) ou (Nemotron Multilingual) dans le menu déroulant des fournisseurs
Appuyez sur Download Nemotron model (environ 0,6 Go pour l’anglais uniquement, 0,7 Go pour le multilingue) — Wi-Fi recommandé
Une fois le téléchargement terminé, Nemotron est utilisé automatiquement lors de votre prochaine session

Étiquettes de locuteur et cache audio temporaire :

Nemotron indique qui parle, en direct comme après la session. Pour rendre ces étiquettes de locuteur plus précises, Hedy conserve l’audio de chaque session dans un cache temporaire sur l’appareil pendant le traitement, puis le supprime. Cet audio reste sur votre appareil. Le réglage Cache audio temporaire (Nemotron) est activé par défaut ; vous pouvez le désactiver dans les paramètres de Hedy, même si le laisser activé donne à Nemotron la meilleure attribution des locuteurs.

Configurer les fournisseurs cloud

Configuration de Deepgram :

Créez un compte sur console.deepgram.com
Générez une clé API depuis votre tableau de bord
Dans les paramètres de Hedy, sélectionnez Deepgram dans le menu déroulant
Collez votre clé API et appuyez sur « Test » pour vérifier
Choisissez vos préférences de modèle et de langue
Définissez la durée maximale de session pour contrôler les coûts

Configuration d’OpenAI :

Obtenez votre clé API depuis platform.openai.com/api-keys
Dans les paramètres de Hedy, sélectionnez OpenAI dans le menu déroulant
Saisissez votre clé API et testez la connexion
Choisissez votre modèle préféré
Activez éventuellement la Voice Activity Detection avec une sensibilité réglable
Définissez la durée maximale de session pour contrôler les coûts

Choisir le bon fournisseur

Sélectionnez en fonction de vos priorités et de votre cas d’utilisation :

Confidentialité avant tout : Utilisez un moteur local (Whisper ou Nemotron) — l’audio ne quitte jamais votre appareil
Utilisation hors ligne : Tous les moteurs locaux fonctionnent sans connexion Internet
Fonctionnalités cloud : Deepgram et OpenAI offrent un traitement basé sur le cloud
Détection vocale : Whisper et OpenAI incluent des fonctionnalités de Voice Activity Detection
Mise en forme intelligente : Deepgram propose des options de mise en forme automatique
Aucun coût d’utilisation : Les moteurs locaux (Whisper, Nemotron) ne facturent aucun frais à la minute
Transcription sur l’appareil plus rapide : Nemotron (Beta) offre généralement une transcription avec une latence plus faible que Whisper
Streaming multilingue sur l’appareil : Nemotron Multilingual (Beta) offre une transcription sur l’appareil dans un large ensemble de langues
Couverture linguistique maximale sur l’appareil : Pour les langues non européennes sur l’appareil, préférez Whisper Large ou Nemotron Multilingual
Analyse entièrement privée : Sur macOS (Apple Silicon) ou Windows, vous pouvez associer la reconnaissance vocale locale au Traitement IA local pour que la transcription et l’analyse IA restent entièrement sur votre appareil.

Considérations tarifaires

Comprendre les implications tarifaires de chaque fournisseur :

Local Speech Recognition (Whisper) : Gratuit — aucun frais d’utilisation
Local Speech Recognition (Nemotron) : Gratuit — aucun frais d’utilisation (téléchargement unique du modèle, environ 0,6 à 0,7 Go)
Deepgram : Tarification à la minute (consultez les tarifs actuels sur leur tableau de bord)
OpenAI : Tarification à l’utilisation (consultez les tarifs actuels sur leur plateforme)

Le paramètre de durée maximale de session aide à prévenir les enregistrements accidentels de nuit et à gérer les coûts API.

Bonnes pratiques

Commencez par Local Speech Recognition (Whisper) pour vous familiariser avec la fonctionnalité, puis essayez Nemotron si votre appareil est compatible
Testez les fournisseurs cloud avec de courts enregistrements avant les sessions importantes
Surveillez votre consommation API sur les tableaux de bord des fournisseurs pour suivre les coûts
Utilisez différents fournisseurs pour différents scénarios selon vos besoins
Passez au mode local lorsque vous voyagez ou dans des zones avec une connexion Internet limitée
Définissez des durées maximales de session appropriées (60 à 120 minutes pour les réunions classiques)

Dépannage

La clé API ne fonctionne pas

Assurez-vous d’avoir copié la clé complète sans espaces
Vérifiez que votre compte dispose de crédits disponibles
Vérifiez que la clé API dispose des autorisations nécessaires
Essayez de regénérer la clé depuis le tableau de bord du fournisseur

Le test de connexion a échoué

Vérifiez la stabilité de votre connexion Internet
Vérifiez que le pare-feu ne bloque pas les connexions WebSocket
Assurez-vous que la clé API est active avec un quota suffisant
Patientez un instant et réessayez (problèmes de service temporaires)

Problèmes de transcription

Pour Whisper sur Windows : si la transcription prend beaucoup de retard sur la conversation, vérifiez les paramètres GPU de transcription lente
Pour les termes spécialisés, noms et acronymes : ajoutez-les via la fonctionnalité de vocabulaire personnalisé
Pour Whisper : Essayez une taille de modèle différente
Pour Nemotron : Utilisez le mode English Only pour les réunions en anglais ; pour les autres langues, utilisez le mode Multilingual ou passez à Whisper avec la langue définie explicitement
Pour le cloud : Vérifiez la stabilité de la connexion Internet
Assurez-vous que le microphone est correctement configuré
Minimisez le bruit de fond pendant l’enregistrement

Les paramètres ne se sauvegardent pas

Attendez que l’indicateur « Saved » apparaisse
Ne changez pas d’écran pendant la sauvegarde
Redémarrez l’application si les problèmes persistent
Assurez-vous de disposer d’une connexion Internet stable

Vos clés API sont stockées de manière sécurisée dans le trousseau chiffré de votre appareil et ne sont jamais transmises aux serveurs de Hedy. Pour une confidentialité maximale lors de conversations sensibles, utilisez toujours un moteur local (Whisper ou Nemotron).