Fournisseurs de reconnaissance vocale dans Hedy
Que sont les fournisseurs de reconnaissance vocale ?
Hedy prend en charge plusieurs options de reconnaissance vocale, vous offrant la flexibilité de choisir entre une confidentialité totale avec le traitement local ou des alternatives basées sur le cloud. Vous pouvez changer de fournisseur à tout moment en fonction de vos besoins actuels — utilisez le traitement local pour les sessions hors ligne et les services cloud lorsque vous préférez leurs fonctionnalités spécifiques.
Premiers pas
-
Ouvrez l’application Hedy
-
Accédez à Settings (appuyez sur votre icône de profil)
-
Faites défiler jusqu’à « Speech Recognition Options »
-
Sélectionnez votre fournisseur préféré dans le menu déroulant
-
Configurez les paramètres spécifiques au fournisseur si nécessaire
-
Votre sélection prendra effet lors de la prochaine session d’enregistrement
Fournisseurs disponibles
Hedy propose trois options de reconnaissance vocale, chacune avec des caractéristiques uniques :
-
Local Speech Recognition : Option par défaut — 100 % privée, fonctionne hors ligne, sans coût d’utilisation. Votre audio ne quitte jamais votre appareil.
-
Deepgram : Service cloud avec streaming en temps réel et fonctionnalités de mise en forme intelligente. Utilise Nova-3, qui prend en charge des dizaines de langues. Hedy expose toutes les langues proposées par Nova-3, vous permettant de transcrire des réunions dans n’importe quelle langue prise en charge sans changer de fournisseur. Nécessite votre propre clé API.
-
OpenAI : Transcription cloud avec Voice Activity Detection et détection automatique de la langue. Hedy prolonge automatiquement les longues sessions au-delà de la limite de 60 minutes par connexion d’OpenAI en faisant tourner les connexions en arrière-plan, afin que les réunions de plus d’une heure se poursuivent sans interruption. Nécessite votre propre clé API.
Configurer Local Speech Recognition
Lorsque vous utilisez Local Speech Recognition, vous pouvez optimiser les réglages pour votre appareil et vos besoins :
Pour les utilisateurs macOS :
-
Small Model : Traitement le plus rapide, recommandé pour les Mac Intel
-
Regular Model : Équilibre entre vitesse et précision pour la plupart des utilisateurs
-
Large Model : Capacités améliorées pour les langues autres que l’anglais (nécessite un téléchargement de 1,5 Go)
Pour les utilisateurs iOS/Android :
-
Standard Model : Option par défaut adaptée à la plupart des appareils
-
Large Model : Option de modèle alternative (iPhone 12+ ou Android 2024+ recommandé)
Voice Activity Detection (VAD) :
La VAD filtre automatiquement les silences et le bruit de fond pour améliorer la qualité de la transcription. Cette fonctionnalité est activée par défaut pour Local Speech Recognition.
-
Activer/Désactiver : Activez ou désactivez la VAD en fonction de votre environnement d’enregistrement
-
Sensibilité : Ajustez de « High Sensitivity » (capture plus de parole, y compris les sons plus faibles) à « Maximum Filtering » (ne capture que la parole claire, filtre davantage le bruit de fond)
Paramètres de vitesse de transcription :
-
Slower : Attend les phrases complètes avant de les afficher
-
Normal : Équilibre entre vitesse et rythme d’affichage
-
Faster : Affichage quasi en temps réel avec des mises à jour plus fréquentes
Configurer les fournisseurs cloud
Configuration de Deepgram :
-
Créez un compte sur console.deepgram.com
-
Générez une clé API depuis votre tableau de bord
-
Dans les paramètres de Hedy, sélectionnez Deepgram dans le menu déroulant
-
Collez votre clé API et appuyez sur « Test » pour vérifier
-
Choisissez vos préférences de modèle et de langue
-
Définissez la durée maximale de session pour contrôler les coûts
Configuration d’OpenAI :
-
Obtenez votre clé API depuis platform.openai.com/api-keys
-
Dans les paramètres de Hedy, sélectionnez OpenAI dans le menu déroulant
-
Saisissez votre clé API et testez la connexion
-
Choisissez votre modèle préféré
-
Activez éventuellement la Voice Activity Detection avec une sensibilité réglable
-
Définissez la durée maximale de session pour contrôler les coûts
Choisir le bon fournisseur
Sélectionnez en fonction de vos priorités et de votre cas d’utilisation :
-
Confidentialité avant tout : Utilisez Local Speech Recognition — l’audio ne quitte jamais votre appareil
-
Utilisation hors ligne : Local Speech Recognition fonctionne sans connexion Internet
-
Fonctionnalités cloud : Deepgram et OpenAI offrent un traitement basé sur le cloud
-
Détection vocale : Local et OpenAI incluent des fonctionnalités de Voice Activity Detection
-
Mise en forme intelligente : Deepgram propose des options de mise en forme automatique
-
Aucun coût d’utilisation : Local Speech Recognition ne facture aucun frais à la minute
-
Analyse entièrement privée sur Mac : Si vous utilisez un Mac avec Apple Silicon, vous pouvez associer la reconnaissance vocale locale au Traitement IA local pour que la transcription et l’analyse IA restent entièrement sur votre appareil.
Considérations tarifaires
Comprendre les implications tarifaires de chaque fournisseur :
-
Local Speech Recognition : Gratuit — aucun frais d’utilisation
-
Deepgram : Tarification à la minute (consultez les tarifs actuels sur leur tableau de bord)
-
OpenAI : Tarification à l’utilisation (consultez les tarifs actuels sur leur plateforme)
Le paramètre de durée maximale de session aide à prévenir les enregistrements accidentels de nuit et à gérer les coûts API.
Bonnes pratiques
-
Commencez par Local Speech Recognition pour vous familiariser avec la fonctionnalité
-
Testez les fournisseurs cloud avec de courts enregistrements avant les sessions importantes
-
Surveillez votre consommation API sur les tableaux de bord des fournisseurs pour suivre les coûts
-
Utilisez différents fournisseurs pour différents scénarios selon vos besoins
-
Passez au mode local lorsque vous voyagez ou dans des zones avec une connexion Internet limitée
-
Définissez des durées maximales de session appropriées (60 à 120 minutes pour les réunions classiques)
Dépannage
La clé API ne fonctionne pas
-
Assurez-vous d’avoir copié la clé complète sans espaces
-
Vérifiez que votre compte dispose de crédits disponibles
-
Vérifiez que la clé API dispose des autorisations nécessaires
-
Essayez de regénérer la clé depuis le tableau de bord du fournisseur
Le test de connexion a échoué
-
Vérifiez la stabilité de votre connexion Internet
-
Vérifiez que le pare-feu ne bloque pas les connexions WebSocket
-
Assurez-vous que la clé API est active avec un quota suffisant
-
Patientez un instant et réessayez (problèmes de service temporaires)
Problèmes de transcription
-
Pour le mode local : Essayez une taille de modèle différente
-
Pour le cloud : Vérifiez la stabilité de la connexion Internet
-
Assurez-vous que le microphone est correctement configuré
-
Minimisez le bruit de fond pendant l’enregistrement
Les paramètres ne se sauvegardent pas
-
Attendez que l’indicateur « Saved » apparaisse
-
Ne changez pas d’écran pendant la sauvegarde
-
Redémarrez l’application si les problèmes persistent
-
Assurez-vous de disposer d’une connexion Internet stable
Vos clés API sont stockées de manière sécurisée dans le trousseau chiffré de votre appareil et ne sont jamais transmises aux serveurs de Hedy. Pour une confidentialité maximale lors de conversations sensibles, utilisez toujours Local Speech Recognition.