Fournisseurs de reconnaissance vocale dans Hedy
Que sont les fournisseurs de reconnaissance vocale ?
Hedy prend en charge plusieurs options de reconnaissance vocale, vous offrant la flexibilité de choisir entre une confidentialité totale avec le traitement local ou des alternatives basées sur le cloud. Vous pouvez changer de fournisseur à tout moment en fonction de vos besoins actuels — utilisez le traitement local pour les sessions hors ligne et les services cloud lorsque vous préférez leurs fonctionnalités spécifiques.
Premiers pas
-
Ouvrez l’application Hedy
-
Accédez à Settings (appuyez sur votre icône de profil)
-
Faites défiler jusqu’à « Speech Recognition Options »
-
Sélectionnez votre fournisseur préféré dans le menu déroulant
-
Configurez les paramètres spécifiques au fournisseur si nécessaire
-
Votre sélection prendra effet lors de la prochaine session d’enregistrement
Fournisseurs disponibles
Hedy propose quatre options de reconnaissance vocale, chacune avec des caractéristiques uniques :
-
Local Speech Recognition (Whisper) : Option par défaut — 100 % privée, fonctionne hors ligne, sans coût d’utilisation. Votre audio ne quitte jamais votre appareil. Disponible sur toutes les plateformes prises en charge par Hedy.
-
Local Speech Recognition (Parakeet) [Beta] : Un nouveau moteur entièrement sur l’appareil, qui s’appuie sur le Neural Engine. Optimisé pour l’anglais et les principales langues européennes, avec des transcriptions plus rapides et une latence réduite. Disponible sur les Mac Apple Silicon ainsi que sur iPhone 12 (ou plus récent) et iPad Air 4 (ou plus récent) sous iOS 17 ou ultérieur. Nécessite un téléchargement unique du modèle d’environ 2,5 Go.
-
Deepgram : Service cloud avec streaming en temps réel et fonctionnalités de mise en forme intelligente. Utilise Nova-3, qui prend en charge des dizaines de langues. Hedy expose toutes les langues proposées par Nova-3, vous permettant de transcrire des réunions dans n’importe quelle langue prise en charge sans changer de fournisseur. Nécessite votre propre clé API.
-
OpenAI : Transcription cloud avec Voice Activity Detection et détection automatique de la langue. Hedy prolonge automatiquement les longues sessions au-delà de la limite de 60 minutes par connexion d’OpenAI en faisant tourner les connexions en arrière-plan, afin que les réunions de plus d’une heure se poursuivent sans interruption. Nécessite votre propre clé API.
Configurer Local Speech Recognition (Whisper)
Lorsque vous utilisez Whisper, vous pouvez optimiser les réglages pour votre appareil et vos besoins :
Pour les utilisateurs macOS :
-
Small Model : Traitement le plus rapide, recommandé pour les Mac Intel
-
Regular Model : Équilibre entre vitesse et précision pour la plupart des utilisateurs
-
Large Model : Capacités améliorées pour les langues autres que l’anglais (nécessite un téléchargement de 1,5 Go)
Pour les utilisateurs iOS/Android :
-
Standard Model : Option par défaut adaptée à la plupart des appareils
-
Large Model : Option de modèle alternative (iPhone 12+ ou Android 2024+ recommandé)
Voice Activity Detection (VAD) :
La VAD filtre automatiquement les silences et le bruit de fond pour améliorer la qualité de la transcription. Cette fonctionnalité est activée par défaut pour Whisper.
-
Activer/Désactiver : Activez ou désactivez la VAD en fonction de votre environnement d’enregistrement
-
Sensibilité : Ajustez de « High Sensitivity » (capture plus de parole, y compris les sons plus faibles) à « Maximum Filtering » (ne capture que la parole claire, filtre davantage le bruit de fond)
Paramètres de vitesse de transcription :
-
Slower : Attend les phrases complètes avant de les afficher
-
Normal : Équilibre entre vitesse et rythme d’affichage
-
Faster : Affichage quasi en temps réel avec des mises à jour plus fréquentes
Configurer Local Speech Recognition (Parakeet)
Parakeet est actuellement en Beta. La transcription se fait entièrement sur l’appareil, via le Neural Engine de votre iPhone, iPad ou Mac, et vise à offrir une transcription plus rapide et avec une latence plus faible que Whisper pour les langues prises en charge.
Exigences de l’appareil :
-
Mac Apple Silicon (M1 ou plus récent), ou
-
iPhone 12 ou plus récent, ou iPad Air 4 ou plus récent, sous iOS 17 ou ultérieur
Configuration initiale :
-
Sélectionnez Local Speech Recognition (Parakeet) dans le menu déroulant des fournisseurs
-
Appuyez sur Download Parakeet Model (~2.5 GB) — Wi-Fi recommandé
-
Une fois le téléchargement terminé, Parakeet est utilisé automatiquement lors de votre prochaine session
Langues prises en charge :
Parakeet fonctionne le mieux pour l’anglais et les principales langues européennes. Il peut occasionnellement confondre des langues similaires. Si les transcriptions apparaissent dans la mauvaise langue, repassez à Whisper pour cette session.
Bascule automatique :
Si Parakeet ne peut pas démarrer une session sur votre appareil (par exemple, après une mise à jour de l’OS qui modifie le format du modèle sur l’appareil), Hedy bascule automatiquement vers Whisper pour cette session et vous propose une invite en un seul appui pour télécharger le nouveau modèle Parakeet depuis les Réglages. Vous ne perdez pas la session.
Configurer les fournisseurs cloud
Configuration de Deepgram :
-
Créez un compte sur console.deepgram.com
-
Générez une clé API depuis votre tableau de bord
-
Dans les paramètres de Hedy, sélectionnez Deepgram dans le menu déroulant
-
Collez votre clé API et appuyez sur « Test » pour vérifier
-
Choisissez vos préférences de modèle et de langue
-
Définissez la durée maximale de session pour contrôler les coûts
Configuration d’OpenAI :
-
Obtenez votre clé API depuis platform.openai.com/api-keys
-
Dans les paramètres de Hedy, sélectionnez OpenAI dans le menu déroulant
-
Saisissez votre clé API et testez la connexion
-
Choisissez votre modèle préféré
-
Activez éventuellement la Voice Activity Detection avec une sensibilité réglable
-
Définissez la durée maximale de session pour contrôler les coûts
Choisir le bon fournisseur
Sélectionnez en fonction de vos priorités et de votre cas d’utilisation :
-
Confidentialité avant tout : Utilisez un moteur local (Whisper ou Parakeet) — l’audio ne quitte jamais votre appareil
-
Utilisation hors ligne : Les deux moteurs locaux fonctionnent sans connexion Internet
-
Fonctionnalités cloud : Deepgram et OpenAI offrent un traitement basé sur le cloud
-
Détection vocale : Whisper et OpenAI incluent des fonctionnalités de Voice Activity Detection
-
Mise en forme intelligente : Deepgram propose des options de mise en forme automatique
-
Aucun coût d’utilisation : Les moteurs locaux (Whisper, Parakeet) ne facturent aucun frais à la minute
-
Transcription sur l’appareil plus rapide : Sur les Mac Apple Silicon, iPhones et iPads compatibles, Parakeet (Beta) offre généralement une transcription avec une latence plus faible que Whisper pour l’anglais et les principales langues européennes
-
Couverture linguistique maximale sur l’appareil : Pour les langues non européennes sur l’appareil, préférez Whisper Large
-
Analyse entièrement privée : Sur macOS (Apple Silicon) ou Windows, vous pouvez associer la reconnaissance vocale locale au Traitement IA local pour que la transcription et l’analyse IA restent entièrement sur votre appareil.
Considérations tarifaires
Comprendre les implications tarifaires de chaque fournisseur :
-
Local Speech Recognition (Whisper) : Gratuit — aucun frais d’utilisation
-
Local Speech Recognition (Parakeet) : Gratuit — aucun frais d’utilisation (téléchargement unique du modèle d’environ 2,5 Go)
-
Deepgram : Tarification à la minute (consultez les tarifs actuels sur leur tableau de bord)
-
OpenAI : Tarification à l’utilisation (consultez les tarifs actuels sur leur plateforme)
Le paramètre de durée maximale de session aide à prévenir les enregistrements accidentels de nuit et à gérer les coûts API.
Bonnes pratiques
-
Commencez par Local Speech Recognition (Whisper) pour vous familiariser avec la fonctionnalité, puis essayez Parakeet si votre appareil est compatible
-
Testez les fournisseurs cloud avec de courts enregistrements avant les sessions importantes
-
Surveillez votre consommation API sur les tableaux de bord des fournisseurs pour suivre les coûts
-
Utilisez différents fournisseurs pour différents scénarios selon vos besoins
-
Passez au mode local lorsque vous voyagez ou dans des zones avec une connexion Internet limitée
-
Définissez des durées maximales de session appropriées (60 à 120 minutes pour les réunions classiques)
Dépannage
La clé API ne fonctionne pas
-
Assurez-vous d’avoir copié la clé complète sans espaces
-
Vérifiez que votre compte dispose de crédits disponibles
-
Vérifiez que la clé API dispose des autorisations nécessaires
-
Essayez de regénérer la clé depuis le tableau de bord du fournisseur
Le test de connexion a échoué
-
Vérifiez la stabilité de votre connexion Internet
-
Vérifiez que le pare-feu ne bloque pas les connexions WebSocket
-
Assurez-vous que la clé API est active avec un quota suffisant
-
Patientez un instant et réessayez (problèmes de service temporaires)
Problèmes de transcription
-
Pour Whisper : Essayez une taille de modèle différente
-
Pour Parakeet : Si les transcriptions apparaissent dans la mauvaise langue lors d’une session multilingue, repassez à Whisper pour cette session
-
Pour le cloud : Vérifiez la stabilité de la connexion Internet
-
Assurez-vous que le microphone est correctement configuré
-
Minimisez le bruit de fond pendant l’enregistrement
Les paramètres ne se sauvegardent pas
-
Attendez que l’indicateur « Saved » apparaisse
-
Ne changez pas d’écran pendant la sauvegarde
-
Redémarrez l’application si les problèmes persistent
-
Assurez-vous de disposer d’une connexion Internet stable
Vos clés API sont stockées de manière sécurisée dans le trousseau chiffré de votre appareil et ne sont jamais transmises aux serveurs de Hedy. Pour une confidentialité maximale lors de conversations sensibles, utilisez toujours un moteur local (Whisper ou Parakeet).