Zum Inhalt springen

Spracherkennungsanbieter in Hedy

Was sind Spracherkennungsanbieter?

Hedy unterstutzt mehrere Spracherkennungsoptionen und bietet Ihnen die Flexibilitat, zwischen vollstandiger Privatsphare durch lokale Verarbeitung und cloudbasierten Alternativen zu wahlen. Sie konnen jederzeit zwischen Anbietern wechseln — nutzen Sie die lokale Verarbeitung fur Offline-Sitzungen und Cloud-Dienste, wenn Sie deren spezifische Funktionen bevorzugen.

Erste Schritte

  1. Offnen Sie die Hedy-App

  2. Navigieren Sie zu den Einstellungen (tippen Sie auf Ihr Profilsymbol)

  3. Scrollen Sie zu “Speech Recognition Options”

  4. Wahlen Sie Ihren bevorzugten Anbieter aus dem Dropdown-Menu

  5. Konfigurieren Sie bei Bedarf anbieterspezifische Einstellungen

  6. Ihre Auswahl wird in der nachsten Aufnahmesitzung wirksam

Verfugbare Anbieter

Hedy bietet vier Spracherkennungsoptionen, jede mit eigenen Merkmalen:

  • Local Speech Recognition (Whisper): Standardoption — 100 % privat, funktioniert offline, keine Nutzungskosten. Ihre Audiodaten verlassen niemals Ihr Gerat. Auf allen von Hedy unterstützten Plattformen verfügbar.

  • Local Speech Recognition (Parakeet) [Beta]: Eine neuere On-Device-Engine, die vollständig auf der Neural Engine Ihres Geräts läuft. Optimiert für Englisch und die wichtigsten europäischen Sprachen mit schnelleren Transkripten und geringerer Latenz. Verfügbar auf Apple-Silicon-Macs sowie auf iPhone 12 (oder neuer) und iPad Air 4 (oder neuer) mit iOS 17 oder neuer. Erfordert einen einmaligen Modell-Download von ca. 2,5 GB.

  • Deepgram: Cloudbasierter Dienst mit Echtzeit-Streaming und intelligenten Formatierungsfunktionen. Verwendet Nova-3, das Dutzende von Sprachen unterstützt. Hedy stellt jede von Nova-3 unterstützte Sprache bereit, sodass Sie Meetings in jeder unterstützten Sprache transkribieren können, ohne den Anbieter zu wechseln. Erfordert Ihren eigenen API-Key.

  • OpenAI: Cloud-Transkription mit Voice Activity Detection und automatischer Spracherkennung. Hedy setzt Sitzungen, die das 60-Minuten-Verbindungslimit von OpenAI überschreiten, automatisch fort, indem es im Hintergrund Verbindungen rotiert, sodass auch längere Meetings ohne Unterbrechung durchlaufen. Erfordert Ihren eigenen API-Key.

Local Speech Recognition (Whisper) konfigurieren

Wenn Sie Whisper verwenden, können Sie die Einstellungen für Ihr Gerät optimieren:

Fur macOS-Nutzer:

  • Small Model: Schnellste Verarbeitung, empfohlen fur Intel-Macs

  • Regular Model: Ausgewogene Geschwindigkeit und Genauigkeit fur die meisten Nutzer

  • Large Model: Erweiterte Fahigkeiten fur nicht-englische Sprachen (erfordert 1,5 GB Download)

Fur iOS/Android-Nutzer:

  • Standard Model: Standardoption, geeignet fur die meisten Gerate

  • Large Model: Alternative Modelloption (iPhone 12+ oder Android ab 2024 empfohlen)

Voice Activity Detection (VAD):

VAD filtert automatisch Stille und Hintergrundgeräusche heraus, um die Transkriptionsqualität zu verbessern. Diese Funktion ist standardmäßig für Whisper aktiviert.

  • Aktivieren/Deaktivieren: Schalten Sie VAD je nach Aufnahmeumgebung ein oder aus

  • Empfindlichkeit: Stellen Sie von “High Sensitivity” (erfasst mehr Sprache, einschliesslich leiserer Gerausche) bis “Maximum Filtering” (erfasst nur deutliche Sprache, filtert mehr Hintergrundgerausche) ein

Transkript-Geschwindigkeitseinstellungen:

  • Slower: Wartet auf vollstandige Satze vor der Anzeige

  • Normal: Ausgewogene Geschwindigkeit und Anzeigetiming

  • Faster: Nahezu Echtzeit-Anzeige mit haufigeren Aktualisierungen

Local Speech Recognition (Parakeet) konfigurieren

Parakeet befindet sich derzeit in der Beta-Phase. Die Transkription erfolgt vollständig auf dem Gerät über die Neural Engine Ihres iPhones, iPads oder Macs und liefert für unterstützte Sprachen ein schnelleres Transkript mit geringerer Latenz als Whisper.

Gerätevoraussetzungen:

  • Apple-Silicon-Mac (M1 oder neuer), oder

  • iPhone 12 oder neuer, oder iPad Air 4 oder neuer, mit iOS 17 oder neuer

Erstmalige Einrichtung:

  1. Wählen Sie Local Speech Recognition (Parakeet) im Anbieter-Dropdown

  2. Tippen Sie auf Download Parakeet Model (~2.5 GB) — WLAN empfohlen

  3. Sobald der Download abgeschlossen ist, wird Parakeet in Ihrer nächsten Sitzung automatisch verwendet

Sprachunterstützung:

Parakeet funktioniert am besten für Englisch und die wichtigsten europäischen Sprachen. In Einzelfällen können ähnliche Sprachen falsch erkannt werden. Falls Transkripte in der falschen Sprache ausgegeben werden, wechseln Sie für diese Sitzung zurück zu Whisper.

Automatischer Fallback:

Wenn Parakeet auf Ihrem Gerät keine Sitzung starten kann (zum Beispiel, weil ein OS-Update das On-Device-Modellformat geändert hat), wechselt Hedy für diese Sitzung automatisch zu Whisper und bietet Ihnen einen Ein-Tipp-Hinweis, das neue Parakeet-Modell in den Einstellungen herunterzuladen. Ihre Sitzung geht nicht verloren.

Cloud-Anbieter einrichten

Deepgram einrichten:

  1. Erstellen Sie ein Konto auf console.deepgram.com

  2. Generieren Sie einen API-Key in Ihrem Dashboard

  3. Wahlen Sie in den Hedy-Einstellungen Deepgram aus dem Dropdown

  4. Fugen Sie Ihren API-Key ein und tippen Sie auf “Test” zur Uberprufung

  5. Wahlen Sie Ihr bevorzugtes Modell und Ihre Spracheinstellungen

  6. Legen Sie eine maximale Sitzungsdauer fest, um die Kosten zu kontrollieren

OpenAI einrichten:

  1. Holen Sie Ihren API-Key von platform.openai.com/api-keys

  2. Wahlen Sie in den Hedy-Einstellungen OpenAI aus dem Dropdown

  3. Geben Sie Ihren API-Key ein und testen Sie die Verbindung

  4. Wahlen Sie Ihr bevorzugtes Modell

  5. Aktivieren Sie optional die Voice Activity Detection mit einstellbarer Empfindlichkeit

  6. Legen Sie eine maximale Sitzungsdauer zur Kostenkontrolle fest

Den richtigen Anbieter wahlen

Wahlen Sie basierend auf Ihren Prioritaten und Ihrem Anwendungsfall:

  • Datenschutz zuerst: Nutzen Sie eine der lokalen Engines (Whisper oder Parakeet) — Audio verlässt niemals Ihr Gerät

  • Offline-Nutzung: Beide lokalen Engines funktionieren ohne Internet

  • Cloud-Funktionen: Deepgram und OpenAI bieten cloudbasierte Verarbeitung

  • Spracherkennung: Whisper und OpenAI bieten Voice Activity Detection

  • Intelligente Formatierung: Deepgram bietet automatische Formatierungsoptionen

  • Keine Nutzungskosten: Lokale Engines (Whisper, Parakeet) haben keine minutenbasierten Kosten

  • Schnellere On-Device-Transkription: Auf unterstützten Apple-Silicon-Macs, iPhones und iPads liefert Parakeet (Beta) für Englisch und die wichtigsten europäischen Sprachen üblicherweise ein Transkript mit geringerer Latenz als Whisper

  • Maximale Sprachabdeckung auf dem Gerät: Für nicht-europäische Sprachen auf dem Gerät bevorzugen Sie Whisper Large

  • Vollständig private Analyse: Auf macOS (Apple Silicon) oder Windows können Sie die lokale Spracherkennung mit der lokalen KI-Verarbeitung kombinieren, um sowohl Transkription als auch KI-Analyse vollständig auf dem Gerät zu halten.

Kostenhinweise

Die Kostenauswirkungen der einzelnen Anbieter im Uberblick:

  • Local Speech Recognition (Whisper): Kostenlos — keine Nutzungsgebuhren

  • Local Speech Recognition (Parakeet): Kostenlos — keine Nutzungsgebühren (einmaliger Modell-Download von ca. 2,5 GB)

  • Deepgram: Minutenbasierte Abrechnung (aktuelle Preise auf dem Dashboard einsehbar)

  • OpenAI: Nutzungsbasierte Abrechnung (aktuelle Preise auf der Plattform einsehbar)

Die Einstellung fur die maximale Sitzungsdauer hilft, versehentliche Uber-Nacht-Aufnahmen zu vermeiden und API-Kosten zu kontrollieren.

Empfohlene Vorgehensweisen

  • Beginnen Sie mit Local Speech Recognition (Whisper), um sich mit der Funktion vertraut zu machen, und probieren Sie anschließend Parakeet aus, falls Ihr Gerät unterstützt wird

  • Testen Sie Cloud-Anbieter mit kurzen Aufnahmen vor wichtigen Sitzungen

  • Uberwachen Sie Ihre API-Nutzung auf den Anbieter-Dashboards, um Kosten im Blick zu behalten

  • Nutzen Sie verschiedene Anbieter fur verschiedene Szenarien je nach Bedarf

  • Wechseln Sie auf lokal, wenn Sie unterwegs sind oder eingeschranktes Internet haben

  • Stellen Sie angemessene maximale Sitzungsdauern ein (60-120 Minuten fur typische Meetings)

Fehlerbehebung

API-Key funktioniert nicht

  • Stellen Sie sicher, dass Sie den vollstandigen Key ohne Leerzeichen kopiert haben

  • Uberprufen Sie, ob Ihr Konto uber verfugbares Guthaben verfugt

  • Prufen Sie, ob der API-Key die erforderlichen Berechtigungen hat

  • Versuchen Sie, den Key im Anbieter-Dashboard neu zu generieren

Verbindungstest fehlgeschlagen

  • Uberprufen Sie die Stabilitat Ihrer Internetverbindung

  • Stellen Sie sicher, dass die Firewall keine WebSocket-Verbindungen blockiert

  • Vergewissern Sie sich, dass der API-Key aktiv ist und ausreichend Kontingent hat

  • Warten Sie einen Moment und versuchen Sie es erneut (vorubergehende Dienstprobleme)

Transkriptionsprobleme

  • Fur Whisper: Versuchen Sie eine andere Modellgrosse

  • Für Parakeet: Wenn Transkripte in einer mehrsprachigen Sitzung in der falschen Sprache erscheinen, wechseln Sie für diese Sitzung zu Whisper

  • Fur Cloud: Uberprufen Sie die Stabilitat der Internetverbindung

  • Stellen Sie sicher, dass das Mikrofon korrekt konfiguriert ist

  • Minimieren Sie Hintergrundgerausche wahrend der Aufnahme

Einstellungen werden nicht gespeichert

  • Warten Sie, bis die Anzeige “Saved” erscheint

  • Wechseln Sie nicht den Bildschirm wahrend des Speicherns

  • Starten Sie die App neu, wenn das Problem weiterhin besteht

  • Stellen Sie eine stabile Internetverbindung sicher

Ihre API-Keys werden sicher im verschlusselten Schlusselbund Ihres Gerats gespeichert und niemals an Hedy-Server ubermittelt. Für maximale Privatsphäre bei sensiblen Gesprächen verwenden Sie immer eine lokale Engine (Whisper oder Parakeet).