Schlechte Transkriptionsqualitaet beheben
Wenn Hedys Transkripte voller Fehler sind - fehlende Woerter, falsche Eigennamen, unverstaendliche Phrasen - liegt die Ursache selten am KI-Modell selbst. Fast immer ist es eine von vier Ursachen: schlechte Audioaufnahmeumgebung, falsches Mikrofon, falsche Spracheinstellung oder ein Anbieter, der nicht zu Ihrem Anwendungsfall passt. So diagnostizieren und beheben Sie jede Ursache, geordnet danach, wie oft sie der Ausloeser ist.
Zuerst die Grundlagen pruefen
Bevor Sie etwas aendern, pruefen Sie:
-
Ist Meeting/Class Language auf die Sprache gesetzt, die Sie tatsaechlich sprechen? Settings > Profile > Language Preferences. Der Standardanbieter fuer Spracherkennung (Whisper) erkennt die Sprache nicht automatisch - er transkribiert unter der Annahme, dass die konfigurierte Sprache gesprochen wird. Wenn das nicht passt, ist jedes Wort falsch. Siehe Transkript wurde in der falschen Sprache erstellt.
-
Ist das richtige Mikrofon ausgewaehlt? Settings > Sessions > Microphone Settings. Wenn Sie versehentlich ein Bluetooth-Headset ausgewaehlt haben, das nicht verbunden ist, oder ein getrenntes USB-Mikrofon, nimmt Hedy Stille auf und das Transkript ist unbrauchbar.
Die meisten Beschwerden ueber “niedrige Qualitaet” sind eine dieser beiden Einstellungen, nichts Technisches.
Audioumgebung verbessern
Hedy wendet keine clientseitige Rauschunterdrueckung, automatische Verstaerkungsregelung oder Echokompensation an. Das Audio, das in die Transkription geht, ist im Wesentlichen das, was Ihr Mikrofon aufnimmt. Saubereres Audio hinein = saubereres Transkript heraus.
-
Bringen Sie das Mikrofon naeher an die Sprechenden. Bei Praesenzmeetings funktioniert ein Telefon in der Mitte eines kleinen Tisches fuer 4-5 Personen. Fuer einen grossen Raum, 8+ Personen oder laute Umgebungen nutzen Sie mehrere Geraete oder ein dediziertes Konferenzmikrofon.
-
Reduzieren Sie Hintergrundgeraeusche. Ventilatoren, Klimaanlagen, Kuechengeraete, Verkehr und andere Personen im Hintergrund verschlechtern die Genauigkeit. Schliessen Sie Tueren und Fenster. Schalten Sie den Ventilator aus, wenn moeglich.
-
Vermeiden Sie, Laptop-Lautsprecher ueber ein Laptop-Mikrofon aufzunehmen. Wenn Sie ein Meeting erfassen moechten, das ueber Laptop-Lautsprecher abgespielt wird (z. B. ein YouTube-Video), nutzen Sie stattdessen die Systemaudio-Erfassung. Siehe Hedy erfasst andere Teilnehmende in virtuellen Meetings nicht.
-
Sprechen Sie nicht durcheinander. Ueberlappende Sprache ist der schwierigste Fall fuer jede Spracherkennung. Hedys Diarization versucht, Sprecher zu trennen, aber wenn mehrere Personen gleichzeitig sprechen, faellt die Genauigkeit stark ab.
Den richtigen Spracherkennungsanbieter waehlen
Hedy unterstuetzt vier Spracherkennungsanbieter - zwei lokal, zwei in der Cloud. Sie sehen und aendern diese unter Settings > Speech & AI > Speech Recognition Options.
| Anbieter | Typ | Am besten fuer | Kompromiss |
|---|---|---|---|
| Local Speech Recognition (Whisper) - Standard | Lokal | Datenschutzsensible Nutzung, Offline-Arbeit, breite Sprachunterstuetzung | Langsamer als Cloud auf integrierter Grafik; nutzt die konfigurierte Meeting-Sprache (keine Auto-Erkennung) |
| Local Speech Recognition (Parakeet) [Beta] | Lokal (Apple Silicon Macs und unterstuetzte iPhone/iPad-Modelle) | Schnellere Echtzeit-Transkription fuer Englisch und wichtige europaeische Sprachen | Beta; kleinere Sprachliste als Whisper; kann aehnliche Sprachen verwechseln |
| Deepgram (erfordert eigenen API-Key) | Cloud | Cloud-Genauigkeit, mehrsprachige Auto-Erkennung, grosse Meetings | Erfordert Deepgram-Konto und API-Key; nicht lokal |
| OpenAI (erfordert eigenen API-Key) | Cloud | Cloud-Genauigkeit, automatische Spracherkennung | Erfordert OpenAI-Konto und API-Key; nicht lokal |
Wenn Sie den Standardanbieter Whisper verwenden und die Genauigkeit nicht gut genug ist, probieren Sie je nach Situation diese Schritte in dieser Reihenfolge:
-
Auf Apple Silicon Macs oder unterstuetzten iPhone/iPad-Modellen, fuer Englisch oder wichtige europaeische Sprachen: Probieren Sie Parakeet. Es laeuft auf Apples Neural Engine und ist fuer Echtzeit-Transkription auf Englisch oft schneller und genauer als Whisper. Es ist weiterhin Beta - achten Sie auf Verwechslungen “aehnlicher Sprachen” (z. B. Deutsch vs. Niederlaendisch).
-
Fuer mehrsprachige Meetings, akzentuierte Sprache oder laute Umgebungen: Probieren Sie Deepgram (mehrsprachige Auto-Erkennung) oder OpenAI (Auto-Erkennung). Beide erfordern Ihren eigenen API-Key, sind aber bei schwierigem Audio meist besser als lokale Modelle.
-
Wenn Sie offline oder vollstaendig privat bleiben muessen und Whisper auf Ihrer Hardware langsam ist: Lesen Sie Langsame Transkription unter Windows beheben (GPU-Einstellungen) fuer die Windows-spezifische GPU-Beschleunigung, oder wechseln Sie zu Parakeet, wenn Sie auf Apple Silicon sind.
Custom Vocabulary fuer Eigennamen verwenden
Wenn Hedy Namen, technische Begriffe, Produktnamen oder Branchenjargon falsch transkribiert, fuegen Sie sie zu Custom Vocabulary hinzu.
-
Oeffnen Sie Hedys Settings
-
Gehen Sie zu Personalization > Custom Vocabulary > Manage Vocabulary Terms
-
Geben Sie jeden Begriff in “Enter a custom term…” ein und tippen Sie auf Add
-
Stellen Sie sicher, dass Enable Custom Vocabulary aktiviert ist
Custom Vocabulary fliesst direkt als Prompt in die lokale Whisper-Transkription ein und hilft ihr, domaenenspezifische Begriffe korrekt zu erkennen und zu schreiben. Es hilft ausserdem dem Schritt zur Transkriptbereinigung (der bei allen Anbietern laeuft, einschliesslich Parakeet, Deepgram und OpenAI), Fehler zu erkennen und zu beheben.
Hinweis: Custom Vocabulary wirkt am staerksten direkt, wenn Sie lokales Whisper STT verwenden. Bei Parakeet, Deepgram und OpenAI profitiert der Bereinigungsschritt weiterhin von Ihrer Begriffsliste, aber der Spracherkenner selbst erhaelt sie nicht als Prompt.
Eine laengere Anleitung zum Aufbau einer guten Vokabelliste finden Sie im Custom Vocabulary Guide.
Mikrofon-Hardwareprobleme beheben
Wenn die Audioqualitaet mitten in der Sitzung schlechter wird oder nur bestimmte Sprecher durchkommen, ist die Hardware verdaechtig:
-
Bluetooth-Headsets verschlechtern sich oft, wenn der Akku sinkt oder die Reichweite groesser wird. Siehe AirPods und Bluetooth-Kopfhoerer brechen ab.
-
USB-Mikrofone koennen unter Kabelproblemen leiden - probieren Sie einen anderen USB-Port oder ein anderes Kabel
-
Eingebaute Laptop-Mikrofone sind fuer ein oder zwei Personen nahe an der Tastatur in Ordnung. Fuer Konferenzraeume sind sie nicht ideal.
-
Telefone in Huelle oder unter Stoff koennen dumpf klingen
Ein schneller Test: Nehmen Sie eine kurze Sprachnotiz mit demselben Mikrofon in Sprachmemos / Recorder / einer aehnlichen einfachen App auf. Wenn diese Aufnahme schlecht klingt, liegt das Problem am Mikrofon - nicht an Hedy.
Audioformat, das Hedy verwendet
Zur Einordnung: Hedy erfasst Audio mit 16 kHz, mono, 16-bit PCM - dem Standard fuer Spracherkennung. Dieses Format geht direkt an lokales Whisper und Deepgram. Fuer OpenAI Realtime sampelt Hedy vor dem Senden auf 24 kHz um (OpenAIs erforderliches Format). All diese Formate sind fuer Sprache geeignet, aber verlustbehaftet fuer Musik oder Hi-Fi-Audio. Erwarten Sie keine guten Ergebnisse beim Transkribieren von Liedern.
Wann Sie eskalieren sollten
Wenn Sie alles oben Genannte geprueft haben und die Genauigkeit weiterhin schlecht ist:
-
Notieren Sie die genaue Fehlerart (falsche Woerter, fehlende Abschnitte, falsche Sprecherzuordnung, voellig unbrauchbar)
-
Erfassen Sie eine 30-sekuendige Probe, in der der Fehler auftritt
-
Kontaktieren Sie uns ueber das Chat-Widget mit der Probe und Ihrer Anbieter-/Spracheinstellung
Meist koennen wir erkennen, ob es ein Umgebungs-, Konfigurations- oder Anbieterproblem ist.
Verwandte Artikel
Weiterhin Probleme? Kontaktieren Sie uns ueber das Chat-Widget mit Ihrem Anbieter, Ihrer Meeting/Class Language-Einstellung, Ihrem Geraetemodell und einer Probe, in der das Problem sichtbar ist.