Schlechte Transkriptionsqualitaet beheben

Wenn Hedys Transkripte voller Fehler sind - fehlende Woerter, falsche Eigennamen, unverstaendliche Phrasen - liegt die Ursache selten am KI-Modell selbst. Fast immer ist es eine von vier Ursachen: schlechte Audioaufnahmeumgebung, falsches Mikrofon, falsche Spracheinstellung oder ein Anbieter, der nicht zu Ihrem Anwendungsfall passt. So diagnostizieren und beheben Sie jede Ursache, geordnet danach, wie oft sie der Ausloeser ist.

Zuerst die Grundlagen pruefen

Bevor Sie etwas aendern, pruefen Sie:

Ist Meeting/Class Language auf die Sprache gesetzt, die Sie tatsaechlich sprechen? Settings > Profile > Language Preferences. Der Standardanbieter fuer Spracherkennung (Whisper) erkennt die Sprache nicht automatisch - er transkribiert unter der Annahme, dass die konfigurierte Sprache gesprochen wird. Wenn das nicht passt, ist jedes Wort falsch. Siehe Transkript wurde in der falschen Sprache erstellt.
Ist das richtige Mikrofon ausgewaehlt? Settings > Sessions > Microphone Settings. Wenn Sie versehentlich ein Bluetooth-Headset ausgewaehlt haben, das nicht verbunden ist, oder ein getrenntes USB-Mikrofon, nimmt Hedy Stille auf und das Transkript ist unbrauchbar.

Die meisten Beschwerden ueber “niedrige Qualitaet” sind eine dieser beiden Einstellungen, nichts Technisches.

Audioumgebung verbessern

Hedy wendet keine clientseitige Rauschunterdrueckung, automatische Verstaerkungsregelung oder Echokompensation an. Das Audio, das in die Transkription geht, ist im Wesentlichen das, was Ihr Mikrofon aufnimmt. Saubereres Audio hinein = saubereres Transkript heraus.

Bringen Sie das Mikrofon naeher an die Sprechenden. Bei Praesenzmeetings funktioniert ein Telefon in der Mitte eines kleinen Tisches fuer 4-5 Personen. Fuer einen grossen Raum, 8+ Personen oder laute Umgebungen nutzen Sie mehrere Geraete oder ein dediziertes Konferenzmikrofon.
Reduzieren Sie Hintergrundgeraeusche. Ventilatoren, Klimaanlagen, Kuechengeraete, Verkehr und andere Personen im Hintergrund verschlechtern die Genauigkeit. Schliessen Sie Tueren und Fenster. Schalten Sie den Ventilator aus, wenn moeglich.
Vermeiden Sie, Laptop-Lautsprecher ueber ein Laptop-Mikrofon aufzunehmen. Wenn Sie ein Meeting erfassen moechten, das ueber Laptop-Lautsprecher abgespielt wird (z. B. ein YouTube-Video), nutzen Sie stattdessen die Systemaudio-Erfassung. Siehe Hedy erfasst andere Teilnehmende in virtuellen Meetings nicht.
Sprechen Sie nicht durcheinander. Ueberlappende Sprache ist der schwierigste Fall fuer jede Spracherkennung. Hedys Diarization versucht, Sprecher zu trennen, aber wenn mehrere Personen gleichzeitig sprechen, faellt die Genauigkeit stark ab.

Den richtigen Spracherkennungsanbieter waehlen

Hedy unterstuetzt fuenf Spracherkennungsanbieter - drei lokal, zwei in der Cloud. Sie sehen und aendern diese unter Settings > Speech & AI > Speech Recognition Options.

Anbieter	Typ	Am besten fuer	Kompromiss
Local Speech Recognition (Whisper) - Standard	Lokal	Datenschutzsensible Nutzung, Offline-Arbeit, breite Sprachunterstuetzung	Langsamer als Cloud auf integrierter Grafik; nutzt die konfigurierte Meeting-Sprache (keine Auto-Erkennung)
Local Speech Recognition (Parakeet) [Beta]	Lokal (Apple Silicon Macs und unterstuetzte iPhone/iPad-Modelle)	Schnellere Echtzeit-Transkription fuer Englisch und wichtige europaeische Sprachen	Beta; kleinere Sprachliste als Whisper; kann aehnliche Sprachen verwechseln
Local Speech Recognition (Nemotron) [Beta]	Lokal (Apple Silicon Macs und unterstuetzte iPhone/iPad-Modelle)	Schnellere Echtzeit-Transkription mit Sprecherlabels auf dem Geraet; bietet einen English Only-Modus und einen Multilingual-Modus	Beta; erkennt die Sprache aus dem Audio statt aus Ihrer Meeting-Spracheinstellung
Deepgram (erfordert eigenen API-Key)	Cloud	Cloud-Genauigkeit, mehrsprachige Auto-Erkennung, grosse Meetings	Erfordert Deepgram-Konto und API-Key; nicht lokal
OpenAI (erfordert eigenen API-Key)	Cloud	Cloud-Genauigkeit, automatische Spracherkennung	Erfordert OpenAI-Konto und API-Key; nicht lokal

Wenn Sie den Standardanbieter Whisper verwenden und die Genauigkeit nicht gut genug ist, probieren Sie je nach Situation diese Schritte in dieser Reihenfolge:

Auf Apple Silicon Macs oder unterstuetzten iPhone/iPad-Modellen, fuer Englisch oder wichtige europaeische Sprachen: Probieren Sie Parakeet oder Nemotron. Sie laufen auf Apples Neural Engine und sind fuer Echtzeit-Transkription oft schneller und genauer als Whisper. Beide sind weiterhin Beta - sie erkennen die Sprache aus dem Audio. Achten Sie daher auf Verwechslungen “aehnlicher Sprachen” (z. B. Deutsch vs. Niederlaendisch). Fuer nicht-englische Meetings mit Nemotron verwenden Sie den Multilingual-Modus.
Fuer mehrsprachige Meetings, akzentuierte Sprache oder laute Umgebungen: Probieren Sie Deepgram (mehrsprachige Auto-Erkennung) oder OpenAI (Auto-Erkennung). Beide erfordern Ihren eigenen API-Key, sind aber bei schwierigem Audio meist besser als lokale Modelle.
Wenn Sie offline oder vollstaendig privat bleiben muessen und Whisper auf Ihrer Hardware langsam ist: Lesen Sie Langsame Transkription unter Windows beheben (GPU-Einstellungen) fuer die Windows-spezifische GPU-Beschleunigung, oder wechseln Sie zu Parakeet, wenn Sie auf Apple Silicon sind.

Custom Vocabulary fuer Eigennamen verwenden

Wenn Hedy Namen, technische Begriffe, Produktnamen oder Branchenjargon falsch transkribiert, fuegen Sie sie zu Custom Vocabulary hinzu.

Oeffnen Sie Hedys Settings
Gehen Sie zu Personalization > Custom Vocabulary > Manage Vocabulary Terms
Geben Sie jeden Begriff in “Enter a custom term…” ein und tippen Sie auf Add
Stellen Sie sicher, dass Enable Custom Vocabulary aktiviert ist

Custom Vocabulary fliesst direkt als Prompt in die lokale Whisper-Transkription ein und hilft ihr, domaenenspezifische Begriffe korrekt zu erkennen und zu schreiben. Es hilft ausserdem dem Schritt zur Transkriptbereinigung (der bei allen Anbietern laeuft, einschliesslich Parakeet, Nemotron, Deepgram und OpenAI), Fehler zu erkennen und zu beheben.

Hinweis: Custom Vocabulary wirkt am staerksten direkt, wenn Sie lokales Whisper STT verwenden. Bei Parakeet, Nemotron, Deepgram und OpenAI profitiert der Bereinigungsschritt weiterhin von Ihrer Begriffsliste, aber der Spracherkenner selbst erhaelt sie nicht als Prompt.

Eine laengere Anleitung zum Aufbau einer guten Vokabelliste finden Sie im Custom Vocabulary Guide.

Mikrofon-Hardwareprobleme beheben

Wenn die Audioqualitaet mitten in der Sitzung schlechter wird oder nur bestimmte Sprecher durchkommen, ist die Hardware verdaechtig:

Bluetooth-Headsets verschlechtern sich oft, wenn der Akku sinkt oder die Reichweite groesser wird. Siehe AirPods und Bluetooth-Kopfhoerer brechen ab.
USB-Mikrofone koennen unter Kabelproblemen leiden - probieren Sie einen anderen USB-Port oder ein anderes Kabel
Eingebaute Laptop-Mikrofone sind fuer ein oder zwei Personen nahe an der Tastatur in Ordnung. Fuer Konferenzraeume sind sie nicht ideal.
Telefone in Huelle oder unter Stoff koennen dumpf klingen

Ein schneller Test: Nehmen Sie eine kurze Sprachnotiz mit demselben Mikrofon in Sprachmemos / Recorder / einer aehnlichen einfachen App auf. Wenn diese Aufnahme schlecht klingt, liegt das Problem am Mikrofon - nicht an Hedy.

Audioformat, das Hedy verwendet

Zur Einordnung: Hedy erfasst Audio mit 16 kHz, mono, 16-bit PCM - dem Standard fuer Spracherkennung. Dieses Format geht direkt an lokales Whisper und Deepgram. Fuer OpenAI Realtime sampelt Hedy vor dem Senden auf 24 kHz um (OpenAIs erforderliches Format). All diese Formate sind fuer Sprache geeignet, aber verlustbehaftet fuer Musik oder Hi-Fi-Audio. Erwarten Sie keine guten Ergebnisse beim Transkribieren von Liedern.

Wann Sie eskalieren sollten

Wenn Sie alles oben Genannte geprueft haben und die Genauigkeit weiterhin schlecht ist:

Notieren Sie die genaue Fehlerart (falsche Woerter, fehlende Abschnitte, falsche Sprecherzuordnung, voellig unbrauchbar)
Erfassen Sie eine 30-sekuendige Probe, in der der Fehler auftritt
Kontaktieren Sie uns ueber das Chat-Widget mit der Probe und Ihrer Anbieter-/Spracheinstellung

Meist koennen wir erkennen, ob es ein Umgebungs-, Konfigurations- oder Anbieterproblem ist.