Corregir la mala calidad de transcripción

Si las transcripciones de Hedy están llenas de errores — palabras omitidas, nombres propios incorrectos, frases confusas — la causa rara vez es el propio modelo de IA. Casi siempre es una de estas: un entorno de captura de audio deficiente, el micrófono equivocado, el idioma equivocado o un proveedor que no encaja con su caso de uso. Aquí tiene cómo diagnosticar y corregir cada causa, ordenadas según la frecuencia con que aparecen.

Primero, confirme lo básico

Antes de cambiar nada, revise esto:

¿Meeting/Class Language está configurado en el idioma que realmente está hablando? Settings > Profile > Language Preferences. El proveedor de reconocimiento de voz predeterminado (Whisper) no detecta el idioma automáticamente: transcribe suponiendo el idioma que usted configuró. Si no coinciden, todas las palabras saldrán mal. Consulte La transcripción salió en el idioma equivocado.
¿Está seleccionado el micrófono correcto? Settings > Sessions > Microphone Settings. Si eligió por accidente un auricular Bluetooth desconectado o un micrófono USB que no está conectado, Hedy está grabando silencio y la transcripción será inutilizable.

La mayoría de las quejas de “baja calidad” son una de estas dos configuraciones, no algo técnico.

Mejore el entorno de audio

Hedy no aplica supresión de ruido, control automático de ganancia ni cancelación de eco del lado del cliente. El audio que entra a la transcripción es, en esencia, lo que capta su micrófono. Audio más limpio entra = transcripción más limpia sale.

Acerque el micrófono a quienes hablan. Para reuniones presenciales, un teléfono colocado en el centro de una mesa pequeña funciona para 4-5 personas. Para una sala grande, 8 o más personas, o entornos ruidosos, use varios dispositivos o un micrófono de conferencia dedicado.
Reduzca el ruido de fondo. Ventiladores, aire acondicionado, electrodomésticos de cocina, tráfico y otras personas hablando de fondo degradan la precisión. Cierre puertas y ventanas. Apague el ventilador si es posible.
Evite grabar altavoces de portátil reproducidos por altavoces de portátil. Si está intentando capturar una reunión que suena por los altavoces del portátil (por ejemplo, un video de YouTube), use las funciones de captura de audio del sistema. Consulte Hedy no captura a otros participantes en reuniones virtuales.
No hablen unos encima de otros. El habla superpuesta es el caso más difícil para cualquier reconocimiento de voz. La diarización de Hedy intenta separar hablantes, pero si varias personas hablan a la vez, la precisión cae mucho.

Elija el proveedor de reconocimiento de voz correcto

Hedy admite cinco proveedores de reconocimiento de voz: tres locales y dos en la nube. Puede verlos y cambiarlos en Settings > Speech & AI > Speech Recognition Options.

Proveedor	Tipo	Ideal para	Compromiso
Local Speech Recognition (Whisper) — predeterminado	Local	Uso sensible a la privacidad, trabajo sin conexión, amplia compatibilidad de idiomas	Más lento que la nube en gráficos integrados; usa el idioma de reunión configurado (sin detección automática)
Local Speech Recognition (Parakeet) [Beta]	Local (Macs con Apple Silicon y modelos compatibles de iPhone/iPad)	Transcripción en tiempo real más rápida para inglés y principales idiomas europeos	Beta; lista de idiomas más limitada que Whisper; puede identificar mal idiomas similares
Local Speech Recognition (Nemotron) [Beta]	Local (Macs con Apple Silicon y modelos compatibles de iPhone/iPad)	Transcripción en tiempo real más rápida con etiquetas de hablante en el dispositivo; tiene un modo solo en inglés y un modo multilingüe	Beta; identifica el idioma desde el audio en lugar de usar la configuración de idioma de la reunión
Deepgram (requiere su propia clave API)	Nube	Precisión en la nube, detección automática multilingüe, reuniones grandes	Requiere cuenta y clave API de Deepgram; no es local
OpenAI (requiere su propia clave API)	Nube	Precisión en la nube, detección automática de idioma	Requiere cuenta y clave API de OpenAI; no es local

Si está usando el proveedor predeterminado Whisper y la precisión no es suficiente, pruebe lo siguiente en orden, según su situación:

En Macs con Apple Silicon o modelos compatibles de iPhone/iPad, para inglés o principales idiomas europeos: pruebe Parakeet o Nemotron. Se ejecutan en el Neural Engine de Apple y a menudo son más rápidos y precisos que Whisper para transcripción en tiempo real. Ambos siguen en beta: identifican el idioma desde el audio, así que esté atento a identificaciones erróneas de “idiomas similares” (por ejemplo, alemán vs. neerlandés). Para reuniones no inglesas en Nemotron, use su modo Multilingual.
Para reuniones multilingües, habla con acentos o entornos ruidosos: pruebe Deepgram (detección automática multilingüe) u OpenAI (detección automática). Ambos requieren que aporte su propia clave API, pero normalmente superan a los modelos locales con audio difícil.
Si necesita permanecer sin conexión o con privacidad total y Whisper es lento en su hardware: consulte Solucionar transcripción lenta en Windows (configuración de GPU) para la corrección específica de aceleración GPU en Windows, o pase a Parakeet si está en Apple Silicon.

Use Custom Vocabulary para nombres propios

Si Hedy transcribe mal nombres, términos técnicos, nombres de productos o jerga de su sector, agréguelos a Custom Vocabulary.

Abra Settings en Hedy
Vaya a Personalization > Custom Vocabulary > Manage Vocabulary Terms
Introduzca cada término en “Enter a custom term…” y toque Add
Asegúrese de que Enable Custom Vocabulary esté activado

Custom Vocabulary se envía directamente a la transcripción local de Whisper como prompt, ayudándole a reconocer y escribir correctamente términos específicos del dominio. También ayuda al paso de limpieza de transcripción (que se ejecuta con todos los proveedores, incluidos Parakeet, Nemotron, Deepgram y OpenAI) a detectar y corregir errores.

Nota: Custom Vocabulary tiene su efecto directo más fuerte cuando utiliza STT local de Whisper. Para Parakeet, Nemotron, Deepgram y OpenAI, el paso de limpieza sigue beneficiándose de su lista de vocabulario, pero el reconocedor de voz en sí no la recibe como prompt.

Para una guía más extensa sobre cómo crear una buena lista de vocabulario, consulte Guía de Custom Vocabulary.

Corrija problemas de hardware del micrófono

Si la calidad de audio empeora a mitad de sesión o solo se escuchan algunos hablantes, el hardware es sospechoso:

Los auriculares Bluetooth suelen degradarse cuando baja la batería o aumenta la distancia. Consulte AirPods y auriculares Bluetooth se cortan.
Los micrófonos USB pueden sufrir problemas de cable: pruebe otro puerto USB u otro cable
Los micrófonos integrados de portátiles están bien para una o dos personas sentadas cerca del teclado. No son ideales para salas de conferencias.
Teléfonos dentro de fundas o bajo tela pueden sonar apagados

Prueba rápida: grabe una nota de voz corta con el mismo micrófono en Voice Memos / Recorder / una app sencilla similar. Si esa grabación suena mal, el problema es el micrófono, no Hedy.

Formato de audio que usa Hedy

Como referencia, Hedy captura audio a 16 kHz, mono, PCM de 16 bits: el estándar para reconocimiento de voz. Este formato va directamente a Whisper local y Deepgram. Para OpenAI Realtime, Hedy remuestrea a 24 kHz antes de enviar (el formato requerido por OpenAI). Todos estos formatos son adecuados para voz, pero con pérdida para música o audio de alta fidelidad. No espere grandes resultados intentando transcribir canciones.

Cuándo escalar

Si revisó todo lo anterior y la precisión sigue siendo baja:

Anote el tipo específico de error (palabras incorrectas, secciones omitidas, atribución incorrecta de hablantes, texto totalmente incoherente)
Capture una muestra de 30 segundos donde ocurra el error
Contacte con nosotros a través del widget de chat con la muestra y su configuración de proveedor/idioma

Normalmente podemos identificar si el problema es ambiental, de configuración o del proveedor.