Proveedores de reconocimiento de voz en Hedy

¿Que son los proveedores de reconocimiento de voz?

Hedy admite multiples opciones de reconocimiento de voz, dandole flexibilidad para elegir entre privacidad completa con procesamiento local o alternativas basadas en la nube. Puede cambiar de proveedor en cualquier momento segun sus necesidades actuales: use el local para sesiones sin conexion y servicios en la nube cuando prefiera sus funcionalidades especificas.

Primeros pasos

Abra la aplicacion Hedy
Navegue a Settings (toque su icono de perfil)
Desplacese hasta “Speech Recognition Options”
Seleccione su proveedor preferido del menu desplegable
Configure los ajustes especificos del proveedor si es necesario
Su seleccion entrara en vigor en la siguiente sesion

Proveedores disponibles

Hedy ofrece cuatro opciones de reconocimiento de voz, cada una con caracteristicas unicas:

Local Speech Recognition (Whisper): Opcion predeterminada - 100% privada, funciona sin conexion, sin costos de uso. Su audio nunca sale de su dispositivo. Disponible en todas las plataformas compatibles con Hedy.
Local Speech Recognition (Nemotron) [Beta]: Un motor de streaming más reciente en el dispositivo, con transcripciones en vivo y etiquetas de hablante en el dispositivo. Usted elige entre un modo solo en inglés (la opción más rápida) y un modo multilingüe que cubre un conjunto amplio de idiomas principales. Disponible en todas las plataformas para las que Hedy ofrece una app nativa: Mac con Apple Silicon, iPhone 12 (o más reciente), iPad Air 4 (o más reciente), Windows y Android. En hardware Apple se ejecuta en el Neural Engine y etiqueta a los hablantes en vivo; en Windows y Android, las etiquetas se añaden al final de la sesión. Requiere una descarga única del modelo (aproximadamente 0,6 GB para solo inglés y 0,7 GB para multilingüe).
Deepgram: Servicio basado en la nube con transmision en tiempo real y funcionalidades de formato inteligente. Usa Nova-3, que admite docenas de idiomas. Hedy expone todos los idiomas que Nova-3 ofrece, para que pueda transcribir reuniones en cualquier idioma compatible sin cambiar de proveedor. Requiere su propia clave API.
OpenAI: Transcripcion en la nube con Voice Activity Detection y deteccion automatica de idioma. Hedy continua automaticamente las sesiones largas superado el limite de 60 minutos por conexion de OpenAI, rotando conexiones en segundo plano para que las reuniones de mas de una hora continuen sin interrupciones. Requiere su propia clave API.

Configurar Local Speech Recognition (Whisper)

Al usar Whisper, puede optimizar la configuración para su dispositivo y necesidades:

Para usuarios de macOS:

Small Model: Procesamiento mas rapido, recomendado para Mac con Intel
Regular Model: Velocidad y precision equilibradas para la mayoria de los usuarios
Large Model: Capacidades mejoradas para idiomas distintos al ingles (requiere descarga de 1.5GB)

Para usuarios de iOS/Android:

Standard Model: Opcion predeterminada adecuada para la mayoria de los dispositivos
Large Model: Opcion de modelo alternativo (se recomienda iPhone 12+ o Android 2024+)

Voice Activity Detection (VAD):

VAD filtra automaticamente el silencio y el ruido de fondo para mejorar la calidad de la transcripcion. Esta funcionalidad esta habilitada de forma predeterminada para Whisper.

Activar/Desactivar: Active o desactive VAD segun su entorno de grabacion
Sensibilidad: Ajuste desde “High Sensitivity” (captura mas habla, incluyendo sonidos mas suaves) hasta “Maximum Filtering” (solo captura habla clara, filtra mas ruido de fondo)

Configuracion de velocidad de transcripcion:

Slower: Espera oraciones completas antes de mostrarlas
Normal: Velocidad y tiempo de visualizacion equilibrados
Faster: Visualizacion casi en tiempo real con actualizaciones mas frecuentes

Configurar Local Speech Recognition (Nemotron)

Nemotron está actualmente en fase Beta. Transcribe totalmente en el dispositivo y muestra transcripciones en vivo mientras usted habla. Está disponible en todas las plataformas para las que Hedy ofrece una app nativa: iOS, iPadOS, macOS, Windows y Android. En hardware Apple se ejecuta en el Neural Engine.

Requisitos del dispositivo:

Mac con Apple Silicon (M1 o más reciente), o
iPhone 12 o más reciente, o iPad Air 4 o más reciente

Solo inglés o multilingüe:

En el menú desplegable de proveedores, Nemotron aparece como dos opciones, para que pueda elegir la que coincida con sus reuniones:

Local Speech Recognition (Nemotron English Only): transcripción en streaming en inglés, la opción más rápida.
Local Speech Recognition (Nemotron Multilingual): streaming en el dispositivo para un conjunto amplio de idiomas principales, cuando necesita algo más que inglés.

Ambos funcionan completamente en el dispositivo, y ambos identifican el idioma a partir del audio en lugar de usar la configuración de idioma de la reunión.

Configuración inicial:

Seleccione Local Speech Recognition (Nemotron English Only) o (Nemotron Multilingual) en el menú desplegable de proveedores
Toque Download Nemotron model (aproximadamente 0,6 GB para solo inglés y 0,7 GB para multilingüe) — se recomienda Wi-Fi
Una vez finalizada la descarga, Nemotron se utilizará automáticamente en su próxima sesión

Etiquetas de hablante y la caché temporal de audio:

Nemotron etiqueta quién habla, tanto en vivo como después de la sesión. Para que esas etiquetas de hablante sean más precisas, Hedy conserva el audio de cada sesión en una caché temporal en el dispositivo mientras lo procesa y luego lo elimina. Este audio permanece en su dispositivo. La opción Caché temporal de audio (Nemotron) está activada de forma predeterminada; puede desactivarla en la configuración de Hedy, aunque mantenerla activada le da a Nemotron la mejor atribución de hablantes.

Configurar proveedores en la nube

Configuracion de Deepgram:

Cree una cuenta en console.deepgram.com
Genere una clave API desde su panel de control
En Hedy Settings, seleccione Deepgram del menu desplegable
Pegue su clave API y toque “Test” para verificar
Elija sus preferencias de modelo e idioma
Establezca la duracion maxima de sesion para controlar costos

Configuracion de OpenAI:

Obtenga su clave API en platform.openai.com/api-keys
En Hedy Settings, seleccione OpenAI del menu desplegable
Ingrese su clave API y pruebe la conexion
Elija su modelo preferido
Opcionalmente active Voice Activity Detection con sensibilidad ajustable
Establezca la duracion maxima de sesion para controlar costos

Elegir el proveedor adecuado

Seleccione segun sus prioridades y caso de uso:

Privacidad primero: Use un motor local (Whisper o Nemotron) - el audio nunca sale de su dispositivo
Uso sin conexion: Todos los motores locales funcionan sin internet
Funcionalidades en la nube: Deepgram y OpenAI ofrecen procesamiento basado en la nube
Deteccion de voz: Whisper y OpenAI incluyen funcionalidades de Voice Activity Detection
Formato inteligente: Deepgram ofrece opciones de formato automatico
Sin costos de uso: Los motores locales (Whisper, Nemotron) no tienen cargos por minuto
Transcripción más rápida en el dispositivo: Nemotron (Beta) suele ofrecer una transcripción con menor latencia que Whisper
Streaming multilingüe en el dispositivo: Nemotron Multilingual (Beta) le da transcripción en el dispositivo para un conjunto amplio de idiomas
Máxima cobertura de idiomas en el dispositivo: Para idiomas no europeos en el dispositivo, prefiera Whisper Large o Nemotron Multilingual
Análisis completamente privado: En macOS (Apple Silicon) o Windows, puede combinar el reconocimiento de voz local con el Procesamiento de IA local para mantener tanto la transcripción como el análisis de IA completamente en el dispositivo.

Consideraciones de costo

Entienda las implicaciones de costo de cada proveedor:

Local Speech Recognition (Whisper): Gratuito - sin cargos de uso
Local Speech Recognition (Nemotron): Gratuito - sin cargos de uso (descarga única del modelo, aproximadamente 0,6-0,7 GB)
Deepgram: Precio por minuto (consulte las tarifas actuales en su panel de control)
OpenAI: Precio basado en uso (consulte las tarifas actuales en su plataforma)

La configuracion de duracion maxima de sesion ayuda a prevenir grabaciones nocturnas accidentales y gestionar los costos de API.

Mejores practicas

Comience con Local Speech Recognition (Whisper) para familiarizarse con la funcionalidad y después pruebe Nemotron si su dispositivo es compatible
Pruebe los proveedores en la nube con grabaciones cortas antes de sesiones importantes
Monitoree su uso de API en los paneles de control de los proveedores para rastrear costos
Use diferentes proveedores para diferentes escenarios segun sus necesidades
Cambie a local cuando viaje o en areas con internet limitado
Establezca duraciones maximas de sesion apropiadas (60-120 minutos para reuniones tipicas)

Solucion de problemas

La clave API no funciona

Asegurese de haber copiado la clave completa sin espacios
Verifique que su cuenta tenga creditos disponibles
Compruebe que la clave API tenga los permisos necesarios
Intente regenerar la clave desde el panel de control del proveedor

La prueba de conexion fallo

Verifique la estabilidad de su conexion a internet
Confirme que el firewall no este bloqueando conexiones WebSocket
Asegurese de que la clave API este activa con cuota suficiente
Espere un momento e intente de nuevo (problemas temporales del servicio)

Problemas de transcripcion

Para Whisper: Pruebe un tamano de modelo diferente
Para Whisper en Windows: Si la transcripción queda muy por detrás de la conversación, revise la configuración de GPU para transcripción lenta
Para términos especializados, nombres y acrónimos: Agréguelos mediante la función de vocabulario personalizado
Para Nemotron: Use el modo English Only para reuniones en inglés; para otros idiomas, use el modo Multilingual o cambie a Whisper con el idioma configurado explícitamente
Para Cloud: Verifique la estabilidad de la conexion a internet
Asegurese de que el microfono este correctamente configurado
Minimice el ruido de fondo durante la grabacion

Los ajustes no se guardan

Espere a que aparezca el indicador “Saved”
No cambie de pantalla mientras se guarda
Reinicie la aplicacion si los problemas persisten
Asegurese de tener una conexion a internet estable

Sus claves API se almacenan de forma segura en el llavero cifrado de su dispositivo y nunca se transmiten a los servidores de Hedy. Para máxima privacidad en conversaciones confidenciales, utilice siempre un motor local (Whisper o Nemotron).