Proveedores de reconocimiento de voz en Hedy
¿Que son los proveedores de reconocimiento de voz?
Hedy admite multiples opciones de reconocimiento de voz, dandole flexibilidad para elegir entre privacidad completa con procesamiento local o alternativas basadas en la nube. Puede cambiar de proveedor en cualquier momento segun sus necesidades actuales: use el local para sesiones sin conexion y servicios en la nube cuando prefiera sus funcionalidades especificas.
Primeros pasos
-
Abra la aplicacion Hedy
-
Navegue a Settings (toque su icono de perfil)
-
Desplacese hasta “Speech Recognition Options”
-
Seleccione su proveedor preferido del menu desplegable
-
Configure los ajustes especificos del proveedor si es necesario
-
Su seleccion entrara en vigor en la siguiente sesion de grabacion
Proveedores disponibles
Hedy ofrece tres opciones de reconocimiento de voz, cada una con caracteristicas unicas:
-
Local Speech Recognition: Opcion predeterminada - 100% privada, funciona sin conexion, sin costos de uso. Su audio nunca sale de su dispositivo.
-
Deepgram: Servicio basado en la nube con transmision en tiempo real y funcionalidades de formato inteligente. Usa Nova-3, que admite docenas de idiomas. Hedy expone todos los idiomas que Nova-3 ofrece, para que pueda transcribir reuniones en cualquier idioma compatible sin cambiar de proveedor. Requiere su propia clave API.
-
OpenAI: Transcripcion en la nube con Voice Activity Detection y deteccion automatica de idioma. Hedy continua automaticamente las sesiones largas superado el limite de 60 minutos por conexion de OpenAI, rotando conexiones en segundo plano para que las reuniones de mas de una hora continuen sin interrupciones. Requiere su propia clave API.
Configurar Local Speech Recognition
Al usar Local Speech Recognition, puede optimizar para su dispositivo y necesidades:
Para usuarios de macOS:
-
Small Model: Procesamiento mas rapido, recomendado para Mac con Intel
-
Regular Model: Velocidad y precision equilibradas para la mayoria de los usuarios
-
Large Model: Capacidades mejoradas para idiomas distintos al ingles (requiere descarga de 1.5GB)
Para usuarios de iOS/Android:
-
Standard Model: Opcion predeterminada adecuada para la mayoria de los dispositivos
-
Large Model: Opcion de modelo alternativo (se recomienda iPhone 12+ o Android 2024+)
Voice Activity Detection (VAD):
VAD filtra automaticamente el silencio y el ruido de fondo para mejorar la calidad de la transcripcion. Esta funcionalidad esta habilitada de forma predeterminada para Local Speech Recognition.
-
Activar/Desactivar: Active o desactive VAD segun su entorno de grabacion
-
Sensibilidad: Ajuste desde “High Sensitivity” (captura mas habla, incluyendo sonidos mas suaves) hasta “Maximum Filtering” (solo captura habla clara, filtra mas ruido de fondo)
Configuracion de velocidad de transcripcion:
-
Slower: Espera oraciones completas antes de mostrarlas
-
Normal: Velocidad y tiempo de visualizacion equilibrados
-
Faster: Visualizacion casi en tiempo real con actualizaciones mas frecuentes
Configurar proveedores en la nube
Configuracion de Deepgram:
-
Cree una cuenta en console.deepgram.com
-
Genere una clave API desde su panel de control
-
En Hedy Settings, seleccione Deepgram del menu desplegable
-
Pegue su clave API y toque “Test” para verificar
-
Elija sus preferencias de modelo e idioma
-
Establezca la duracion maxima de sesion para controlar costos
Configuracion de OpenAI:
-
Obtenga su clave API en platform.openai.com/api-keys
-
En Hedy Settings, seleccione OpenAI del menu desplegable
-
Ingrese su clave API y pruebe la conexion
-
Elija su modelo preferido
-
Opcionalmente active Voice Activity Detection con sensibilidad ajustable
-
Establezca la duracion maxima de sesion para controlar costos
Elegir el proveedor adecuado
Seleccione segun sus prioridades y caso de uso:
-
Privacidad primero: Use Local Speech Recognition - el audio nunca sale de su dispositivo
-
Uso sin conexion: Local Speech Recognition funciona sin internet
-
Funcionalidades en la nube: Deepgram y OpenAI ofrecen procesamiento basado en la nube
-
Deteccion de voz: Tanto Local como OpenAI incluyen funcionalidades de Voice Activity Detection
-
Formato inteligente: Deepgram ofrece opciones de formato automatico
-
Sin costos de uso: Local Speech Recognition no tiene cargos por minuto
-
Análisis completamente privado en Mac: Si tiene un Mac con Apple Silicon, puede combinar el reconocimiento de voz local con el Procesamiento de IA local para mantener tanto la transcripción como el análisis de IA completamente en el dispositivo.
Consideraciones de costo
Entienda las implicaciones de costo de cada proveedor:
-
Local Speech Recognition: Gratuito - sin cargos de uso
-
Deepgram: Precio por minuto (consulte las tarifas actuales en su panel de control)
-
OpenAI: Precio basado en uso (consulte las tarifas actuales en su plataforma)
La configuracion de duracion maxima de sesion ayuda a prevenir grabaciones nocturnas accidentales y gestionar los costos de API.
Mejores practicas
-
Comience con Local Speech Recognition para familiarizarse con la funcionalidad
-
Pruebe los proveedores en la nube con grabaciones cortas antes de sesiones importantes
-
Monitoree su uso de API en los paneles de control de los proveedores para rastrear costos
-
Use diferentes proveedores para diferentes escenarios segun sus necesidades
-
Cambie a local cuando viaje o en areas con internet limitado
-
Establezca duraciones maximas de sesion apropiadas (60-120 minutos para reuniones tipicas)
Solucion de problemas
La clave API no funciona
-
Asegurese de haber copiado la clave completa sin espacios
-
Verifique que su cuenta tenga creditos disponibles
-
Compruebe que la clave API tenga los permisos necesarios
-
Intente regenerar la clave desde el panel de control del proveedor
La prueba de conexion fallo
-
Verifique la estabilidad de su conexion a internet
-
Confirme que el firewall no este bloqueando conexiones WebSocket
-
Asegurese de que la clave API este activa con cuota suficiente
-
Espere un momento e intente de nuevo (problemas temporales del servicio)
Problemas de transcripcion
-
Para Local: Pruebe un tamano de modelo diferente
-
Para Cloud: Verifique la estabilidad de la conexion a internet
-
Asegurese de que el microfono este correctamente configurado
-
Minimice el ruido de fondo durante la grabacion
Los ajustes no se guardan
-
Espere a que aparezca el indicador “Saved”
-
No cambie de pantalla mientras se guarda
-
Reinicie la aplicacion si los problemas persisten
-
Asegurese de tener una conexion a internet estable
Sus claves API se almacenan de forma segura en el llavero cifrado de su dispositivo y nunca se transmiten a los servidores de Hedy. Para maxima privacidad en conversaciones confidenciales, siempre use Local Speech Recognition.