Proveedores de reconocimiento de voz en Hedy
¿Que son los proveedores de reconocimiento de voz?
Hedy admite multiples opciones de reconocimiento de voz, dandole flexibilidad para elegir entre privacidad completa con procesamiento local o alternativas basadas en la nube. Puede cambiar de proveedor en cualquier momento segun sus necesidades actuales: use el local para sesiones sin conexion y servicios en la nube cuando prefiera sus funcionalidades especificas.
Primeros pasos
-
Abra la aplicacion Hedy
-
Navegue a Settings (toque su icono de perfil)
-
Desplacese hasta “Speech Recognition Options”
-
Seleccione su proveedor preferido del menu desplegable
-
Configure los ajustes especificos del proveedor si es necesario
-
Su seleccion entrara en vigor en la siguiente sesion de grabacion
Proveedores disponibles
Hedy ofrece cuatro opciones de reconocimiento de voz, cada una con caracteristicas unicas:
-
Local Speech Recognition (Whisper): Opcion predeterminada - 100% privada, funciona sin conexion, sin costos de uso. Su audio nunca sale de su dispositivo. Disponible en todas las plataformas compatibles con Hedy.
-
Local Speech Recognition (Parakeet) [Beta]: Un motor más reciente que funciona totalmente en el dispositivo, utilizando el Neural Engine. Optimizado para inglés y los principales idiomas europeos, con transcripciones más rápidas y menor latencia. Disponible en Mac con Apple Silicon, así como en iPhone 12 (o más reciente) e iPad Air 4 (o más reciente) con iOS 17 o posterior. Requiere una descarga única del modelo de aproximadamente 2,5 GB.
-
Deepgram: Servicio basado en la nube con transmision en tiempo real y funcionalidades de formato inteligente. Usa Nova-3, que admite docenas de idiomas. Hedy expone todos los idiomas que Nova-3 ofrece, para que pueda transcribir reuniones en cualquier idioma compatible sin cambiar de proveedor. Requiere su propia clave API.
-
OpenAI: Transcripcion en la nube con Voice Activity Detection y deteccion automatica de idioma. Hedy continua automaticamente las sesiones largas superado el limite de 60 minutos por conexion de OpenAI, rotando conexiones en segundo plano para que las reuniones de mas de una hora continuen sin interrupciones. Requiere su propia clave API.
Configurar Local Speech Recognition (Whisper)
Al usar Whisper, puede optimizar la configuración para su dispositivo y necesidades:
Para usuarios de macOS:
-
Small Model: Procesamiento mas rapido, recomendado para Mac con Intel
-
Regular Model: Velocidad y precision equilibradas para la mayoria de los usuarios
-
Large Model: Capacidades mejoradas para idiomas distintos al ingles (requiere descarga de 1.5GB)
Para usuarios de iOS/Android:
-
Standard Model: Opcion predeterminada adecuada para la mayoria de los dispositivos
-
Large Model: Opcion de modelo alternativo (se recomienda iPhone 12+ o Android 2024+)
Voice Activity Detection (VAD):
VAD filtra automaticamente el silencio y el ruido de fondo para mejorar la calidad de la transcripcion. Esta funcionalidad esta habilitada de forma predeterminada para Whisper.
-
Activar/Desactivar: Active o desactive VAD segun su entorno de grabacion
-
Sensibilidad: Ajuste desde “High Sensitivity” (captura mas habla, incluyendo sonidos mas suaves) hasta “Maximum Filtering” (solo captura habla clara, filtra mas ruido de fondo)
Configuracion de velocidad de transcripcion:
-
Slower: Espera oraciones completas antes de mostrarlas
-
Normal: Velocidad y tiempo de visualizacion equilibrados
-
Faster: Visualizacion casi en tiempo real con actualizaciones mas frecuentes
Configurar Local Speech Recognition (Parakeet)
Parakeet está actualmente en fase Beta. La transcripción se realiza totalmente en el dispositivo a través del Neural Engine de su iPhone, iPad o Mac, ofreciendo en los idiomas compatibles una transcripción más rápida y con menor latencia que Whisper.
Requisitos del dispositivo:
-
Mac con Apple Silicon (M1 o más reciente), o
-
iPhone 12 o más reciente, o iPad Air 4 o más reciente, con iOS 17 o posterior
Configuración inicial:
-
Seleccione Local Speech Recognition (Parakeet) en el menú desplegable de proveedores
-
Toque Download Parakeet Model (~2.5 GB) — se recomienda Wi-Fi
-
Una vez finalizada la descarga, Parakeet se utilizará automáticamente en su próxima sesión
Compatibilidad de idiomas:
Parakeet funciona mejor con inglés y los principales idiomas europeos. Ocasionalmente puede identificar erróneamente idiomas similares. Si las transcripciones aparecen en el idioma equivocado, vuelva a Whisper para esa sesión.
Recuperación automática:
Si Parakeet no puede iniciar una sesión en su dispositivo (por ejemplo, después de una actualización del sistema operativo que cambie el formato del modelo en el dispositivo), Hedy cambia automáticamente a Whisper durante esa sesión y le ofrece un aviso de un solo toque para descargar el nuevo modelo de Parakeet desde los ajustes. Su sesión no se pierde.
Configurar proveedores en la nube
Configuracion de Deepgram:
-
Cree una cuenta en console.deepgram.com
-
Genere una clave API desde su panel de control
-
En Hedy Settings, seleccione Deepgram del menu desplegable
-
Pegue su clave API y toque “Test” para verificar
-
Elija sus preferencias de modelo e idioma
-
Establezca la duracion maxima de sesion para controlar costos
Configuracion de OpenAI:
-
Obtenga su clave API en platform.openai.com/api-keys
-
En Hedy Settings, seleccione OpenAI del menu desplegable
-
Ingrese su clave API y pruebe la conexion
-
Elija su modelo preferido
-
Opcionalmente active Voice Activity Detection con sensibilidad ajustable
-
Establezca la duracion maxima de sesion para controlar costos
Elegir el proveedor adecuado
Seleccione segun sus prioridades y caso de uso:
-
Privacidad primero: Use cualquier motor local (Whisper o Parakeet) - el audio nunca sale de su dispositivo
-
Uso sin conexion: Ambos motores locales funcionan sin internet
-
Funcionalidades en la nube: Deepgram y OpenAI ofrecen procesamiento basado en la nube
-
Deteccion de voz: Whisper y OpenAI incluyen funcionalidades de Voice Activity Detection
-
Formato inteligente: Deepgram ofrece opciones de formato automatico
-
Sin costos de uso: Los motores locales (Whisper, Parakeet) no tienen cargos por minuto
-
Transcripción más rápida en el dispositivo: En Mac con Apple Silicon, iPhones y iPads compatibles, Parakeet (Beta) ofrece habitualmente una transcripción con menor latencia que Whisper para inglés y los principales idiomas europeos
-
Máxima cobertura de idiomas en el dispositivo: Para idiomas no europeos en el dispositivo, prefiera Whisper Large
-
Análisis completamente privado: En macOS (Apple Silicon) o Windows, puede combinar el reconocimiento de voz local con el Procesamiento de IA local para mantener tanto la transcripción como el análisis de IA completamente en el dispositivo.
Consideraciones de costo
Entienda las implicaciones de costo de cada proveedor:
-
Local Speech Recognition (Whisper): Gratuito - sin cargos de uso
-
Local Speech Recognition (Parakeet): Gratuito - sin cargos de uso (descarga única del modelo de aproximadamente 2,5 GB)
-
Deepgram: Precio por minuto (consulte las tarifas actuales en su panel de control)
-
OpenAI: Precio basado en uso (consulte las tarifas actuales en su plataforma)
La configuracion de duracion maxima de sesion ayuda a prevenir grabaciones nocturnas accidentales y gestionar los costos de API.
Mejores practicas
-
Comience con Local Speech Recognition (Whisper) para familiarizarse con la funcionalidad y después pruebe Parakeet si su dispositivo es compatible
-
Pruebe los proveedores en la nube con grabaciones cortas antes de sesiones importantes
-
Monitoree su uso de API en los paneles de control de los proveedores para rastrear costos
-
Use diferentes proveedores para diferentes escenarios segun sus necesidades
-
Cambie a local cuando viaje o en areas con internet limitado
-
Establezca duraciones maximas de sesion apropiadas (60-120 minutos para reuniones tipicas)
Solucion de problemas
La clave API no funciona
-
Asegurese de haber copiado la clave completa sin espacios
-
Verifique que su cuenta tenga creditos disponibles
-
Compruebe que la clave API tenga los permisos necesarios
-
Intente regenerar la clave desde el panel de control del proveedor
La prueba de conexion fallo
-
Verifique la estabilidad de su conexion a internet
-
Confirme que el firewall no este bloqueando conexiones WebSocket
-
Asegurese de que la clave API este activa con cuota suficiente
-
Espere un momento e intente de nuevo (problemas temporales del servicio)
Problemas de transcripcion
-
Para Whisper: Pruebe un tamano de modelo diferente
-
Para Parakeet: Si las transcripciones aparecen en el idioma equivocado en una sesión multilingüe, cambie a Whisper para esa sesión
-
Para Cloud: Verifique la estabilidad de la conexion a internet
-
Asegurese de que el microfono este correctamente configurado
-
Minimice el ruido de fondo durante la grabacion
Los ajustes no se guardan
-
Espere a que aparezca el indicador “Saved”
-
No cambie de pantalla mientras se guarda
-
Reinicie la aplicacion si los problemas persisten
-
Asegurese de tener una conexion a internet estable
Sus claves API se almacenan de forma segura en el llavero cifrado de su dispositivo y nunca se transmiten a los servidores de Hedy. Para máxima privacidad en conversaciones confidenciales, utilice siempre un motor local (Whisper o Parakeet).