Provedores de Reconhecimento de Fala no Hedy

O que são Provedores de Reconhecimento de Fala?

O Hedy suporta múltiplas opções de reconhecimento de fala, oferecendo flexibilidade para escolher entre privacidade completa com processamento local ou alternativas baseadas na nuvem. Você pode alternar entre provedores a qualquer momento conforme suas necessidades atuais - use o local para sessões offline e serviços na nuvem quando preferir seus recursos específicos.

Primeiros Passos

Abra o aplicativo Hedy
Navegue até Settings (toque no ícone do seu perfil)
Role até “Speech Recognition Options”
Selecione seu provedor preferido no menu suspenso
Configure as configurações específicas do provedor, se necessário
Sua seleção entra em vigor na próxima sessão

Provedores Disponíveis

O Hedy oferece quatro opções de reconhecimento de fala, cada uma com características únicas:

Local Speech Recognition (Whisper): Opção padrão - 100% privado, funciona offline, sem custos de uso. Seu áudio nunca sai do dispositivo. Disponível em todas as plataformas em que o Hedy funciona.
Local Speech Recognition (Nemotron) [Beta]: Um motor de streaming no dispositivo mais recente, com transcrições ao vivo e rótulos de falantes no dispositivo. Você escolhe entre um modo apenas em inglês (a opção mais rápida) e um modo multilíngue que cobre um amplo conjunto de idiomas principais. Disponível em todas as plataformas para as quais o Hedy oferece um app nativo: Macs com Apple Silicon, iPhone 12 (ou mais recente), iPad Air 4 (ou mais recente), Windows e Android. Em hardware Apple, ele roda na Neural Engine e rotula os falantes ao vivo; no Windows e no Android, os rótulos são adicionados ao final da sessão. Requer um download único do modelo (cerca de 0,6 GB para apenas inglês, 0,7 GB para multilíngue).
Deepgram: Serviço baseado na nuvem com streaming em tempo real e recursos de formatação inteligente. Usa o Nova-3, que suporta dezenas de idiomas. O Hedy expõe todos os idiomas que o Nova-3 oferece, permitindo que você transcreva reuniões em qualquer idioma suportado sem precisar trocar de provedor. Requer sua própria chave de API.
OpenAI: Transcrição na nuvem com Voice Activity Detection e detecção automática de idioma. O Hedy continua automaticamente sessões longas além do limite de 60 minutos por conexão do OpenAI, rotacionando conexões em segundo plano para que reuniões de mais de uma hora continuem sem interrupção. Requer sua própria chave de API.

Configurando o Local Speech Recognition (Whisper)

Ao usar o Whisper, você pode otimizar as configurações para seu dispositivo e necessidades:

Para Usuários macOS:

Small Model: Processamento mais rápido, recomendado para Macs com Intel
Regular Model: Equilíbrio entre velocidade e precisão para a maioria dos usuários
Large Model: Capacidades aprimoradas para idiomas que não são inglês (requer download de 1,5GB)

Para Usuários iOS/Android:

Standard Model: Opção padrão adequada para a maioria dos dispositivos
Large Model: Opção de modelo alternativo (recomendado iPhone 12+ ou Android 2024+)

Voice Activity Detection (VAD):

O VAD filtra automaticamente silêncio e ruído de fundo para melhorar a qualidade da transcrição. Este recurso é ativado por padrão para o Whisper.

Ativar/Desativar: Alterne o VAD ligado ou desligado com base no seu ambiente de gravação
Sensibilidade: Ajuste de “High Sensitivity” (captura mais fala, incluindo sons mais baixos) até “Maximum Filtering” (captura apenas fala clara, filtra mais ruído de fundo)

Configurações de Velocidade da Transcrição:

Slower: Aguarda frases completas antes de exibir
Normal: Equilíbrio entre velocidade e tempo de exibição
Faster: Exibição quase em tempo real com atualizações mais frequentes

Configurando o Local Speech Recognition (Nemotron)

O Nemotron está atualmente em Beta. Ele transcreve inteiramente no dispositivo e mostra transcrições ao vivo enquanto você fala. Está disponível em todas as plataformas para as quais o Hedy oferece um app nativo: iOS, iPadOS, macOS, Windows e Android. Em hardware Apple, ele roda na Neural Engine.

Requisitos do dispositivo:

Mac com Apple Silicon (M1 ou mais recente), ou
iPhone 12 ou mais recente, ou iPad Air 4 ou mais recente

Apenas inglês ou multilíngue:

No menu suspenso de provedores, o Nemotron aparece como duas opções, para que você escolha a que combina com suas reuniões:

Local Speech Recognition (Nemotron English Only): transcrição em streaming em inglês, a opção mais rápida.
Local Speech Recognition (Nemotron Multilingual): streaming no dispositivo em um amplo conjunto de idiomas principais, para quando você precisa de mais do que inglês.

Ambos rodam totalmente no dispositivo e ambos identificam o idioma a partir do áudio, não da sua configuração de idioma da reunião.

Configuração inicial:

Selecione Local Speech Recognition (Nemotron English Only) ou (Nemotron Multilingual) no menu suspenso de provedores
Toque em Download Nemotron model (cerca de 0,6 GB para apenas inglês, 0,7 GB para multilíngue) — Wi-Fi recomendado
Assim que o download terminar, o Nemotron passa a ser usado automaticamente na sua próxima sessão

Rótulos de falantes e cache temporário de áudio:

O Nemotron rotula quem está falando, tanto ao vivo quanto após a sessão. Para tornar esses rótulos de falantes mais precisos, o Hedy mantém o áudio de cada sessão em um cache temporário no dispositivo enquanto processa e depois o exclui. Esse áudio permanece no seu dispositivo. A configuração, Cache temporário de áudio (Nemotron), fica ativada por padrão; você pode desativá-la nas configurações do Hedy, embora deixá-la ativada dê ao Nemotron a melhor atribuição de falantes.

Configurando Provedores na Nuvem

Configuração do Deepgram:

Crie uma conta em console.deepgram.com
Gere uma chave de API no seu painel
Em Hedy Settings, selecione Deepgram no menu suspenso
Cole sua chave de API e toque em “Test” para verificar
Escolha suas preferências de modelo e idioma
Defina a duração máxima da sessão para controlar custos

Configuração do OpenAI:

Obtenha sua chave de API em platform.openai.com/api-keys
Em Hedy Settings, selecione OpenAI no menu suspenso
Insira sua chave de API e teste a conexão
Escolha seu modelo preferido
Opcionalmente, ative o Voice Activity Detection com sensibilidade ajustável
Defina a duração máxima da sessão para controle de custos

Escolhendo o Provedor Certo

Selecione com base em suas prioridades e caso de uso:

Privacidade em Primeiro Lugar: Use um motor local (Whisper ou Nemotron) - o áudio nunca sai do seu dispositivo
Uso Offline: Todos os motores locais funcionam sem internet
Recursos na Nuvem: Deepgram e OpenAI oferecem processamento baseado na nuvem
Detecção de Voz: Whisper e OpenAI incluem recursos de Voice Activity Detection
Formatação Inteligente: O Deepgram oferece opções de formatação automática
Sem Custos de Uso: Os motores locais (Whisper, Nemotron) não têm cobranças por minuto
Transcrição no dispositivo mais rápida: O Nemotron (Beta) normalmente entrega uma transcrição com menor latência do que o Whisper
Streaming multilíngue no dispositivo: O Nemotron Multilingual (Beta) oferece transcrição no dispositivo em um amplo conjunto de idiomas
Cobertura máxima de idiomas no dispositivo: Para idiomas não europeus no dispositivo, prefira o Whisper Large ou o Nemotron Multilingual
Análise Totalmente Privada: No macOS (Apple Silicon) ou no Windows, você pode combinar o reconhecimento de fala local com o Processamento de IA Local para manter a transcrição e a análise de IA inteiramente no dispositivo.

Considerações de Custo

Entendendo as implicações de custo de cada provedor:

Local Speech Recognition (Whisper): Gratuito - sem cobranças de uso
Local Speech Recognition (Nemotron): Gratuito - sem cobranças de uso (download único do modelo, cerca de 0,6-0,7 GB)
Deepgram: Preço por minuto (verifique as taxas atuais no painel deles)
OpenAI: Preço baseado em uso (verifique as taxas atuais na plataforma deles)

A configuração de duração máxima da sessão ajuda a prevenir gravações acidentais durante a noite e a gerenciar custos de API.

Boas Práticas

Comece com o Local Speech Recognition (Whisper) para se familiarizar com o recurso e, em seguida, experimente o Nemotron se o seu dispositivo for compatível
Teste provedores na nuvem com gravações curtas antes de sessões importantes
Monitore seu uso de API nos painéis dos provedores para acompanhar custos
Use diferentes provedores para diferentes cenários com base em suas necessidades
Mude para local quando estiver viajando ou em áreas com internet limitada
Defina durações máximas de sessão apropriadas (60-120 minutos para reuniões típicas)

Solução de Problemas

Chave de API Não Funciona

Certifique-se de que copiou a chave completa sem espaços
Verifique se sua conta tem créditos disponíveis
Confirme que a chave de API tem as permissões necessárias
Tente regenerar a chave no painel do provedor

Teste de Conexão Falhou

Verifique a estabilidade da sua conexão com a internet
Confirme que o firewall não está bloqueando conexões WebSocket
Certifique-se de que a chave de API está ativa com cota suficiente
Aguarde um momento e tente novamente (problemas temporários do serviço)

Problemas de Transcrição

Para Whisper: Tente um tamanho de modelo diferente
Para Whisper no Windows: Se a transcrição fica muito atrás da conversa, verifique configurações de GPU para transcrição lenta
Para termos especializados, nomes e siglas: Adicione-os pelo recurso de vocabulário personalizado
Para Nemotron: Use o modo English Only para reuniões em inglês; para outros idiomas, use o modo Multilingual ou volte para o Whisper com o idioma definido explicitamente
Para Nuvem: Verifique a estabilidade da conexão com a internet
Certifique-se de que o microfone está configurado corretamente
Minimize o ruído de fundo durante a gravação

Configurações Não Salvam

Aguarde o indicador “Saved” aparecer
Não troque de tela enquanto estiver salvando
Reinicie o aplicativo se os problemas persistirem
Certifique-se de ter uma conexão estável com a internet

Suas chaves de API são armazenadas com segurança no keychain criptografado do seu dispositivo e nunca são transmitidas para os servidores do Hedy. Para máxima privacidade em conversas sensíveis, sempre use um motor local (Whisper ou Nemotron).