Pular para o conteúdo

Provedores de Reconhecimento de Fala no Hedy

O que são Provedores de Reconhecimento de Fala?

O Hedy suporta múltiplas opções de reconhecimento de fala, oferecendo flexibilidade para escolher entre privacidade completa com processamento local ou alternativas baseadas na nuvem. Você pode alternar entre provedores a qualquer momento conforme suas necessidades atuais - use o local para sessões offline e serviços na nuvem quando preferir seus recursos específicos.

Primeiros Passos

  1. Abra o aplicativo Hedy

  2. Navegue até Settings (toque no ícone do seu perfil)

  3. Role até “Speech Recognition Options”

  4. Selecione seu provedor preferido no menu suspenso

  5. Configure as configurações específicas do provedor, se necessário

  6. Sua seleção entra em vigor na próxima sessão de gravação

Provedores Disponíveis

O Hedy oferece quatro opções de reconhecimento de fala, cada uma com características únicas:

  • Local Speech Recognition (Whisper): Opção padrão - 100% privado, funciona offline, sem custos de uso. Seu áudio nunca sai do dispositivo. Disponível em todas as plataformas em que o Hedy funciona.

  • Local Speech Recognition (Parakeet) [Beta]: Um motor mais recente que roda totalmente no dispositivo, usando a Neural Engine. Otimizado para inglês e os principais idiomas europeus, com transcrições mais rápidas e menor latência. Disponível em Macs com Apple Silicon e em iPhone 12 (ou mais recente) e iPad Air 4 (ou mais recente) com iOS 17 ou superior. Requer um download único do modelo de aproximadamente 2,5 GB.

  • Deepgram: Serviço baseado na nuvem com streaming em tempo real e recursos de formatação inteligente. Usa o Nova-3, que suporta dezenas de idiomas. O Hedy expõe todos os idiomas que o Nova-3 oferece, permitindo que você transcreva reuniões em qualquer idioma suportado sem precisar trocar de provedor. Requer sua própria chave de API.

  • OpenAI: Transcrição na nuvem com Voice Activity Detection e detecção automática de idioma. O Hedy continua automaticamente sessões longas além do limite de 60 minutos por conexão do OpenAI, rotacionando conexões em segundo plano para que reuniões de mais de uma hora continuem sem interrupção. Requer sua própria chave de API.

Configurando o Local Speech Recognition (Whisper)

Ao usar o Whisper, você pode otimizar as configurações para seu dispositivo e necessidades:

Para Usuários macOS:

  • Small Model: Processamento mais rápido, recomendado para Macs com Intel

  • Regular Model: Equilíbrio entre velocidade e precisão para a maioria dos usuários

  • Large Model: Capacidades aprimoradas para idiomas que não são inglês (requer download de 1,5GB)

Para Usuários iOS/Android:

  • Standard Model: Opção padrão adequada para a maioria dos dispositivos

  • Large Model: Opção de modelo alternativo (recomendado iPhone 12+ ou Android 2024+)

Voice Activity Detection (VAD):

O VAD filtra automaticamente silêncio e ruído de fundo para melhorar a qualidade da transcrição. Este recurso é ativado por padrão para o Whisper.

  • Ativar/Desativar: Alterne o VAD ligado ou desligado com base no seu ambiente de gravação

  • Sensibilidade: Ajuste de “High Sensitivity” (captura mais fala, incluindo sons mais baixos) até “Maximum Filtering” (captura apenas fala clara, filtra mais ruído de fundo)

Configurações de Velocidade da Transcrição:

  • Slower: Aguarda frases completas antes de exibir

  • Normal: Equilíbrio entre velocidade e tempo de exibição

  • Faster: Exibição quase em tempo real com atualizações mais frequentes

Configurando o Local Speech Recognition (Parakeet)

O Parakeet está atualmente em Beta. A transcrição é feita inteiramente no dispositivo usando a Neural Engine do seu iPhone, iPad ou Mac, oferecendo, para os idiomas suportados, uma transcrição mais rápida e com menor latência do que o Whisper.

Requisitos do dispositivo:

  • Mac com Apple Silicon (M1 ou mais recente), ou

  • iPhone 12 ou mais recente, ou iPad Air 4 ou mais recente, com iOS 17 ou superior

Configuração inicial:

  1. Selecione Local Speech Recognition (Parakeet) no menu suspenso de provedores

  2. Toque em Download Parakeet Model (~2.5 GB) — Wi-Fi recomendado

  3. Assim que o download terminar, o Parakeet passa a ser usado automaticamente na sua próxima sessão

Suporte a idiomas:

O Parakeet funciona melhor para inglês e os principais idiomas europeus. Em alguns casos, pode identificar incorretamente idiomas semelhantes. Se as transcrições aparecerem no idioma errado, volte para o Whisper nessa sessão.

Fallback automático:

Se o Parakeet não conseguir iniciar uma sessão no seu dispositivo (por exemplo, após uma atualização do sistema operacional alterar o formato do modelo no dispositivo), o Hedy alterna automaticamente para o Whisper nessa sessão e oferece um aviso de um toque para baixar o novo modelo do Parakeet em Configurações. Você não perde a sessão.

Configurando Provedores na Nuvem

Configuração do Deepgram:

  1. Crie uma conta em console.deepgram.com

  2. Gere uma chave de API no seu painel

  3. Em Hedy Settings, selecione Deepgram no menu suspenso

  4. Cole sua chave de API e toque em “Test” para verificar

  5. Escolha suas preferências de modelo e idioma

  6. Defina a duração máxima da sessão para controlar custos

Configuração do OpenAI:

  1. Obtenha sua chave de API em platform.openai.com/api-keys

  2. Em Hedy Settings, selecione OpenAI no menu suspenso

  3. Insira sua chave de API e teste a conexão

  4. Escolha seu modelo preferido

  5. Opcionalmente, ative o Voice Activity Detection com sensibilidade ajustável

  6. Defina a duração máxima da sessão para controle de custos

Escolhendo o Provedor Certo

Selecione com base em suas prioridades e caso de uso:

  • Privacidade em Primeiro Lugar: Use qualquer motor local (Whisper ou Parakeet) - o áudio nunca sai do seu dispositivo

  • Uso Offline: Ambos os motores locais funcionam sem internet

  • Recursos na Nuvem: Deepgram e OpenAI oferecem processamento baseado na nuvem

  • Detecção de Voz: Whisper e OpenAI incluem recursos de Voice Activity Detection

  • Formatação Inteligente: O Deepgram oferece opções de formatação automática

  • Sem Custos de Uso: Os motores locais (Whisper, Parakeet) não têm cobranças por minuto

  • Transcrição no dispositivo mais rápida: Em Macs com Apple Silicon, iPhones e iPads compatíveis, o Parakeet (Beta) normalmente entrega uma transcrição com menor latência do que o Whisper para inglês e os principais idiomas europeus

  • Cobertura máxima de idiomas no dispositivo: Para idiomas não europeus no dispositivo, prefira o Whisper Large

  • Análise Totalmente Privada: No macOS (Apple Silicon) ou no Windows, você pode combinar o reconhecimento de fala local com o Processamento de IA Local para manter a transcrição e a análise de IA inteiramente no dispositivo.

Considerações de Custo

Entendendo as implicações de custo de cada provedor:

  • Local Speech Recognition (Whisper): Gratuito - sem cobranças de uso

  • Local Speech Recognition (Parakeet): Gratuito - sem cobranças de uso (download único do modelo de aproximadamente 2,5 GB)

  • Deepgram: Preço por minuto (verifique as taxas atuais no painel deles)

  • OpenAI: Preço baseado em uso (verifique as taxas atuais na plataforma deles)

A configuração de duração máxima da sessão ajuda a prevenir gravações acidentais durante a noite e a gerenciar custos de API.

Boas Práticas

  • Comece com o Local Speech Recognition (Whisper) para se familiarizar com o recurso e, em seguida, experimente o Parakeet se o seu dispositivo for compatível

  • Teste provedores na nuvem com gravações curtas antes de sessões importantes

  • Monitore seu uso de API nos painéis dos provedores para acompanhar custos

  • Use diferentes provedores para diferentes cenários com base em suas necessidades

  • Mude para local quando estiver viajando ou em áreas com internet limitada

  • Defina durações máximas de sessão apropriadas (60-120 minutos para reuniões típicas)

Solução de Problemas

Chave de API Não Funciona

  • Certifique-se de que copiou a chave completa sem espaços

  • Verifique se sua conta tem créditos disponíveis

  • Confirme que a chave de API tem as permissões necessárias

  • Tente regenerar a chave no painel do provedor

Teste de Conexão Falhou

  • Verifique a estabilidade da sua conexão com a internet

  • Confirme que o firewall não está bloqueando conexões WebSocket

  • Certifique-se de que a chave de API está ativa com cota suficiente

  • Aguarde um momento e tente novamente (problemas temporários do serviço)

Problemas de Transcrição

  • Para Whisper: Tente um tamanho de modelo diferente

  • Para Parakeet: Se as transcrições aparecerem no idioma errado em uma sessão multilíngue, volte para o Whisper nessa sessão

  • Para Nuvem: Verifique a estabilidade da conexão com a internet

  • Certifique-se de que o microfone está configurado corretamente

  • Minimize o ruído de fundo durante a gravação

Configurações Não Salvam

  • Aguarde o indicador “Saved” aparecer

  • Não troque de tela enquanto estiver salvando

  • Reinicie o aplicativo se os problemas persistirem

  • Certifique-se de ter uma conexão estável com a internet

Suas chaves de API são armazenadas com segurança no keychain criptografado do seu dispositivo e nunca são transmitidas para os servidores do Hedy. Para máxima privacidade em conversas sensíveis, sempre use um motor local (Whisper ou Parakeet).