Pular para o conteúdo

Provedores de Reconhecimento de Fala no Hedy

O que são Provedores de Reconhecimento de Fala?

O Hedy suporta múltiplas opções de reconhecimento de fala, oferecendo flexibilidade para escolher entre privacidade completa com processamento local ou alternativas baseadas na nuvem. Você pode alternar entre provedores a qualquer momento conforme suas necessidades atuais - use o local para sessões offline e serviços na nuvem quando preferir seus recursos específicos.

Primeiros Passos

  1. Abra o aplicativo Hedy

  2. Navegue até Settings (toque no ícone do seu perfil)

  3. Role até “Speech Recognition Options”

  4. Selecione seu provedor preferido no menu suspenso

  5. Configure as configurações específicas do provedor, se necessário

  6. Sua seleção entra em vigor na próxima sessão de gravação

Provedores Disponíveis

O Hedy oferece três opções de reconhecimento de fala, cada uma com características únicas:

  • Local Speech Recognition: Opção padrão - 100% privado, funciona offline, sem custos de uso. Seu áudio nunca sai do dispositivo.

  • Deepgram: Serviço baseado na nuvem com streaming em tempo real e recursos de formatação inteligente. Usa o Nova-3, que suporta dezenas de idiomas. O Hedy expõe todos os idiomas que o Nova-3 oferece, permitindo que você transcreva reuniões em qualquer idioma suportado sem precisar trocar de provedor. Requer sua própria chave de API.

  • OpenAI: Transcrição na nuvem com Voice Activity Detection e detecção automática de idioma. O Hedy continua automaticamente sessões longas além do limite de 60 minutos por conexão do OpenAI, rotacionando conexões em segundo plano para que reuniões de mais de uma hora continuem sem interrupção. Requer sua própria chave de API.

Configurando o Reconhecimento de Fala Local

Ao usar o Local Speech Recognition, você pode otimizar para seu dispositivo e necessidades:

Para Usuários macOS:

  • Small Model: Processamento mais rápido, recomendado para Macs com Intel

  • Regular Model: Equilíbrio entre velocidade e precisão para a maioria dos usuários

  • Large Model: Capacidades aprimoradas para idiomas que não são inglês (requer download de 1,5GB)

Para Usuários iOS/Android:

  • Standard Model: Opção padrão adequada para a maioria dos dispositivos

  • Large Model: Opção de modelo alternativo (recomendado iPhone 12+ ou Android 2024+)

Voice Activity Detection (VAD):

O VAD filtra automaticamente silêncio e ruído de fundo para melhorar a qualidade da transcrição. Este recurso é ativado por padrão para o Local Speech Recognition.

  • Ativar/Desativar: Alterne o VAD ligado ou desligado com base no seu ambiente de gravação

  • Sensibilidade: Ajuste de “High Sensitivity” (captura mais fala, incluindo sons mais baixos) até “Maximum Filtering” (captura apenas fala clara, filtra mais ruído de fundo)

Configurações de Velocidade da Transcrição:

  • Slower: Aguarda frases completas antes de exibir

  • Normal: Equilíbrio entre velocidade e tempo de exibição

  • Faster: Exibição quase em tempo real com atualizações mais frequentes

Configurando Provedores na Nuvem

Configuração do Deepgram:

  1. Crie uma conta em console.deepgram.com

  2. Gere uma chave de API no seu painel

  3. Em Hedy Settings, selecione Deepgram no menu suspenso

  4. Cole sua chave de API e toque em “Test” para verificar

  5. Escolha suas preferências de modelo e idioma

  6. Defina a duração máxima da sessão para controlar custos

Configuração do OpenAI:

  1. Obtenha sua chave de API em platform.openai.com/api-keys

  2. Em Hedy Settings, selecione OpenAI no menu suspenso

  3. Insira sua chave de API e teste a conexão

  4. Escolha seu modelo preferido

  5. Opcionalmente, ative o Voice Activity Detection com sensibilidade ajustável

  6. Defina a duração máxima da sessão para controle de custos

Escolhendo o Provedor Certo

Selecione com base em suas prioridades e caso de uso:

  • Privacidade em Primeiro Lugar: Use o Local Speech Recognition - o áudio nunca sai do seu dispositivo

  • Uso Offline: O Local Speech Recognition funciona sem internet

  • Recursos na Nuvem: Deepgram e OpenAI oferecem processamento baseado na nuvem

  • Detecção de Voz: Tanto o Local quanto o OpenAI incluem recursos de Voice Activity Detection

  • Formatação Inteligente: O Deepgram oferece opções de formatação automática

  • Sem Custos de Uso: O Local Speech Recognition não tem cobranças por minuto

  • Análise Totalmente Privada no Mac: Se você estiver em um Mac com Apple Silicon, pode combinar o reconhecimento de fala local com o Processamento de IA Local para manter a transcrição e a análise de IA inteiramente no dispositivo.

Considerações de Custo

Entendendo as implicações de custo de cada provedor:

  • Local Speech Recognition: Gratuito - sem cobranças de uso

  • Deepgram: Preço por minuto (verifique as taxas atuais no painel deles)

  • OpenAI: Preço baseado em uso (verifique as taxas atuais na plataforma deles)

A configuração de duração máxima da sessão ajuda a prevenir gravações acidentais durante a noite e a gerenciar custos de API.

Boas Práticas

  • Comece com o Local Speech Recognition para se familiarizar com o recurso

  • Teste provedores na nuvem com gravações curtas antes de sessões importantes

  • Monitore seu uso de API nos painéis dos provedores para acompanhar custos

  • Use diferentes provedores para diferentes cenários com base em suas necessidades

  • Mude para local quando estiver viajando ou em áreas com internet limitada

  • Defina durações máximas de sessão apropriadas (60-120 minutos para reuniões típicas)

Solução de Problemas

Chave de API Não Funciona

  • Certifique-se de que copiou a chave completa sem espaços

  • Verifique se sua conta tem créditos disponíveis

  • Confirme que a chave de API tem as permissões necessárias

  • Tente regenerar a chave no painel do provedor

Teste de Conexão Falhou

  • Verifique a estabilidade da sua conexão com a internet

  • Confirme que o firewall não está bloqueando conexões WebSocket

  • Certifique-se de que a chave de API está ativa com cota suficiente

  • Aguarde um momento e tente novamente (problemas temporários do serviço)

Problemas de Transcrição

  • Para Local: Tente um tamanho de modelo diferente

  • Para Nuvem: Verifique a estabilidade da conexão com a internet

  • Certifique-se de que o microfone está configurado corretamente

  • Minimize o ruído de fundo durante a gravação

Configurações Não Salvam

  • Aguarde o indicador “Saved” aparecer

  • Não troque de tela enquanto estiver salvando

  • Reinicie o aplicativo se os problemas persistirem

  • Certifique-se de ter uma conexão estável com a internet

Suas chaves de API são armazenadas com segurança no keychain criptografado do seu dispositivo e nunca são transmitidas para os servidores do Hedy. Para máxima privacidade em conversas sensíveis, sempre use o Local Speech Recognition.