Corrigir Baixa Qualidade de Transcrição
Se as transcrições do Hedy estão cheias de erros — palavras perdidas, nomes próprios errados, frases embaralhadas — a causa raramente é o próprio modelo de IA. Quase sempre é uma destas: ambiente de captura de áudio ruim, microfone errado, configuração de idioma errada ou um provedor que não combina com seu caso de uso. Veja como diagnosticar e corrigir cada uma, em ordem do que mais costuma causar o problema.
Primeiro, Confirme o Básico
Antes de mudar qualquer coisa, verifique isto:
-
O Meeting/Class Language está definido para o idioma que você realmente está falando? Settings > Profile > Language Preferences. O provedor padrão de reconhecimento de fala (Whisper) não detecta o idioma automaticamente — ele transcreve assumindo o idioma que você configurou. Se eles não baterem, todas as palavras sairão erradas. Veja A Transcrição Saiu no Idioma Errado.
-
O microfone certo está selecionado? Settings > Sessions > Microphone Settings. Se você escolheu por engano um fone Bluetooth desconectado ou um microfone USB desconectado, o Hedy está gravando silêncio e a transcrição será inutilizável.
A maioria das reclamações de “baixa qualidade” vem de uma dessas duas configurações, não de algo técnico.
Melhore o Ambiente de Áudio
O Hedy não aplica supressão de ruído, controle automático de ganho ou cancelamento de eco do lado do cliente. O áudio que entra na transcrição é essencialmente o que seu microfone capta. Áudio mais limpo entra = transcrição mais limpa sai.
-
Aproxime o microfone das pessoas falando. Para reuniões presenciais, um celular no meio de uma mesa pequena funciona para 4 a 5 pessoas. Para uma sala grande, 8+ pessoas ou ambientes barulhentos, use vários dispositivos ou um microfone de conferência dedicado.
-
Reduza ruído de fundo. Ventiladores, ar-condicionado, eletrodomésticos, trânsito e outras pessoas falando ao fundo degradam a precisão. Feche portas e janelas. Desligue o ventilador se possível.
-
Evite gravar alto-falantes de laptop reproduzidos por alto-falantes de laptop. Se você está tentando capturar uma reunião que está tocando nos alto-falantes do laptop (por exemplo, um vídeo no YouTube), use os recursos de captura de áudio do sistema. Veja O Hedy Não Está Capturando Outros Participantes em Reuniões Virtuais.
-
Não falem por cima uns dos outros. Fala sobreposta é o caso mais difícil para qualquer reconhecimento de fala. A diarização do Hedy tenta separar os falantes, mas, se várias pessoas falam ao mesmo tempo, a precisão cai drasticamente.
Escolha o Provedor de Reconhecimento de Fala Certo
O Hedy suporta quatro provedores de reconhecimento de fala — dois locais e dois na nuvem. Você pode vê-los e alterá-los em Settings > Speech & AI > Speech Recognition Options.
| Provedor | Tipo | Melhor para | Trade-off |
|---|---|---|---|
| Local Speech Recognition (Whisper) — padrão | Local | Uso sensível à privacidade, trabalho offline, amplo suporte a idiomas | Mais lento que a nuvem em gráficos integrados; usa o idioma de reunião configurado (sem detecção automática) |
| Local Speech Recognition (Parakeet) [Beta] | Local (Macs com Apple Silicon e modelos compatíveis de iPhone/iPad) | Transcrição em tempo real mais rápida para inglês e principais idiomas europeus | Beta; lista de idiomas menor que a do Whisper; pode identificar incorretamente idiomas semelhantes |
| Deepgram (requer sua própria chave de API) | Nuvem | Precisão na nuvem, detecção automática multilíngue, reuniões grandes | Requer conta e chave de API da Deepgram; não é local |
| OpenAI (requer sua própria chave de API) | Nuvem | Precisão na nuvem, detecção automática de idioma | Requer conta e chave de API da OpenAI; não é local |
Se você está usando o provedor padrão Whisper e a precisão não é boa o suficiente, tente o seguinte em ordem, dependendo da sua situação:
-
Em Macs com Apple Silicon ou modelos compatíveis de iPhone/iPad, para inglês ou principais idiomas europeus: experimente Parakeet. Ele roda na Neural Engine da Apple e costuma ser mais rápido e preciso que o Whisper para transcrição em inglês em tempo real. Ainda está em beta — fique atento a identificação incorreta de “idiomas semelhantes” (por exemplo, alemão vs. holandês).
-
Para reuniões multilíngues, fala com sotaque ou ambientes barulhentos: experimente Deepgram (detecção automática multilíngue) ou OpenAI (detecção automática). Ambos exigem que você traga sua própria chave de API, mas normalmente superam modelos locais em áudio difícil.
-
Se você precisa ficar offline ou totalmente privado e o Whisper está lento no seu hardware: veja Corrigir Transcrição Lenta no Windows (Configurações de GPU) para a correção específica de aceleração por GPU no Windows, ou mude para Parakeet se estiver em Apple Silicon.
Use Custom Vocabulary para Nomes Próprios
Se o Hedy transcreve incorretamente nomes, termos técnicos, nomes de produtos ou jargão do setor, adicione-os ao Custom Vocabulary.
-
Abra Settings no Hedy
-
Vá para Personalization > Custom Vocabulary > Manage Vocabulary Terms
-
Insira cada termo em “Enter a custom term…” e toque em Add
-
Certifique-se de que Enable Custom Vocabulary está ativado
O Custom Vocabulary alimenta diretamente a transcrição Whisper local como um prompt, ajudando-o a reconhecer e escrever corretamente termos específicos do domínio. Ele também ajuda a etapa de limpeza da transcrição (que roda em todos os provedores, incluindo Parakeet, Deepgram e OpenAI) a detectar e corrigir erros.
Nota: O Custom Vocabulary tem seu efeito direto mais forte quando você está usando STT local com Whisper. Para Parakeet, Deepgram e OpenAI, a etapa de limpeza ainda se beneficia da sua lista de vocabulário, mas o reconhecedor de fala em si não a recebe como prompt.
Para um guia mais longo sobre como montar uma boa lista de vocabulário, veja Guia de Custom Vocabulary.
Corrija Problemas de Hardware do Microfone
Se a qualidade de áudio degrada no meio da sessão ou apenas alguns falantes aparecem, o hardware é suspeito:
-
Fones Bluetooth costumam degradar quando a bateria cai ou quando a distância aumenta. Veja AirPods e Fones Bluetooth Cortando.
-
Microfones USB podem sofrer com problemas de cabo — tente outra porta USB ou outro cabo
-
Microfones integrados de laptop são bons para uma ou duas pessoas sentadas perto do teclado. Não são ótimos para salas de conferência.
-
Celulares dentro de capas ou sob tecido podem soar abafados
Um teste rápido: grave um memorando de voz curto com o mesmo microfone no Voice Memos / Gravador / um app simples semelhante. Se essa gravação soa ruim, o problema é o microfone — não o Hedy.
Formato de Áudio Que o Hedy Usa
Para referência, o Hedy captura áudio em 16 kHz, mono, PCM de 16 bits — o padrão para reconhecimento de fala. Esse formato vai diretamente para o Whisper local e o Deepgram. Para OpenAI Realtime, o Hedy reamostra para 24 kHz antes de enviar (o formato exigido pela OpenAI). Todos eles são bons para fala, mas com perdas para música ou áudio de alta fidelidade. Não espere ótimos resultados tentando transcrever músicas.
Quando Escalar
Se você verificou tudo acima e a precisão ainda está ruim:
-
Anote o tipo específico de erro (palavras erradas, trechos ausentes, atribuição errada de falante, texto completamente inutilizável)
-
Capture uma amostra de 30 segundos em que o erro acontece
-
Entre em contato pelo widget de chat com a amostra e sua configuração de provedor/idioma
Normalmente conseguimos identificar se é um problema de ambiente, configuração ou provedor.
Artigos Relacionados
Ainda está tendo problemas? Entre em contato pelo widget de chat com seu provedor, sua configuração de Meeting/Class Language, o modelo do dispositivo e uma amostra em que o problema aparece.