Corrigir Baixa Qualidade de Transcrição

Se as transcrições do Hedy estão cheias de erros — palavras perdidas, nomes próprios errados, frases embaralhadas — a causa raramente é o próprio modelo de IA. Quase sempre é uma destas: ambiente de captura de áudio ruim, microfone errado, configuração de idioma errada ou um provedor que não combina com seu caso de uso. Veja como diagnosticar e corrigir cada uma, em ordem do que mais costuma causar o problema.

Primeiro, Confirme o Básico

Antes de mudar qualquer coisa, verifique isto:

O Meeting/Class Language está definido para o idioma que você realmente está falando? Settings > Profile > Language Preferences. O provedor padrão de reconhecimento de fala (Whisper) não detecta o idioma automaticamente — ele transcreve assumindo o idioma que você configurou. Se eles não baterem, todas as palavras sairão erradas. Veja A Transcrição Saiu no Idioma Errado.
O microfone certo está selecionado? Settings > Sessions > Microphone Settings. Se você escolheu por engano um fone Bluetooth desconectado ou um microfone USB desconectado, o Hedy está gravando silêncio e a transcrição será inutilizável.

A maioria das reclamações de “baixa qualidade” vem de uma dessas duas configurações, não de algo técnico.

Melhore o Ambiente de Áudio

O Hedy não aplica supressão de ruído, controle automático de ganho ou cancelamento de eco do lado do cliente. O áudio que entra na transcrição é essencialmente o que seu microfone capta. Áudio mais limpo entra = transcrição mais limpa sai.

Aproxime o microfone das pessoas falando. Para reuniões presenciais, um celular no meio de uma mesa pequena funciona para 4 a 5 pessoas. Para uma sala grande, 8+ pessoas ou ambientes barulhentos, use vários dispositivos ou um microfone de conferência dedicado.
Reduza ruído de fundo. Ventiladores, ar-condicionado, eletrodomésticos, trânsito e outras pessoas falando ao fundo degradam a precisão. Feche portas e janelas. Desligue o ventilador se possível.
Evite gravar alto-falantes de laptop reproduzidos por alto-falantes de laptop. Se você está tentando capturar uma reunião que está tocando nos alto-falantes do laptop (por exemplo, um vídeo no YouTube), use os recursos de captura de áudio do sistema. Veja O Hedy Não Está Capturando Outros Participantes em Reuniões Virtuais.
Não falem por cima uns dos outros. Fala sobreposta é o caso mais difícil para qualquer reconhecimento de fala. A diarização do Hedy tenta separar os falantes, mas, se várias pessoas falam ao mesmo tempo, a precisão cai drasticamente.

Escolha o Provedor de Reconhecimento de Fala Certo

O Hedy suporta cinco provedores de reconhecimento de fala — três locais e dois na nuvem. Você pode vê-los e alterá-los em Settings > Speech & AI > Speech Recognition Options.

Provedor	Tipo	Melhor para	Trade-off
Local Speech Recognition (Whisper) — padrão	Local	Uso sensível à privacidade, trabalho offline, amplo suporte a idiomas	Mais lento que a nuvem em gráficos integrados; usa o idioma de reunião configurado (sem detecção automática)
Local Speech Recognition (Parakeet) [Beta]	Local (Macs com Apple Silicon e modelos compatíveis de iPhone/iPad)	Transcrição em tempo real mais rápida para inglês e principais idiomas europeus	Beta; lista de idiomas menor que a do Whisper; pode identificar incorretamente idiomas semelhantes
Local Speech Recognition (Nemotron) [Beta]	Local (Macs com Apple Silicon e modelos compatíveis de iPhone/iPad)	Transcrição em tempo real mais rápida com rótulos de falantes no dispositivo; tem um modo apenas em inglês e um modo multilíngue	Beta; identifica o idioma pelo áudio, não pela sua configuração de idioma da reunião
Deepgram (requer sua própria chave de API)	Nuvem	Precisão na nuvem, detecção automática multilíngue, reuniões grandes	Requer conta e chave de API da Deepgram; não é local
OpenAI (requer sua própria chave de API)	Nuvem	Precisão na nuvem, detecção automática de idioma	Requer conta e chave de API da OpenAI; não é local

Se você está usando o provedor padrão Whisper e a precisão não é boa o suficiente, tente o seguinte em ordem, dependendo da sua situação:

Em Macs com Apple Silicon ou modelos compatíveis de iPhone/iPad, para inglês ou principais idiomas europeus: experimente Parakeet ou Nemotron. Eles rodam na Neural Engine da Apple e costumam ser mais rápidos e precisos que o Whisper para transcrição em tempo real. Ambos ainda estão em beta — eles identificam o idioma pelo áudio, então fique atento a identificação incorreta de “idiomas semelhantes” (por exemplo, alemão vs. holandês). Para reuniões que não sejam em inglês no Nemotron, use o modo Multilingual.
Para reuniões multilíngues, fala com sotaque ou ambientes barulhentos: experimente Deepgram (detecção automática multilíngue) ou OpenAI (detecção automática). Ambos exigem que você traga sua própria chave de API, mas normalmente superam modelos locais em áudio difícil.
Se você precisa ficar offline ou totalmente privado e o Whisper está lento no seu hardware: veja Corrigir Transcrição Lenta no Windows (Configurações de GPU) para a correção específica de aceleração por GPU no Windows, ou mude para Parakeet se estiver em Apple Silicon.

Use Custom Vocabulary para Nomes Próprios

Se o Hedy transcreve incorretamente nomes, termos técnicos, nomes de produtos ou jargão do setor, adicione-os ao Custom Vocabulary.

Abra Settings no Hedy
Vá para Personalization > Custom Vocabulary > Manage Vocabulary Terms
Insira cada termo em “Enter a custom term…” e toque em Add
Certifique-se de que Enable Custom Vocabulary está ativado

O Custom Vocabulary alimenta diretamente a transcrição Whisper local como um prompt, ajudando-o a reconhecer e escrever corretamente termos específicos do domínio. Ele também ajuda a etapa de limpeza da transcrição (que roda em todos os provedores, incluindo Parakeet, Nemotron, Deepgram e OpenAI) a detectar e corrigir erros.

Nota: O Custom Vocabulary tem seu efeito direto mais forte quando você está usando STT local com Whisper. Para Parakeet, Nemotron, Deepgram e OpenAI, a etapa de limpeza ainda se beneficia da sua lista de vocabulário, mas o reconhecedor de fala em si não a recebe como prompt.

Para um guia mais longo sobre como montar uma boa lista de vocabulário, veja Guia de Custom Vocabulary.

Corrija Problemas de Hardware do Microfone

Se a qualidade de áudio degrada no meio da sessão ou apenas alguns falantes aparecem, o hardware é suspeito:

Fones Bluetooth costumam degradar quando a bateria cai ou quando a distância aumenta. Veja AirPods e Fones Bluetooth Cortando.
Microfones USB podem sofrer com problemas de cabo — tente outra porta USB ou outro cabo
Microfones integrados de laptop são bons para uma ou duas pessoas sentadas perto do teclado. Não são ótimos para salas de conferência.
Celulares dentro de capas ou sob tecido podem soar abafados

Um teste rápido: grave um memorando de voz curto com o mesmo microfone no Voice Memos / Gravador / um app simples semelhante. Se essa gravação soa ruim, o problema é o microfone — não o Hedy.

Formato de Áudio Que o Hedy Usa

Para referência, o Hedy captura áudio em 16 kHz, mono, PCM de 16 bits — o padrão para reconhecimento de fala. Esse formato vai diretamente para o Whisper local e o Deepgram. Para OpenAI Realtime, o Hedy reamostra para 24 kHz antes de enviar (o formato exigido pela OpenAI). Todos eles são bons para fala, mas com perdas para música ou áudio de alta fidelidade. Não espere ótimos resultados tentando transcrever músicas.

Quando Escalar

Se você verificou tudo acima e a precisão ainda está ruim:

Anote o tipo específico de erro (palavras erradas, trechos ausentes, atribuição errada de falante, texto completamente inutilizável)
Capture uma amostra de 30 segundos em que o erro acontece
Entre em contato pelo widget de chat com a amostra e sua configuração de provedor/idioma

Normalmente conseguimos identificar se é um problema de ambiente, configuração ou provedor.