Processamento de IA Local

O Processamento de IA Local executa a análise de IA do Hedy inteiramente no seu dispositivo. Suas transcrições ficam no dispositivo e funciona mesmo quando você está offline.

Disponível no macOS (Apple Silicon), Windows, iPhone 15 Pro e versões posteriores, e iPads com chip M. Com ele ativado, as partes do Hedy que leem sua transcrição e geram texto — resumos, notas detalhadas, prompts rápidos, respostas de chat, sugestões durante a sessão e feedback — tudo isso roda localmente em vez de nos servidores do Hedy.

O Processamento de IA Local é opcional e está desativado por padrão. A maioria das pessoas não precisa ativá-lo: a IA na nuvem ainda é mais rápida e um passo à frente em qualidade. Ele é voltado para pessoas com requisitos de privacidade que o modo de nuvem não consegue atender, ou que querem que o Hedy funcione totalmente offline.

O Que o Processamento de IA Local Faz

Alimenta resumos de sessões, notas detalhadas, prompts rápidos, respostas de chat, sugestões durante a sessão e feedback — tudo no seu dispositivo.
Mantém suas transcrições no dispositivo. Nenhum dado de conversa sai do dispositivo para análise de IA.
Funciona offline após o download do modelo.
Coexiste com o reconhecimento de fala baseado na nuvem (Deepgram, OpenAI), se você os utilizar. Apenas a etapa de análise de IA é local.
Não faz fallback silencioso para a nuvem. Se algo falhar localmente, você verá um erro em vez de uma nova tentativa silenciosa nos nossos servidores — você optou pelo modo local por um motivo.

Requisitos

Macs com Apple Silicon (M1 ou posterior). O Apple Silicon compartilha um único pool de memória entre CPU e GPU, portanto o modelo precisa caber no total de RAM do sistema junto com tudo o mais que você estiver executando. Os modelos menores funcionam na maioria dos Macs modernos. Modelos intermediários (em torno de 9 bilhões de parâmetros) rodam confortavelmente em sistemas com 16 GB. Os modelos maiores podem precisar de cerca de 25 GB de RAM para carregar, então 36 GB ou mais é o realista para eles.

PCs com Windows com um driver Vulkan atualizado. O que mais importa aqui é a VRAM da sua GPU, não a RAM do sistema. Modelos maiores precisam de uma placa de vídeo com VRAM suficiente para contê-los. Se um modelo for ligeiramente grande demais para a sua placa, o Hedy distribui algumas camadas para a CPU — isso funciona, mas é visivelmente mais lento, e o seletor de modelos marca essas entradas com o sufixo ”+ Slow”.

iPhone 15 Pro e versões posteriores, além de iPads com chip M. Restritos aos modelos menores por causa dos limites de memória em celulares e tablets. Modelos compactos lidam bem com resumos curtos, mas as respostas são visivelmente mais limitadas do que as de um modelo maior em um Mac. iPhones e iPads mais antigos não veem o botão de ativação.

Android e Web estão no nosso roadmap, mas ainda não são compatíveis. A grande variação de hardware no Android e as restrições de rodar modelos dentro de um navegador tornam uma experiência consistente difícil hoje.

Você também precisará de memória livre compatível com o modelo escolhido (o Hedy mostra um indicador de adequação em cada um) e de um download inicial do modelo. O tamanho do modelo varia de aproximadamente 2,5 GB a mais de 20 GB dependendo do modelo escolhido.

Como Ativar o Processamento de IA Local

Abra o Hedy e vá para Settings → Speech & AI.
Role até a seção Local AI Processing e ative-o.
Escolha um modelo da lista que se adeque à memória do seu dispositivo. Procure o rótulo “Great fit”.
Aguarde o download do modelo ser concluído. Você verá o progresso e o tamanho em GB.
Após o download, o Processamento de IA Local estará ativo. Inicie uma sessão normalmente.

O Processamento de IA Local é configurado por dispositivo. Para usá-lo no seu Mac e no seu iPhone, ative-o e faça o download de um modelo em cada um — a configuração e os arquivos do modelo não se transferem entre dispositivos.

Escolhendo um Modelo

O seletor de modelos exibe vários modelos com uma classificação em estrelas baseada no tamanho:

★ (1 estrela) — Bom para resumos básicos de reuniões e notas curtas. Pode ter dificuldades com reuniões longas ou perguntas de acompanhamento mais elaboradas. Faixa de parâmetros: 2–5 bilhões.
★★ (2 estrelas) — Sólido para uso geral. Lida bem com resumos de reuniões, notas detalhadas e chat. Conversas muito longas ou altamente técnicas podem ser mais difíceis. Faixa de parâmetros: 8–10 bilhões.
★★★ (3 estrelas) — Próximo à nossa IA na nuvem em qualidade. Lida com confiança com reuniões longas, tópicos amplos, notas elaboradas e perguntas de acompanhamento complexas. Faixa de parâmetros: 15+ bilhões.

O Hedy verifica automaticamente a memória disponível no seu dispositivo e classifica cada modelo:

Great fit — recomendado. Bastante margem de segurança.
Tight fit — funcionará, mas pode ser lento ou instável se você executar muitos outros apps.
Won’t fit — não escolha este.

No Windows, modelos que precisam distribuir camadas para a CPU mostram o sufixo ”+ Slow” para que você saiba o que está escolhendo.

Se não tiver certeza, comece com o maior modelo que mostrar “Great fit” para o seu dispositivo. Você pode mudar depois. Os modelos ficam no armazenamento do app após o download, e você pode excluir qualquer um a qualquer momento pela mesma tela para liberar espaço em disco.

Alternando Entre IA Local e IA na Nuvem

Desative o Processamento de IA Local para voltar à análise baseada na nuvem.
Você não perde nenhuma sessão ao alternar. As sessões existentes mantêm suas notas e resumos atuais.

Privacidade

Com o Processamento de IA Local ativado, suas transcrições e o conteúdo gerado pela IA (resumos, notas, respostas de chat, sugestões, feedback) nunca saem do dispositivo para análise de IA. Os downloads de modelos vêm dos servidores do Hedy, mas não contêm nenhum dado seu.

O que flui para nossos servidores depende de o Cloud Sync estar ativado também:

IA local ativada, Cloud Sync desativado. Nada sobre suas reuniões sai do dispositivo. Gravações de áudio, transcrições, resumos, notas, respostas de chat e sugestões ficam no dispositivo.
IA local ativada, Cloud Sync ativado. O processamento de IA ainda acontece inteiramente no seu dispositivo — sua transcrição e o texto gerado nunca são enviados para processamento. Os dados da sessão ainda são sincronizados (criptografados) para os servidores do Hedy para que você possa acessá-los em outros dispositivos, da mesma forma que o Cloud Sync sempre funcionou.

Em ambos os casos, informações de conta, dados de uso e relatórios de falhas continuam a fluir pelos nossos servidores para que o app funcione. Nenhum deles carrega conteúdo de transcrição ou saída gerada por IA.

Para a configuração mais rigorosa, combine o Processamento de IA Local com o Cloud Sync desativado — suas conversas ficarão apenas no dispositivo que as capturou.

O reconhecimento de fala é uma etapa separada. Se você usar um provedor na nuvem como Deepgram ou OpenAI para transcrição, seu áudio ainda fluirá por esse provedor. Para manter ambas as etapas locais, combine o Processamento de IA Local com o reconhecimento de fala local, como Parakeet ou Whisper no dispositivo. Consulte nosso guia de Provedores de Reconhecimento de Fala.

Dicas Práticas

Desative o Automatic Suggestions para sessões locais longas. Ele mantém o modelo local muito ocupado durante toda a sessão e pode deixar tudo mais lento no seu dispositivo (além de gerar bastante calor). O Hedy avisa sobre isso quando você ativa o Processamento de IA Local pela primeira vez.
Conecte o carregador no laptop ou celular para sessões longas. A inferência contínua no dispositivo drena a bateria mais rápido do que você esperaria.
Escolha um modelo que caiba confortavelmente no seu hardware (RAM no Mac e iOS, VRAM no Windows). Um “Tight fit” funciona, mas deixa menos margem para tudo o mais que você está fazendo.

Solução de Problemas

As respostas estão mais lentas do que na nuvem

Isso é esperado. Um resumo que parece instantâneo na nuvem pode levar de 30 segundos a vários minutos localmente, dependendo do seu hardware e do modelo escolhido. Modelos maiores são mais lentos, mas mais capazes.

O modelo não faz download

Verifique sua conexão com a internet e o espaço disponível em disco.
Reinicie o Hedy e tente novamente.
Alguns modelos têm vários GB. Downloads podem demorar em conexões mais lentas.
No Windows, softwares antivírus podem interromper downloads grandes ou colocar arquivos de modelo em quarentena. Consulte Windows Antivirus Blocking Hedy Download or Installation se isso ocorrer.

As respostas estão muito lentas ou o app parece sem resposta

Verifique o requisito de RAM/VRAM do modelo em relação à memória livre no seu dispositivo. Um modelo “Tight fit” competindo com outros apps pode rodar lentamente.
Feche apps que consomem muita memória e que você não esteja usando (abas extras do navegador, apps em segundo plano).
Tente um modelo menor.
No Windows, confirme que o driver da GPU está atualizado. Consulte Fix Slow Transcription on Windows (GPU Settings) para orientações sobre drivers — as mesmas dicas se aplicam à IA local.

Os recursos de IA mostram “not available”

Confirme que o modelo terminou o download (verifique a seção Local AI Processing nas configurações).
Desative e ative o Processamento de IA Local novamente.

Feedback

Rodar IA inteiramente no seu dispositivo é tecnologia de ponta e ainda está nos estágios iniciais. Modelos locais são menores do que os modelos na nuvem, portanto as respostas podem ser menos precisas ou detalhadas, e em alguns sistemas você pode encontrar instabilidade ou inicialização lenta. Essas limitações diminuirão conforme a IA local amadurece, e continuaremos expandindo o suporte para mais plataformas à medida que a tecnologia permitir.

Envie um e-mail para support@hedy.ai com qualquer feedback ou problema.

Relacionado: Controle de Privacidade da Análise de IA na Nuvem, Provedores de Reconhecimento de Fala.