Limitações dos LLMs: alucinação, viés, custo e latência
Antes de comprar IA generativa, é preciso saber o que ela não faz. Cinco limitações reais — alucinação, viés, custo, latência e janela de contexto — determinam quase 100% dos projetos que dão errado em 2026. Este artigo é a contraparte honesta do hype: o que esperar, o que não esperar, e como projetar em torno dessas restrições para evitar prejuízo e frustração.
Por que falar de limitações primeiro
A maior parte do conteúdo sobre IA generativa fala do que ela pode fazer. Útil para inspiração, péssimo para tomada de decisão. Comprar tecnologia pelos pontos fortes sem mapear pontos fracos é o caminho mais curto para o "POC que vira pesadelo em produção".
As cinco limitações deste artigo aparecem em todos os projetos reais — não só nos malfeitos. Reconhecê-las cedo permite escolher arquitetura certa (LLM puro? RAG? Tool calling? Fine-tuning? Humano no loop?) e definir critérios de aceite que não vão ser ressuscitados em pânico no penúltimo dia do prazo.
1. Alucinação
LLM não recupera fatos — gera texto provável. Se a probabilidade puxa para uma formulação plausível mas errada, o modelo afirma com a mesma confiança que afirmaria algo correto. Isso é alucinação.
Onde mais ataca:
- Citações inventadas (jurisprudência, papers, livros).
- Datas, números e versões específicos.
- APIs e bibliotecas que "deveriam existir" mas não existem.
- Tradução de termos técnicos com tradução marginal.
Mitigação prática:
- RAG ancorado em base curada — força o LLM a responder com base em documentos reais.
- Pedir citação verificável em todo prompt fact-heavy.
- Critic loop: usar um segundo LLM para revisar a saída do primeiro contra as fontes.
- Em domínios críticos (jurídico, médico): revisão humana obrigatória.
Verdade desconfortável: nenhuma das mitigações elimina alucinação. Reduz drasticamente, sim. Zera, não. O design do produto precisa assumir isso e ter fallback quando o usuário pegar um caso errado.
2. Viés
Modelos aprendem dos dados de treino. Se o corpus carrega viés (e carrega), o modelo carrega. Em 2026 os principais labs declaram esforço de mitigação, mas vieses sutis sobreviveram — em tom, em preferências por autoridade, em escolha de exemplos.
Onde mais ataca:
- Triagem de currículos / candidatos — risco direto de discriminação.
- Análise de crédito / risco financeiro.
- Suporte ao cliente em idiomas/dialetos minoritários.
- Geração de imagens com vieses raciais e de gênero documentados.
Mitigação:
- Não usar LLM para decidir em contextos regulados — LGPD art. 20 dá ao titular o direito de revisão por humano.
- Definir conjuntos de teste com casos representativos de minorias e medir se a saída diverge.
- Logar input/output e revisar amostragem mensalmente.
- Documentar viés conhecido na política interna de uso.
3. Custo
LLM custa por token. Token é mais ou menos uma sílaba longa. Em prosa em português, 1 página A4 ≈ 800 tokens. Uma resposta com contexto RAG injetado pode chegar a 8 mil tokens (entrada) + 2 mil tokens (saída) por turno.
Faixas reais em 2026 (preços orientativos, conferir provedor):
| Cenário | Tokens/mês | Custo estimado/mês |
|---|---|---|
| Chatbot interno (50 usuários, 20 turns/dia) | ~30M | R$ 1.200 – R$ 4.500 |
| Atendimento WhatsApp (3.000 conversas/mês) | ~75M | R$ 3.000 – R$ 11.000 |
| Geração de documentos (200 docs longos/mês) | ~40M | R$ 1.600 – R$ 6.000 |
| RAG sobre base com queries pesadas (10k/mês) | ~80M | R$ 3.200 – R$ 12.000 |
Otimizações que aprendi do jeito difícil:
- Cache — perguntas iguais retornam resposta igual. Reduz 30-50% em FAQ-style.
- Tier de modelo — Haiku/Sonnet 4.6 para 80% das tarefas rotineiras, Opus só para análise complexa.
- RAG com top-k controlado — recuperar 3 chunks em vez de 8 já mantém qualidade na maioria dos casos e corta entrada pela metade.
- Sumarização hierárquica — em conversas longas, comprimir turnos antigos antes de reenviar.
4. Latência
LLM é stream — gera token a token. Para responder uma frase de 200 tokens, modelos comerciais levam tipicamente 2-5 segundos para começar a streamar e mais alguns segundos para terminar.
Onde isso é problema:
- Atendimento por voz — usuário humano não tolera 4 segundos de silêncio. Voice agents precisam de modelos de baixa latência ou arquitetura com TTS streaming.
- UX em formulários — autocompletar com LLM em campo de texto curto fica lento.
- Workflows em cadeia — cada passo soma. 5 passos × 4s = 20s de espera.
Mitigação:
- Usar streaming sempre que possível — primeira impressão é de velocidade quando os primeiros tokens chegam logo.
- Modelos pequenos (Haiku, Llama 3 8B) para tarefas onde latência > precisão.
- Pré-computação — para N saídas previsíveis, gerar antes em batch e servir do cache.
- Paralelizar passos independentes do workflow.
5. Janela de contexto
Modelos têm uma "memória curta" — quanto cabe no prompt antes de cortar. Em 2026, modelos top-tier oferecem janelas de 200k-1M tokens. Sembra ilimitado, mas dois problemas reais persistem:
- "Lost in the middle" — informação no meio do prompt tende a ser ignorada. Modelos prestam mais atenção ao começo e ao fim.
- Custo escala linear com contexto — janela 1M é cara. 1k tokens vs 100k tokens é a mesma diferença que carro popular vs SUV.
Mitigação:
- Não despejar tudo no prompt. Recuperar via RAG só o que é relevante para a pergunta atual.
- Posicionar o crítico — instruções importantes no início, contexto recuperado no meio, pergunta no final.
- Validar com testes do tipo "needle in haystack" para cada modelo escolhido.
Matriz de risco e mitigação
| Limitação | Quando dói mais | Mitigação primária | Custo da mitigação |
|---|---|---|---|
| Alucinação | Domínios fact-heavy (jurídico, médico, financeiro) | RAG com citação verificável + revisão humana | Médio (engenharia + curadoria) |
| Viés | Decisões sobre pessoas (RH, crédito, saúde) | Não delegar decisão final ao LLM; testes de equidade | Médio (compliance) |
| Custo | Volume alto, prompts gigantes, modelo top-tier | Cache, tier de modelo, RAG enxuto | Baixo (mais design que infra) |
| Latência | Voz, autocomplete, workflows em cadeia | Streaming, modelos pequenos, pré-computação | Baixo |
| Contexto | Bases muito grandes, "documento gigante" no prompt | RAG bem chunkado; posicionamento estratégico | Médio (engenharia de retrieval) |
Checklist antes de aprovar projeto LLM em produção
- [ ] Mapeamos quais riscos das 5 limitações afetam este caso de uso?
- [ ] Definimos métrica objetiva para cada um (taxa de alucinação, latência p95, custo/turno)?
- [ ] Há fallback humano para casos críticos?
- [ ] O fluxo respeita LGPD art. 20 quando há decisão sobre pessoa?
- [ ] Existe orçamento mensal teto + alerta de consumo?
- [ ] Cache implementado para perguntas repetitivas?
- [ ] Plano de retesting trimestral quando trocar versão do modelo?
Erros comuns que vejo no mercado
- "Vamos fine-tunar para reduzir alucinação." Quase nunca é a resposta. RAG resolve antes, mais barato. (Ver artigo sobre RAG.)
- "Modelo X é top no benchmark, vamos usar." Benchmark público não diz nada sobre seu domínio. Faça avaliação interna com perguntas reais.
- "Janela de 1M token, podemos jogar tudo lá." Pode, mas vai pagar caro e ainda perder informação no meio.
- "Vamos confiar no LLM para tomar a decisão final." Em contextos regulados, decisão automatizada de impacto exige opt-out humano por LGPD.
- "Latência não é problema, ninguém reclamou." Ainda. Voice e produtos de massa fazem reclamar — meça antes de escalar.
Conclusão
LLMs em 2026 são ferramentas excelentes — para os problemas certos. As cinco limitações deste artigo não são defeitos a serem "corrigidos" pela próxima versão; são propriedades intrínsecas do paradigma probabilístico que sustenta a tecnologia. Boa engenharia de IA aceita isso e desenha em volta.
Quem entra em projeto de IA achando que vai virar "humano substituído" descobre tarde demais o custo dessa fantasia. Quem entra pensando "ferramenta com restrições conhecidas" entrega valor — e dorme bem.
Quer mapear quais dessas 5 limitações afetam mais o seu caso de uso e desenhar arquitetura em volta? Diagnóstico inicial é gratuito — 45 minutos para entender o problema e dar visão honesta.