LLM mais novo alucina menos?

Em geral sim, mas a diferença é menor do que se imagina. Modelos de 2026 alucinam menos em domínio aberto, mas em domínios técnicos específicos (jurídico, médico, contábil) a melhora é marginal. RAG bem feito ainda é a defesa mais barata e efetiva.

Vale rodar LLM open-source local para reduzir custo?

Depende do volume. Abaixo de ~30 milhões de tokens/mês quase nunca compensa o custo de GPU + ops. Acima disso, modelos como Llama 3.x, Qwen e Mistral hospedados próprios começam a fazer sentido — mas sempre olhando latência e qualidade contra a API comercial.

Por que LLMs erram conta de matemática simples?

Porque LLMs prevêem tokens, não calculam. A probabilidade do próximo token às vezes leva a uma resposta plausível mas errada. A solução não é trocar de modelo, é dar ferramenta — calculadora via tool/MCP, ou Python sandbox — e deixar o LLM apenas decidir QUANDO chamar.

Fundamentos · TOFU

Limitações dos LLMs: alucinação, viés, custo e latência

Por Adriano Schneider · 5 de maio de 2026 · 9 min de leitura

Antes de comprar IA generativa, é preciso saber o que ela não faz. Cinco limitações reais — alucinação, viés, custo, latência e janela de contexto — determinam quase 100% dos projetos que dão errado em 2026. Este artigo é a contraparte honesta do hype: o que esperar, o que não esperar, e como projetar em torno dessas restrições para evitar prejuízo e frustração.

Por que falar de limitações primeiro

A maior parte do conteúdo sobre IA generativa fala do que ela pode fazer. Útil para inspiração, péssimo para tomada de decisão. Comprar tecnologia pelos pontos fortes sem mapear pontos fracos é o caminho mais curto para o "POC que vira pesadelo em produção".

As cinco limitações deste artigo aparecem em todos os projetos reais — não só nos malfeitos. Reconhecê-las cedo permite escolher arquitetura certa (LLM puro? RAG? Tool calling? Fine-tuning? Humano no loop?) e definir critérios de aceite que não vão ser ressuscitados em pânico no penúltimo dia do prazo.

1. Alucinação

LLM não recupera fatos — gera texto provável. Se a probabilidade puxa para uma formulação plausível mas errada, o modelo afirma com a mesma confiança que afirmaria algo correto. Isso é alucinação.

Onde mais ataca:

Citações inventadas (jurisprudência, papers, livros).
Datas, números e versões específicos.
APIs e bibliotecas que "deveriam existir" mas não existem.
Tradução de termos técnicos com tradução marginal.

Mitigação prática:

RAG ancorado em base curada — força o LLM a responder com base em documentos reais.
Pedir citação verificável em todo prompt fact-heavy.
Critic loop: usar um segundo LLM para revisar a saída do primeiro contra as fontes.
Em domínios críticos (jurídico, médico): revisão humana obrigatória.

Verdade desconfortável: nenhuma das mitigações elimina alucinação. Reduz drasticamente, sim. Zera, não. O design do produto precisa assumir isso e ter fallback quando o usuário pegar um caso errado.

2. Viés

Modelos aprendem dos dados de treino. Se o corpus carrega viés (e carrega), o modelo carrega. Em 2026 os principais labs declaram esforço de mitigação, mas vieses sutis sobreviveram — em tom, em preferências por autoridade, em escolha de exemplos.

Onde mais ataca:

Triagem de currículos / candidatos — risco direto de discriminação.
Análise de crédito / risco financeiro.
Suporte ao cliente em idiomas/dialetos minoritários.
Geração de imagens com vieses raciais e de gênero documentados.

Mitigação:

Não usar LLM para decidir em contextos regulados — LGPD art. 20 dá ao titular o direito de revisão por humano.
Definir conjuntos de teste com casos representativos de minorias e medir se a saída diverge.
Logar input/output e revisar amostragem mensalmente.
Documentar viés conhecido na política interna de uso.

3. Custo

LLM custa por token. Token é mais ou menos uma sílaba longa. Em prosa em português, 1 página A4 ≈ 800 tokens. Uma resposta com contexto RAG injetado pode chegar a 8 mil tokens (entrada) + 2 mil tokens (saída) por turno.

Faixas reais em 2026 (preços orientativos, conferir provedor):

Cenário	Tokens/mês	Custo estimado/mês
Chatbot interno (50 usuários, 20 turns/dia)	~30M	R$ 1.200 – R$ 4.500
Atendimento WhatsApp (3.000 conversas/mês)	~75M	R$ 3.000 – R$ 11.000
Geração de documentos (200 docs longos/mês)	~40M	R$ 1.600 – R$ 6.000
RAG sobre base com queries pesadas (10k/mês)	~80M	R$ 3.200 – R$ 12.000

Otimizações que aprendi do jeito difícil:

Cache — perguntas iguais retornam resposta igual. Reduz 30-50% em FAQ-style.
Tier de modelo — Haiku/Sonnet 4.6 para 80% das tarefas rotineiras, Opus só para análise complexa.
RAG com top-k controlado — recuperar 3 chunks em vez de 8 já mantém qualidade na maioria dos casos e corta entrada pela metade.
Sumarização hierárquica — em conversas longas, comprimir turnos antigos antes de reenviar.

4. Latência

LLM é stream — gera token a token. Para responder uma frase de 200 tokens, modelos comerciais levam tipicamente 2-5 segundos para começar a streamar e mais alguns segundos para terminar.

Onde isso é problema:

Atendimento por voz — usuário humano não tolera 4 segundos de silêncio. Voice agents precisam de modelos de baixa latência ou arquitetura com TTS streaming.
UX em formulários — autocompletar com LLM em campo de texto curto fica lento.
Workflows em cadeia — cada passo soma. 5 passos × 4s = 20s de espera.

Mitigação:

Usar streaming sempre que possível — primeira impressão é de velocidade quando os primeiros tokens chegam logo.
Modelos pequenos (Haiku, Llama 3 8B) para tarefas onde latência > precisão.
Pré-computação — para N saídas previsíveis, gerar antes em batch e servir do cache.
Paralelizar passos independentes do workflow.

5. Janela de contexto

Modelos têm uma "memória curta" — quanto cabe no prompt antes de cortar. Em 2026, modelos top-tier oferecem janelas de 200k-1M tokens. Sembra ilimitado, mas dois problemas reais persistem:

"Lost in the middle" — informação no meio do prompt tende a ser ignorada. Modelos prestam mais atenção ao começo e ao fim.
Custo escala linear com contexto — janela 1M é cara. 1k tokens vs 100k tokens é a mesma diferença que carro popular vs SUV.

Mitigação:

Não despejar tudo no prompt. Recuperar via RAG só o que é relevante para a pergunta atual.
Posicionar o crítico — instruções importantes no início, contexto recuperado no meio, pergunta no final.
Validar com testes do tipo "needle in haystack" para cada modelo escolhido.

Matriz de risco e mitigação

Limitação	Quando dói mais	Mitigação primária	Custo da mitigação
Alucinação	Domínios fact-heavy (jurídico, médico, financeiro)	RAG com citação verificável + revisão humana	Médio (engenharia + curadoria)
Viés	Decisões sobre pessoas (RH, crédito, saúde)	Não delegar decisão final ao LLM; testes de equidade	Médio (compliance)
Custo	Volume alto, prompts gigantes, modelo top-tier	Cache, tier de modelo, RAG enxuto	Baixo (mais design que infra)
Latência	Voz, autocomplete, workflows em cadeia	Streaming, modelos pequenos, pré-computação	Baixo
Contexto	Bases muito grandes, "documento gigante" no prompt	RAG bem chunkado; posicionamento estratégico	Médio (engenharia de retrieval)

Checklist antes de aprovar projeto LLM em produção

[ ] Mapeamos quais riscos das 5 limitações afetam este caso de uso?
[ ] Definimos métrica objetiva para cada um (taxa de alucinação, latência p95, custo/turno)?
[ ] Há fallback humano para casos críticos?
[ ] O fluxo respeita LGPD art. 20 quando há decisão sobre pessoa?
[ ] Existe orçamento mensal teto + alerta de consumo?
[ ] Cache implementado para perguntas repetitivas?
[ ] Plano de retesting trimestral quando trocar versão do modelo?

Erros comuns que vejo no mercado

"Vamos fine-tunar para reduzir alucinação." Quase nunca é a resposta. RAG resolve antes, mais barato. (Ver artigo sobre RAG.)
"Modelo X é top no benchmark, vamos usar." Benchmark público não diz nada sobre seu domínio. Faça avaliação interna com perguntas reais.
"Janela de 1M token, podemos jogar tudo lá." Pode, mas vai pagar caro e ainda perder informação no meio.
"Vamos confiar no LLM para tomar a decisão final." Em contextos regulados, decisão automatizada de impacto exige opt-out humano por LGPD.
"Latência não é problema, ninguém reclamou." Ainda. Voice e produtos de massa fazem reclamar — meça antes de escalar.

Conclusão

LLMs em 2026 são ferramentas excelentes — para os problemas certos. As cinco limitações deste artigo não são defeitos a serem "corrigidos" pela próxima versão; são propriedades intrínsecas do paradigma probabilístico que sustenta a tecnologia. Boa engenharia de IA aceita isso e desenha em volta.

Quem entra em projeto de IA achando que vai virar "humano substituído" descobre tarde demais o custo dessa fantasia. Quem entra pensando "ferramenta com restrições conhecidas" entrega valor — e dorme bem.

Quer mapear quais dessas 5 limitações afetam mais o seu caso de uso e desenhar arquitetura em volta? Diagnóstico inicial é gratuito — 45 minutos para entender o problema e dar visão honesta.

Por que falar de limitações primeiro

1. Alucinação

2. Viés

3. Custo

4. Latência

5. Janela de contexto

Matriz de risco e mitigação

Checklist antes de aprovar projeto LLM em produção

Erros comuns que vejo no mercado

Conclusão

Continue lendo