Fine-tuning vs RAG: quando usar cada um (matriz de decisão)

A pergunta que mais recebo em diagnósticos B2B: "precisamos fazer fine-tuning ou RAG resolve?". A resposta honesta é quase sempre "RAG resolve antes, mais barato" — mas existem casos em que fine-tuning faz sentido, e casos em que os dois trabalham juntos. Este artigo entrega a matriz de decisão que uso com clientes, com critérios, exemplos numéricos e as armadilhas de cada caminho.

O que cada um faz, em uma frase

RAG (Retrieval-Augmented Generation): na hora da consulta, busca trechos relevantes de uma base externa e injeta como contexto no prompt. O modelo base não muda — você atualiza só o índice. Veja o guia completo de RAG.

Fine-tuning: ajusta os pesos do modelo com um conjunto de exemplos curados (input/output pares). O modelo muda — você está ensinando um novo comportamento, vocabulário ou estilo. A cada re-treino, leva horas e custa dinheiro.

Matriz de decisão

Critério RAG ✅ Fine-tuning ✅ Ambos ✅
Dados mudam com frequência
Precisão factual alta (citação verificável)✅ (FT estilo + RAG fatos)
Vocabulário/siglas internas muito específicas⚠️ parcial
Formato de saída muito diferente do modelo base
Tarefa estreita e repetitiva (classificação, extração)⚠️ possível
Base documental grande (> 1.000 documentos)❌ (não cabe no contexto)
Orçamento restrito (MVP < R$ 50k)
Rastreabilidade / citação de fontes✅ (RAG faz a rastreabilidade)
Latência muito baixa (< 500ms p95)⚠️ depende✅ (modelo menor especializado)⚠️

Quando RAG é suficiente (a maioria dos casos)

RAG resolve bem quando o problema é: "o modelo precisa de acesso a informações que ele não viu no treino e que mudam com o tempo". Exemplos:

Vantagens de escolher RAG:

Quando fine-tuning faz sentido

Fine-tuning faz sentido quando o problema é de comportamento, não de conhecimento:

Custo realista de fine-tuning em 2026:

TipoDatasetCusto de treinoCusto de inferência (vs base)
Via API (ex: OpenAI)10k exemplos × 500 tokensUS$ 15–125~1,5–3× mais caro
GPU cloud própria (A100)50k exemplosUS$ 8–48 (4–12h)Custo de self-hosting
Modelo open-source (Llama, Qwen)10k exemplosUS$ 4–20 (GPU spot)Custo de servir o modelo

Quando usar os dois juntos

O padrão mais robusto em produção em 2026:

  1. Fine-tuning de estilo/formato: treina o modelo para responder com o vocabulário interno, no formato esperado, no tom correto.
  2. RAG de fatos: injeta os dados específicos da consulta no contexto, garantindo citação e atualização contínua.

Exemplo: chatbot de suporte bancário. Fine-tuning ensina o modelo a usar os termos do banco ("TED", "DOC", "PJ", siglas de produtos) e o formato de resposta. RAG injeta o regulamento atual, taxas vigentes e histórico do cliente específico.

Checklist antes de decidir

Erros comuns

  1. "Fine-tuning vai eliminar alucinação." — Não. Fine-tuning ensina estilo, não verdade factual. RAG é a ferramenta certa para alucinação.
  2. "Vou fazer fine-tuning com 50 exemplos." — Dataset pequeno tende a overfitting severo. Mínimo recomendado: 200–500 exemplos de qualidade.
  3. "Fine-tuning mantém o modelo atualizado." — Só se você re-treinar continuamente. Dado dinâmico = RAG.
  4. "RAG é sempre mais caro." — RAG não tem custo de treino. O custo extra é tokens de contexto injetado — normalmente menor que o custo de fine-tuning + re-treino periódico.

Conclusão

A regra de ouro: tente RAG primeiro. É mais rápido de implantar, mais barato de manter, e resolve 80% dos problemas de domínio em B2B. Quando RAG atingir o teto (não consegue resolver o problema de estilo/formato/latência), aí fine-tuning entra — preferencialmente em combinação com RAG, não em substituição.

Se quiser ajuda para definir qual caminho faz sentido para o seu caso específico, o diagnóstico inicial é gratuito.