Fine-tuning vs RAG: quando usar cada um (matriz de decisão)
A pergunta que mais recebo em diagnósticos B2B: "precisamos fazer fine-tuning ou RAG resolve?". A resposta honesta é quase sempre "RAG resolve antes, mais barato" — mas existem casos em que fine-tuning faz sentido, e casos em que os dois trabalham juntos. Este artigo entrega a matriz de decisão que uso com clientes, com critérios, exemplos numéricos e as armadilhas de cada caminho.
O que cada um faz, em uma frase
RAG (Retrieval-Augmented Generation): na hora da consulta, busca trechos relevantes de uma base externa e injeta como contexto no prompt. O modelo base não muda — você atualiza só o índice. Veja o guia completo de RAG.
Fine-tuning: ajusta os pesos do modelo com um conjunto de exemplos curados (input/output pares). O modelo muda — você está ensinando um novo comportamento, vocabulário ou estilo. A cada re-treino, leva horas e custa dinheiro.
Matriz de decisão
| Critério | RAG ✅ | Fine-tuning ✅ | Ambos ✅ |
|---|---|---|---|
| Dados mudam com frequência | ✅ | ❌ | ❌ |
| Precisão factual alta (citação verificável) | ✅ | ❌ | ✅ (FT estilo + RAG fatos) |
| Vocabulário/siglas internas muito específicas | ⚠️ parcial | ✅ | ✅ |
| Formato de saída muito diferente do modelo base | ❌ | ✅ | ❌ |
| Tarefa estreita e repetitiva (classificação, extração) | ⚠️ possível | ✅ | ❌ |
| Base documental grande (> 1.000 documentos) | ✅ | ❌ (não cabe no contexto) | ✅ |
| Orçamento restrito (MVP < R$ 50k) | ✅ | ❌ | ❌ |
| Rastreabilidade / citação de fontes | ✅ | ❌ | ✅ (RAG faz a rastreabilidade) |
| Latência muito baixa (< 500ms p95) | ⚠️ depende | ✅ (modelo menor especializado) | ⚠️ |
Quando RAG é suficiente (a maioria dos casos)
RAG resolve bem quando o problema é: "o modelo precisa de acesso a informações que ele não viu no treino e que mudam com o tempo". Exemplos:
- FAQ corporativo atualizado mensalmente.
- Responder sobre contratos e atas internas.
- Suporte com base em documentação de produto.
- Pesquisa em base jurídica ou regulatória.
Vantagens de escolher RAG:
- Atualiza o conhecimento em minutos (re-indexação, não re-treino).
- Citação verificável — o trecho recuperado é auditável.
- Sem custo de GPU para treino; só inferência.
- Funciona com qualquer modelo base sem modificação.
Quando fine-tuning faz sentido
Fine-tuning faz sentido quando o problema é de comportamento, não de conhecimento:
- O modelo precisa responder num formato muito específico (ex: JSON com esquema proprietário).
- Taxonomia interna com centenas de categorias que o modelo base desconhece.
- Tom de voz altamente específico (ex: chatbot que fala como personagem de marca).
- Tarefa de classificação de texto com > 95% de acurácia exigida — RAG não ajuda aqui.
- Latência crítica (modelo fine-tunado menor pode ser mais rápido e mais barato que RAG + modelo grande).
Custo realista de fine-tuning em 2026:
| Tipo | Dataset | Custo de treino | Custo de inferência (vs base) |
|---|---|---|---|
| Via API (ex: OpenAI) | 10k exemplos × 500 tokens | US$ 15–125 | ~1,5–3× mais caro |
| GPU cloud própria (A100) | 50k exemplos | US$ 8–48 (4–12h) | Custo de self-hosting |
| Modelo open-source (Llama, Qwen) | 10k exemplos | US$ 4–20 (GPU spot) | Custo de servir o modelo |
Quando usar os dois juntos
O padrão mais robusto em produção em 2026:
- Fine-tuning de estilo/formato: treina o modelo para responder com o vocabulário interno, no formato esperado, no tom correto.
- RAG de fatos: injeta os dados específicos da consulta no contexto, garantindo citação e atualização contínua.
Exemplo: chatbot de suporte bancário. Fine-tuning ensina o modelo a usar os termos do banco ("TED", "DOC", "PJ", siglas de produtos) e o formato de resposta. RAG injeta o regulamento atual, taxas vigentes e histórico do cliente específico.
Checklist antes de decidir
- [ ] O problema é de conhecimento (dados faltando) ou comportamento (formato/estilo errado)?
- [ ] Os dados mudam com frequência? Se sim, fine-tuning vai envelhecer rápido.
- [ ] Tenho > 500 exemplos input/output curados de qualidade? Se não, fine-tuning vai decorar erro.
- [ ] RAG já foi tentado e testado com dataset de avaliação? Se não, tente primeiro.
- [ ] Existe orçamento para re-treino periódico (dados mudam)?
Erros comuns
- "Fine-tuning vai eliminar alucinação." — Não. Fine-tuning ensina estilo, não verdade factual. RAG é a ferramenta certa para alucinação.
- "Vou fazer fine-tuning com 50 exemplos." — Dataset pequeno tende a overfitting severo. Mínimo recomendado: 200–500 exemplos de qualidade.
- "Fine-tuning mantém o modelo atualizado." — Só se você re-treinar continuamente. Dado dinâmico = RAG.
- "RAG é sempre mais caro." — RAG não tem custo de treino. O custo extra é tokens de contexto injetado — normalmente menor que o custo de fine-tuning + re-treino periódico.
Conclusão
A regra de ouro: tente RAG primeiro. É mais rápido de implantar, mais barato de manter, e resolve 80% dos problemas de domínio em B2B. Quando RAG atingir o teto (não consegue resolver o problema de estilo/formato/latência), aí fine-tuning entra — preferencialmente em combinação com RAG, não em substituição.
Se quiser ajuda para definir qual caminho faz sentido para o seu caso específico, o diagnóstico inicial é gratuito.