Fine-tuning deixa o modelo 'atualizado' com dados novos?

Não de forma eficiente. Fine-tuning gravar novos fatos exige re-treino contínuo e tende a causar 'catastrophic forgetting' — o modelo esquece o que sabia antes. Para dados que mudam, RAG é a resposta certa: você só atualiza o índice, não o modelo.

RAG e fine-tuning podem coexistir no mesmo sistema?

Sim. O padrão mais robusto é: fine-tuning ensina o modelo a responder no formato e tom corretos (estilo, taxonomia, siglas internas), enquanto RAG fornece os fatos específicos da consulta. Resultado: modelo com personalidade de domínio + respostas ancoradas em fontes verificáveis.

Qual o custo de fine-tuning em 2026?

Via API (OpenAI, Anthropic etc.): US$ 0,003–0,025 por 1k tokens de treino. Um dataset de 50k exemplos (texto médio de 500 tokens) custa US$ 75–625 no treino, mais custo de inferência pós-fine-tuning geralmente 1,5–3× mais caro que o modelo base. Via infra própria (GPU cloud): GPU A100 a ~US$ 2–4/h; dataset de 50k exemplos em 2 épocas leva ~4–12h dependendo do modelo base.

RAG · MOFU

Fine-tuning vs RAG: quando usar cada um (matriz de decisão)

Por Adriano Schneider · 5 de maio de 2026 · 9 min de leitura

A pergunta que mais recebo em diagnósticos B2B: "precisamos fazer fine-tuning ou RAG resolve?". A resposta honesta é quase sempre "RAG resolve antes, mais barato" — mas existem casos em que fine-tuning faz sentido, e casos em que os dois trabalham juntos. Este artigo entrega a matriz de decisão que uso com clientes, com critérios, exemplos numéricos e as armadilhas de cada caminho.

O que cada um faz, em uma frase

RAG (Retrieval-Augmented Generation): na hora da consulta, busca trechos relevantes de uma base externa e injeta como contexto no prompt. O modelo base não muda — você atualiza só o índice. Veja o guia completo de RAG.

Fine-tuning: ajusta os pesos do modelo com um conjunto de exemplos curados (input/output pares). O modelo muda — você está ensinando um novo comportamento, vocabulário ou estilo. A cada re-treino, leva horas e custa dinheiro.

Matriz de decisão

Critério	RAG ✅	Fine-tuning ✅	Ambos ✅
Dados mudam com frequência	✅	❌	❌
Precisão factual alta (citação verificável)	✅	❌	✅ (FT estilo + RAG fatos)
Vocabulário/siglas internas muito específicas	⚠️ parcial	✅	✅
Formato de saída muito diferente do modelo base	❌	✅	❌
Tarefa estreita e repetitiva (classificação, extração)	⚠️ possível	✅	❌
Base documental grande (> 1.000 documentos)	✅	❌ (não cabe no contexto)	✅
Orçamento restrito (MVP < R$ 50k)	✅	❌	❌
Rastreabilidade / citação de fontes	✅	❌	✅ (RAG faz a rastreabilidade)
Latência muito baixa (< 500ms p95)	⚠️ depende	✅ (modelo menor especializado)	⚠️

Quando RAG é suficiente (a maioria dos casos)

RAG resolve bem quando o problema é: "o modelo precisa de acesso a informações que ele não viu no treino e que mudam com o tempo". Exemplos:

FAQ corporativo atualizado mensalmente.
Responder sobre contratos e atas internas.
Suporte com base em documentação de produto.
Pesquisa em base jurídica ou regulatória.

Vantagens de escolher RAG:

Atualiza o conhecimento em minutos (re-indexação, não re-treino).
Citação verificável — o trecho recuperado é auditável.
Sem custo de GPU para treino; só inferência.
Funciona com qualquer modelo base sem modificação.

Quando fine-tuning faz sentido

Fine-tuning faz sentido quando o problema é de comportamento, não de conhecimento:

O modelo precisa responder num formato muito específico (ex: JSON com esquema proprietário).
Taxonomia interna com centenas de categorias que o modelo base desconhece.
Tom de voz altamente específico (ex: chatbot que fala como personagem de marca).
Tarefa de classificação de texto com > 95% de acurácia exigida — RAG não ajuda aqui.
Latência crítica (modelo fine-tunado menor pode ser mais rápido e mais barato que RAG + modelo grande).

Custo realista de fine-tuning em 2026:

Tipo	Dataset	Custo de treino	Custo de inferência (vs base)
Via API (ex: OpenAI)	10k exemplos × 500 tokens	US$ 15–125	~1,5–3× mais caro
GPU cloud própria (A100)	50k exemplos	US$ 8–48 (4–12h)	Custo de self-hosting
Modelo open-source (Llama, Qwen)	10k exemplos	US$ 4–20 (GPU spot)	Custo de servir o modelo

Quando usar os dois juntos

O padrão mais robusto em produção em 2026:

Fine-tuning de estilo/formato: treina o modelo para responder com o vocabulário interno, no formato esperado, no tom correto.
RAG de fatos: injeta os dados específicos da consulta no contexto, garantindo citação e atualização contínua.

Exemplo: chatbot de suporte bancário. Fine-tuning ensina o modelo a usar os termos do banco ("TED", "DOC", "PJ", siglas de produtos) e o formato de resposta. RAG injeta o regulamento atual, taxas vigentes e histórico do cliente específico.

Checklist antes de decidir

[ ] O problema é de conhecimento (dados faltando) ou comportamento (formato/estilo errado)?
[ ] Os dados mudam com frequência? Se sim, fine-tuning vai envelhecer rápido.
[ ] Tenho > 500 exemplos input/output curados de qualidade? Se não, fine-tuning vai decorar erro.
[ ] RAG já foi tentado e testado com dataset de avaliação? Se não, tente primeiro.
[ ] Existe orçamento para re-treino periódico (dados mudam)?

Erros comuns

"Fine-tuning vai eliminar alucinação." — Não. Fine-tuning ensina estilo, não verdade factual. RAG é a ferramenta certa para alucinação.
"Vou fazer fine-tuning com 50 exemplos." — Dataset pequeno tende a overfitting severo. Mínimo recomendado: 200–500 exemplos de qualidade.
"Fine-tuning mantém o modelo atualizado." — Só se você re-treinar continuamente. Dado dinâmico = RAG.
"RAG é sempre mais caro." — RAG não tem custo de treino. O custo extra é tokens de contexto injetado — normalmente menor que o custo de fine-tuning + re-treino periódico.

Conclusão

A regra de ouro: tente RAG primeiro. É mais rápido de implantar, mais barato de manter, e resolve 80% dos problemas de domínio em B2B. Quando RAG atingir o teto (não consegue resolver o problema de estilo/formato/latência), aí fine-tuning entra — preferencialmente em combinação com RAG, não em substituição.

Se quiser ajuda para definir qual caminho faz sentido para o seu caso específico, o diagnóstico inicial é gratuito.