n8n + RAG: atendimento inteligente com base documental

A combinação que mais vejo funcionando em B2B em 2026 é n8n orquestrando um fluxo de atendimento onde o LLM responde com base em RAG — e escala para humano quando não sabe ou quando o caso é crítico. Neste artigo, o workflow completo: da pergunta do cliente à resposta rastreável, com fallback, logs e qualidade.

Visão geral da arquitetura

Cinco camadas, cada uma com responsabilidade clara:

  1. Canal de entrada — WhatsApp Business, e-mail, chat web, ticket system.
  2. n8n como orquestrador — recebe o evento, classifica, gerencia estado, decide fluxo.
  3. RAG Pipeline — busca os chunks relevantes da base documental.
  4. LLM como gerador — produz a resposta com base nos chunks recuperados.
  5. Fallback humano — quando a confiança é baixa ou o caso é crítico.

Workflow em 8 nós (n8n)

  1. Trigger (Webhook) — recebe mensagem via WhatsApp/e-mail/chat. Extrai: texto, ID do usuário, histórico recente (últimas 3 trocas).
  2. Classificador de intenção (LLM) — categoriza a pergunta: FAQ simples / consulta documental / reclamação / escalação urgente. Output: { tipo, prioridade, requer_humano }.
  3. Branch: requer_humano = true → notifica agente humano via Slack com contexto completo. Fluxo termina aqui para este ticket.
  4. Busca RAG — envia a pergunta para o pipeline de retrieval (pgvector, Qdrant, etc.). Recebe top-3 chunks com score de similaridade.
  5. Validação de confiança — se score do chunk mais relevante < threshold (ex: 0.75), redireciona para humano com nota "base não cobre".
  6. Geração de resposta (LLM) — prompt: "Com base nos seguintes trechos [chunk1, chunk2, chunk3], responda a pergunta. Cite o trecho quando afirmar fato. Se os trechos não cobrirem, declare que não sabe." Output: resposta + lista de chunks citados.
  7. Validação de output — checa se a resposta contém citações quando afirma fatos, se não há URLs externas, se não há dados pessoais de outros usuários.
  8. Envio + Log — envia resposta ao canal, escreve linha de log estruturado: pergunta, chunks usados, resposta, score, tempo de resposta, canal, user_id.

Montando a base documental

A qualidade do RAG depende da qualidade da base. Checklist mínimo:

Métricas para acompanhar

MétricaFórmula simplificadaMeta inicial
Taxa de resolução automáticaRespostas enviadas / total de perguntas≥ 70%
Escalação para humanoTickets com fallback humano / total≤ 20%
Score de similaridade médioMédia do score do chunk top-1≥ 0.80
Tempo médio de respostaTrigger → envio≤ 8s
Taxa de citaçãoRespostas com chunk citado / respostas com fatos≥ 90%
NPS de atendimentoSurvey pós-atendimento≥ 40

Checklist de go-live

Armadilhas comuns

  1. Base sem revisão humana. Chunk de qualidade ruim vira resposta de qualidade ruim.
  2. Threshold de confiança ausente. O LLM responde mesmo quando a base não cobre — com alta probabilidade de invenção.
  3. Fallback humano sem contexto. O agente recebe "pergunta não respondida" sem ver o que o RAG buscou — diagnóstico impossível.
  4. Log sem chunk. Sem saber qual trecho foi usado, você não consegue identificar qual documento atualizar quando o modelo errar.

Conclusão

n8n + RAG é a dupla mais custo-eficiente para atendimento inteligente em B2B em 2026. n8n cuida da orquestração, fluxo de aprovação e logs; RAG garante que as respostas tenham base factual rastreável. Juntos, resolvem o problema de "chatbot que inventa" e o de "automação cega sem controle".

Quer implementar esse fluxo no seu negócio? O diagnóstico inicial é gratuito.