n8n + RAG: atendimento inteligente com base documental
A combinação que mais vejo funcionando em B2B em 2026 é n8n orquestrando um fluxo de atendimento onde o LLM responde com base em RAG — e escala para humano quando não sabe ou quando o caso é crítico. Neste artigo, o workflow completo: da pergunta do cliente à resposta rastreável, com fallback, logs e qualidade.
Visão geral da arquitetura
Cinco camadas, cada uma com responsabilidade clara:
- Canal de entrada — WhatsApp Business, e-mail, chat web, ticket system.
- n8n como orquestrador — recebe o evento, classifica, gerencia estado, decide fluxo.
- RAG Pipeline — busca os chunks relevantes da base documental.
- LLM como gerador — produz a resposta com base nos chunks recuperados.
- Fallback humano — quando a confiança é baixa ou o caso é crítico.
Workflow em 8 nós (n8n)
- Trigger (Webhook) — recebe mensagem via WhatsApp/e-mail/chat. Extrai: texto, ID do usuário, histórico recente (últimas 3 trocas).
- Classificador de intenção (LLM) — categoriza a pergunta: FAQ simples / consulta documental / reclamação / escalação urgente. Output:
{ tipo, prioridade, requer_humano }. - Branch: requer_humano = true → notifica agente humano via Slack com contexto completo. Fluxo termina aqui para este ticket.
- Busca RAG — envia a pergunta para o pipeline de retrieval (pgvector, Qdrant, etc.). Recebe top-3 chunks com score de similaridade.
- Validação de confiança — se score do chunk mais relevante < threshold (ex: 0.75), redireciona para humano com nota "base não cobre".
- Geração de resposta (LLM) — prompt: "Com base nos seguintes trechos [chunk1, chunk2, chunk3], responda a pergunta. Cite o trecho quando afirmar fato. Se os trechos não cobrirem, declare que não sabe." Output: resposta + lista de chunks citados.
- Validação de output — checa se a resposta contém citações quando afirma fatos, se não há URLs externas, se não há dados pessoais de outros usuários.
- Envio + Log — envia resposta ao canal, escreve linha de log estruturado: pergunta, chunks usados, resposta, score, tempo de resposta, canal, user_id.
Montando a base documental
A qualidade do RAG depende da qualidade da base. Checklist mínimo:
- Fontes confiáveis: FAQ oficial, manuais de produto, políticas de serviço, atas de Q&A do time de suporte.
- Chunking semântico: quebrar por seção/parágrafo, não por número fixo de caracteres.
- Metadados: cada chunk com
{ fonte, data_criação, data_validade, categoria, versão }. - Revisão humana: primeiro lote indexado deve ser revisado por especialista antes de ir a produção.
- Pipeline de atualização: quando FAQ ou manual muda, re-indexar os chunks afetados automaticamente (webhook no CMS ou manual + n8n).
Métricas para acompanhar
| Métrica | Fórmula simplificada | Meta inicial |
|---|---|---|
| Taxa de resolução automática | Respostas enviadas / total de perguntas | ≥ 70% |
| Escalação para humano | Tickets com fallback humano / total | ≤ 20% |
| Score de similaridade médio | Média do score do chunk top-1 | ≥ 0.80 |
| Tempo médio de resposta | Trigger → envio | ≤ 8s |
| Taxa de citação | Respostas com chunk citado / respostas com fatos | ≥ 90% |
| NPS de atendimento | Survey pós-atendimento | ≥ 40 |
Checklist de go-live
- [ ] Base indexada e revisada por especialista com ≥ 50 documentos relevantes?
- [ ] Threshold de confiança calibrado com dataset de perguntas reais?
- [ ] Fallback humano testado (mensagem chega ao Slack/CRM do agente)?
- [ ] Logs estruturados habilitados (pergunta, chunks, resposta, score)?
- [ ] LGPD mapeada (dados de clientes no log — retenção, acesso)?
- [ ] Red team de prompt injection no fluxo (ver artigo)?
- [ ] Plano de atualização da base (quem, quando, como)?
Armadilhas comuns
- Base sem revisão humana. Chunk de qualidade ruim vira resposta de qualidade ruim.
- Threshold de confiança ausente. O LLM responde mesmo quando a base não cobre — com alta probabilidade de invenção.
- Fallback humano sem contexto. O agente recebe "pergunta não respondida" sem ver o que o RAG buscou — diagnóstico impossível.
- Log sem chunk. Sem saber qual trecho foi usado, você não consegue identificar qual documento atualizar quando o modelo errar.
Conclusão
n8n + RAG é a dupla mais custo-eficiente para atendimento inteligente em B2B em 2026. n8n cuida da orquestração, fluxo de aprovação e logs; RAG garante que as respostas tenham base factual rastreável. Juntos, resolvem o problema de "chatbot que inventa" e o de "automação cega sem controle".
Quer implementar esse fluxo no seu negócio? O diagnóstico inicial é gratuito.