Quanto custa hospedar n8n + RAG em produção?

n8n self-hosted em VPS básica (2vCPU, 4GB): ~R$ 80–200/mês. Banco pgvector na mesma infra: R$ 0 extra. LLM via API: R$ 200–3.000/mês dependendo do volume. Total MVP: R$ 300–3.200/mês, bem abaixo de soluções SaaS de atendimento no mercado.

n8n funciona com WhatsApp Business?

Sim. n8n tem nó nativo para WhatsApp Business API (Meta) e integra com provedores como Z-API, Evolution API e Twilio. Para volumes maiores (> 1.000 conversas/mês) recomendo Meta diretamente; para MVP, provedores intermediários são mais simples.

Como atualizar a base de conhecimento sem derrubar o atendimento?

Indexação incremental: novos documentos são processados e adicionados ao índice sem re-indexar tudo. A base RAG serve consultas enquanto novos documentos são processados em background. O índice antigo permanece ativo até o novo estar pronto — zero downtime.

n8n · RAG · MOFU

n8n + RAG: atendimento inteligente com base documental

Por Adriano Schneider · 5 de maio de 2026 · 10 min de leitura

A combinação que mais vejo funcionando em B2B em 2026 é n8n orquestrando um fluxo de atendimento onde o LLM responde com base em RAG — e escala para humano quando não sabe ou quando o caso é crítico. Neste artigo, o workflow completo: da pergunta do cliente à resposta rastreável, com fallback, logs e qualidade.

Visão geral da arquitetura

Cinco camadas, cada uma com responsabilidade clara:

Canal de entrada — WhatsApp Business, e-mail, chat web, ticket system.
n8n como orquestrador — recebe o evento, classifica, gerencia estado, decide fluxo.
RAG Pipeline — busca os chunks relevantes da base documental.
LLM como gerador — produz a resposta com base nos chunks recuperados.
Fallback humano — quando a confiança é baixa ou o caso é crítico.

Workflow em 8 nós (n8n)

Trigger (Webhook) — recebe mensagem via WhatsApp/e-mail/chat. Extrai: texto, ID do usuário, histórico recente (últimas 3 trocas).
Classificador de intenção (LLM) — categoriza a pergunta: FAQ simples / consulta documental / reclamação / escalação urgente. Output: { tipo, prioridade, requer_humano }.
Branch: requer_humano = true → notifica agente humano via Slack com contexto completo. Fluxo termina aqui para este ticket.
Busca RAG — envia a pergunta para o pipeline de retrieval (pgvector, Qdrant, etc.). Recebe top-3 chunks com score de similaridade.
Validação de confiança — se score do chunk mais relevante < threshold (ex: 0.75), redireciona para humano com nota "base não cobre".
Geração de resposta (LLM) — prompt: "Com base nos seguintes trechos [chunk1, chunk2, chunk3], responda a pergunta. Cite o trecho quando afirmar fato. Se os trechos não cobrirem, declare que não sabe." Output: resposta + lista de chunks citados.
Validação de output — checa se a resposta contém citações quando afirma fatos, se não há URLs externas, se não há dados pessoais de outros usuários.
Envio + Log — envia resposta ao canal, escreve linha de log estruturado: pergunta, chunks usados, resposta, score, tempo de resposta, canal, user_id.

Montando a base documental

A qualidade do RAG depende da qualidade da base. Checklist mínimo:

Fontes confiáveis: FAQ oficial, manuais de produto, políticas de serviço, atas de Q&A do time de suporte.
Chunking semântico: quebrar por seção/parágrafo, não por número fixo de caracteres.
Metadados: cada chunk com { fonte, data_criação, data_validade, categoria, versão }.
Revisão humana: primeiro lote indexado deve ser revisado por especialista antes de ir a produção.
Pipeline de atualização: quando FAQ ou manual muda, re-indexar os chunks afetados automaticamente (webhook no CMS ou manual + n8n).

Métricas para acompanhar

Métrica	Fórmula simplificada	Meta inicial
Taxa de resolução automática	Respostas enviadas / total de perguntas	≥ 70%
Escalação para humano	Tickets com fallback humano / total	≤ 20%
Score de similaridade médio	Média do score do chunk top-1	≥ 0.80
Tempo médio de resposta	Trigger → envio	≤ 8s
Taxa de citação	Respostas com chunk citado / respostas com fatos	≥ 90%
NPS de atendimento	Survey pós-atendimento	≥ 40

Checklist de go-live

[ ] Base indexada e revisada por especialista com ≥ 50 documentos relevantes?
[ ] Threshold de confiança calibrado com dataset de perguntas reais?
[ ] Fallback humano testado (mensagem chega ao Slack/CRM do agente)?
[ ] Logs estruturados habilitados (pergunta, chunks, resposta, score)?
[ ] LGPD mapeada (dados de clientes no log — retenção, acesso)?
[ ] Red team de prompt injection no fluxo (ver artigo)?
[ ] Plano de atualização da base (quem, quando, como)?

Armadilhas comuns

Base sem revisão humana. Chunk de qualidade ruim vira resposta de qualidade ruim.
Threshold de confiança ausente. O LLM responde mesmo quando a base não cobre — com alta probabilidade de invenção.
Fallback humano sem contexto. O agente recebe "pergunta não respondida" sem ver o que o RAG buscou — diagnóstico impossível.
Log sem chunk. Sem saber qual trecho foi usado, você não consegue identificar qual documento atualizar quando o modelo errar.

Conclusão

n8n + RAG é a dupla mais custo-eficiente para atendimento inteligente em B2B em 2026. n8n cuida da orquestração, fluxo de aprovação e logs; RAG garante que as respostas tenham base factual rastreável. Juntos, resolvem o problema de "chatbot que inventa" e o de "automação cega sem controle".

Quer implementar esse fluxo no seu negócio? O diagnóstico inicial é gratuito.