Esta documentação tem como objetivo apresentar os conceitos fundamentais utilizados na avaliação e recomendação de modelos de linguagem (LLMs) para diferentes tipos de agentes e cenários de uso.
Logo abaixo temos a tabela comparativa de LLMs, que consolida as principais características e critérios de análise dos modelos. Logo após a tabela, são apresentadas explicações conceituais que apoiam a correta interpretação de critérios como:
- Complexidade
- Volume Esperado
- Risco de Erro
- Características gerais dos modelos de linguagem
O propósito é garantir uma leitura mais consciente e alinhada da tabela, reduzindo interpretações equivocadas e apoiando decisões técnicas, de produto e de negócio.
IMPORTANTE: As diretrizes apresentadas neste material não representam regras fixas ou imutáveis. Elas devem ser utilizadas como referência, podendo ser ajustadas conforme o contexto, o nível de maturidade do projeto, testes práticos e a evolução dos próprios modelos de linguagem. |
| Tabela Comparativa - LLMs | |||||||
| Tipo de Agente | Descrição do Cenário | Complexidade | Volume Esperado | Risco de Erro | LLM Recomendado | Justificativa | Exemplos por Nicho (Saúde, ISP, Varejo, Educação, Financeiro) |
| Agente de suporte técnico avançado | Diagnóstico e análise técnica | Alta | Baixo | Alto | GPT-4.1 Full | Erro custa caro | ISP: falha de link Saúde: erro em sistema clínico |
| Agente jurídico ou contratual | Contratos e pareceres | Alta | Baixo | Alto | GPT-4.1 Full | Precisão e contexto | Financeiro: contratos Educação: termos acadêmicos |
| Copilot interno | Apoio a equipes internas | Alta | Baixo | Alto | GPT-4.1 Full | Conversas longas | Saúde: apoio a recepção ISP: suporte N2 Financeiro: backoffice |
| Agente com conversa longa e não linear | Usuário muda muito de assunto | Alta | Médio | Alto | GPT-4.1 Full | Mantém coerência | Saúde: paciente confuso Financeiro: dúvidas complexas |
| Agente de pré-triagem clínica | Entende sintomas e direciona corretamente | Alta | Baixo | Alto | GPT-4.1 Full | Raciocínio encadeado e contexto | Saúde: triagem de pacientes antes do atendimento |
| Agente de interpretação de exames | Explica laudos em linguagem simples | Alta | Baixo | Alto | GPT-4.1 Full | Alta precisão e cuidado com contexto | Saúde: explicação de exames laboratoriais |
| Agente de diagnóstico técnico avançado | Analisa histórico, logs e cenários | Alta | Baixo | Alto | GPT-4.1 Full | Erro técnico gera alto impacto | ISP: falhas complexas de link |
| Agente de retenção avançada | Conversa longa para evitar churn | Alta | Baixo | Alto | GPT-4.1 Full | Conversas não lineares e sensíveis | ISP: retenção de clientes insatisfeitos |
| Agente de exceções logísticas | Casos fora do fluxo padrão | Alta | Baixo | Alto | GPT-4.1 Full | Exige julgamento contextual | Varejo: pedidos extraviados ou atrasos graves |
| Copilot comercial | Apoio à argumentação de vendas | Alta | Baixo | Médio/Alto | GPT-4.1 Full | Personalização profunda | Varejo: apoio a vendedores |
| Agente acadêmico avançado | Regras complexas e exceções | Alta | Baixo | Alto | GPT-4.1 Full | Muitas variáveis e normas | Educação: trancamento, bolsas, aproveitamento |
| Copilot para coordenação | Apoia decisões administrativas | Alta | Baixo | Alto | GPT-4.1 Full | Contexto longo e precisão | Educação: coordenação acadêmica |
| Agente de renegociação complexa | Avalia propostas e contrapropostas | Alta | Baixo | Alto | GPT-4.1 Full | Risco financeiro elevado | Financeiro: renegociação de dívidas |
| Agente jurídico-financeiro | Análise de contratos e cláusulas | Alta | Baixo | Alto | GPT-4.1 Full | Texto crítico e sensível | Financeiro: contratos e termos |
| Agente de rastreio de pedido | Consulta status de pedido via VTEX / Tray/E-commerce | Baixa | Médio | Baixo | GPT-4.1 Mini/ 5 Mini | Integração simples e objetiva | Varejo: “Meu pedido chega hoje?” Educação: status de material didático Financeiro: status de cartão ou boleto |
| Agente de FAQ simples | Horários, políticas, perguntas frequentes | Baixa | Alto | Baixo | GPT-4.1 Mini/ 5 Mini | Baixa latência e custo ideal | Saúde: horários de clínica ISP: segunda via de fatura Educação: calendário escolar |
| Agente de FAQ com PDF estruturado | Base de conhecimento organizada (RAG simples) | Baixa | Médio/Alto | Baixo | GPT-4.1 Mini/ 5 Mini | Respostas padronizadas | Saúde: convênios aceitos (PDF) Financeiro: regras de produto Educação: regimento escolar |
| Agente de apresentação de preços | Responde valores e condições | Baixa | Médio | Médio | GPT-4.1 Mini/ 5 Mini | Clareza e consistência | Saúde: valores de exames ISP: planos de internet Educação: mensalidades |
| Agente de confirmação de consulta | Confirma data, hora e local | Baixa | Muito alto | Baixo | Gemini 2.5 Flash | Resposta instantânea | Saúde: confirmação automática |
| Agente de lembretes automáticos | Envia lembretes recorrentes | Baixa | Muito alto | Baixo | Gemini 2.5 Flash | Escala e baixo custo | Saúde: exames e retornos |
| Agente de instabilidade regional | Informa status da rede | Baixa | Muito alto | Baixo | Gemini 2.5 Flash | Latência mínima | ISP: internet fora da região |
| Agente de abertura simples de chamado | Coleta dados e cria ticket | Baixa | Alto | Baixo | Gemini 2.5 Flash | Fluxo rápido e direto | ISP: abertura de suporte |
| Agente de status rápido de pedido | Informa entrega e troca | Baixa | Muito alto | Baixo | Gemini 2.5 Flash | Consulta simples | Varejo: status do pedido |
| Agente de matrícula | Informações básicas de inscrição | Baixa | Alto | Baixo | Gemini 2.5 Flash | Simplicidade | Educação: matrícula |
| Agente de comunicados | Avisos rápidos e recorrentes | Baixa | Muito alto | Baixo | Gemini 2.5 Flash | Resposta direta | Educação: comunicados |
| Agente de saldo e vencimento | Consulta objetiva | Baixa | Muito alto | Baixo | Gemini 2.5 Flash | Custo crítico | Financeiro: saldo, vencimento |
| Agente de FAQ com múltiplos PDFs | PDFs grandes e variados | Média | Médio | Médio | GPT-4.1 Mini/ 5 Mini | Melhor compreensão contextual | Saúde: protocolos médicos Financeiro: políticas internas Educação: normas acadêmicas |
| Agente de vendas inbound | Qualificação de leads e oferta inicial | Média | Médio | Médio | GPT-4.1 Mini/ 5 Mini | Bom equilíbrio custo × persuasão | ISP: oferta de planos Varejo: recomendação de produtos Financeiro: abertura de conta |
| Agente de direcionamento para humano | Entende contexto e transfere corretamente | Média | Médio | Médio | GPT-4.1 Mini/ 5 Mini | Boa leitura de intenção | Saúde: triagem para atendente Financeiro: falar com gerente |
| Agente de consulta de estoque | Integração com ERP/CRM | Média | Médio | Médio | GPT-4.1 Mini/ 5 Mini | Ótimo para APIs | Varejo: produto disponível? Educação: vagas em cursos |
| Agente omnichannel padrão | Atendimento geral | Média | Médio | Médio | GPT-4.1 Mini/ 5 Mini | Modelo default (80–90%) | ISP: suporte geral Educação: secretaria virtual Financeiro: atendimento inicial |
1. Conceitos Utilizados na Avaliação dos Cenários
1.1. Complexidade
A complexidade representa o nível de esforço cognitivo exigido do modelo para executar corretamente um determinado cenário.
Esse critério não está relacionado ao tamanho da resposta, mas principalmente à capacidade do modelo de:
- Interpretar contexto
- Aplicar regras de negócio
- Manter coerência ao longo da conversa
- Tomar decisões adequadas
Classificação geral:
- Baixa
- Respostas diretas e objetivas
- Pouca ou nenhuma variação de contexto
- Regras simples ou informação estática
Ex.: status de pedido, horários de funcionamento, FAQs simples
- Média
- Necessidade de interpretar intenção do usuário
- Combinação de informações ou regras de negócio
- Contexto moderado ao longo da conversa
Ex.: vendas inbound, direcionamento para atendimento humano, suporte técnico básico
- Alta
- Raciocínio encadeado
- Análise de múltiplas variáveis
- Decisões com impacto direto no negócio ou no usuário
Ex.: jurídico, renegociação, diagnóstico técnico avançado
1.2. Volume Esperado
O volume esperado indica a escala de uso prevista para determinado agente ou cenário.
Esse critério é essencial para equilibrar custo operacional, performance, latência e estabilidade da solução.
Classificação geral:
- Baixo
- Uso pontual ou interno
- Poucas interações simultâneas
Ex.: copilots internos, apoio administrativo, análises especializadas
- Médio
- Uso recorrente em produção
- Volume previsível de atendimentos
Ex.: suporte padrão, vendas inbound, atendimento omnichannel básico
- Alto
- Grande número de interações diárias
- Possíveis picos simultâneos
Ex.: status de pedido, FAQs, lembretes e notificações automáticos
1.3. Risco de Erro
O risco de erro representa o impacto potencial caso o agente forneça uma resposta incorreta naquele cenário.
Este conceito não mede a probabilidade do modelo errar, mas sim as consequências do erro para o negócio ou para o usuário final.
Classificação geral:
- Baixo
- Erro não gera impacto relevante
- Pode ser facilmente corrigido ou ignorado
Ex.: informações gerais, comunicados simples, FAQS não críticas
- Médio
- Erro pode causar ruído operacional ou insatisfação
- Pode exigir retrabalho humano
Ex.: suporte técnico, vendas em fase de qualificação, direcionamentos incorretos
- Alto
- Erro pode gerar impacto financeiro, legal ou reputacional
- Exige maior controle e confiabilidade
Ex.: jurídico, financeiro, saúde, diagnósticos avançados
2. Características Gerais das LLMs
Cada modelo de linguagem possui características próprias, e nenhum deles é ideal para todos os cenários.
A escolha adequada depende do equilíbrio entre capacidade de raciocínio, custo operacional e risco aceitável.
De forma geral, os modelos podem ser classificados em:
LLMs focados em eficiência
- Menor custo operacional
- Boa performance para tarefas simples e repetitivas
- Indicados para cenários de:
- Alto volume esperado
- Baixa complexidade
- Baixo risco de erro
LLMs intermediários
- Bom equilíbrio entre custo e capacidade
- Suportam múltiplos contextos e regras de negócio
- Indicados para a maioria dos cenários operacionais
LLMs avançados
- Alta capacidade de raciocínio e compreensão contextual
- Maior custo operacional
- Indicados para:
- Alta complexidade
- Alto risco de erro
- Cenários críticos para o negócio
Essas características ajudam a entender por que determinados modelos são recomendados em certos cenários e evitados em outros.
4. Relação com a Tabela Comparativa
A tabela comparativa consolida esses conceitos de forma objetiva, permitindo:
- Visualizar rapidamente cada cenário
- Avaliar complexidade, volume esperado e risco de erro
- Identificar o LLM mais indicado para cada caso
- Comparar cenários semelhantes entre diferentes nichos
5. Considerações Finais
Este guia e a tabela comparativa devem ser utilizados como ferramentas de orientação, e não como regras rígidas.
A escolha de um LLM deve sempre considerar:
- O contexto específico do cliente
- Testes práticos em ambiente controlado
- A evolução dos modelos e seus custos
- O nível de risco aceitável para o cenário
Em resumo, as recomendações aqui apresentadas servem para apoiar decisões mais seguras e informadas, mantendo a flexibilidade necessária para adaptação e evolução contínua da plataforma.
