LangChain revela limitações de agentes de IA sobrecarregados por ferramentas

Empresas interessadas em soluções de IA enfrentam uma decisão importante: usar um único agente ou investir em uma rede de múltiplos agentes para atender a diversas áreas da organização. A LangChain, empresa especializada em frameworks de orquestração, realizou experimentos para analisar os limites de um único agente de IA em relação ao número de ferramentas e contextos que ele consegue lidar antes que seu desempenho seja comprometido.

A abordagem da LangChain incluiu testes com um agente ReAct, considerado um dos modelos mais básicos de arquitetura agentic. A principal questão era: até que ponto um agente ReAct consegue realizar suas tarefas de forma eficiente antes de ser sobrecarregado?

Metodologia dos Testes

Os experimentos focaram em dois cenários específicos: responder perguntas e agendar reuniões. A LangChain utilizou um agente interno de e-mails, desenhado para lidar com solicitações de agendamentos e suporte ao cliente.

Durante os testes, a LangChain empregou modelos de linguagem avançados, incluindo Claude-3.5 Sonnet da Anthropic, Llama-3.3-70B da Meta e três versões do GPT da OpenAI. Estes agentes foram avaliados em sua capacidade de seguir instruções, acessar ferramentas na ordem correta e responder aos e-mails com precisão.

No caso dos agendamentos, o objetivo era verificar se o agente conseguia lembrar de instruções específicas, como horários para reuniões com diferentes participantes.

Desempenho e Limitações

À medida que os agentes recebiam mais tarefas, como atendimento ao cliente e agendamento, a LangChain identificou que os modelos começavam a apresentar quedas notáveis de desempenho. O GPT-4o, por exemplo, teve um desempenho inferior em comparação com outros modelos, especialmente quando mais contextos eram adicionados. O declínio foi ainda mais evidente quando os agentes tinham que lidar com sete ou mais domínios, com desempenho caindo para 2% em algumas situações.

O modelo Llama-3.3-70B também falhou em várias ocasiões, esquecendo-se de usar ferramentas críticas, como a função de envio de e-mails. Somente os modelos Claude-3.5 Sonnet, o1 e o3-mini apresentaram um desempenho mais estável, embora o o3-mini tenha começado a perder eficiência quando contextos irrelevantes foram introduzidos.

Próximos Passos

Com base nesses achados, a LangChain está explorando a avaliação de arquiteturas de múltiplos agentes, usando os mesmos métodos de sobrecarga de domínios. A empresa também está investindo no conceito de “agentes ambientais”, que operam em segundo plano e são ativados por eventos específicos.

Esses experimentos são um passo importante para compreender as melhores práticas no desenvolvimento de agentes de IA, seja utilizando um único modelo ou redes mais abrangentes.