A inteligência, por sua natureza, é complexa e frequentemente medida de forma aproximada. Assim como em exames de admissão universitária, testes e benchmarks são usados para tentar medir capacidades. Contudo, será que uma pontuação perfeita significa que todos que a atingem possuem o mesmo nível de inteligência? Claramente, não. Esses benchmarks são indicadores aproximados, e não medidas absolutas das capacidades reais de indivíduos ou sistemas.
No mundo da inteligência artificial, benchmarks como o MMLU (Massive Multitask Language Understanding) tornaram-se ferramentas padrão para avaliar modelos em disciplinas acadêmicas. O formato de múltipla escolha facilita comparações, mas deixa a desejar ao capturar a verdadeira essência da inteligência. Por exemplo, modelos como Claude 3.5 Sonnet e GPT-4.5 podem apresentar pontuações semelhantes no MMLU, mas suas diferenças no desempenho prático são inegáveis.
Medindo a “inteligência” na IA
Com o lançamento do benchmark ARC-AGI, projetado para testar raciocínio geral e resolução criativa de problemas, as discussões sobre como medir inteligência em IA ganharam força. O ARC-AGI é um novo avanço, mas ainda reflete limitações de avaliações tradicionais, que frequentemente focam no conhecimento isolado em vez de habilidades práticas e aplicadas.
Outro desenvolvimento relevante é o benchmark “Humanity’s Last Exam”, que desafia sistemas de IA com 3.000 questões complexas. Apesar de resultados iniciais promissores, ele ainda avalia a IA em um contexto isolado, sem considerar capacidades práticas, como uso de ferramentas e resolução de problemas reais.
Modelos avançados muitas vezes apresentam falhas em tarefas simples, como contar letras em uma palavra ou comparar números corretamente. Essas falhas demonstram que inteligência não se resume a passar em testes, mas sim a aplicar lógica de forma consistente no mundo real.
Um novo padrão para avaliar a capacidade da IA
Benchmarks tradicionais enfrentam limitações importantes. Por exemplo, o GPT-4, mesmo com ferramentas, alcança apenas 15% de sucesso em tarefas complexas no benchmark GAIA, apesar de apresentar resultados impressionantes em testes de múltipla escolha.
Essa desconexão é problemática, especialmente à medida que sistemas de IA são aplicados em contextos empresariais. Testes tradicionais avaliam apenas a memória, ignorando aspectos cruciais como coleta de informações, execução de código ou análise de dados em múltiplos domínios.
O GAIA, criado em colaboração com especialistas como Meta-FAIR, HuggingFace e AutoGPT, propõe um novo paradigma. Ele inclui 466 perguntas cuidadosamente elaboradas, divididas em três níveis de dificuldade, que testam capacidades essenciais, como navegação na web, execução de código e raciocínio complexo. Esse formato reflete desafios reais enfrentados por empresas, nos quais soluções raramente dependem de uma única ação ou ferramenta.
No nível mais avançado, um modelo de IA obteve 75% de precisão no GAIA, superando soluções competitivas, como Magnetic-1 da Microsoft (38%) e Langfun Agent do Google (49%). Esse resultado foi alcançado através da combinação de modelos especializados e do uso do Sonnet 3.5 da Anthropic como modelo principal.
Conclusão
A evolução dos benchmarks reflete uma mudança necessária na forma como medimos a inteligência em IA. Aplicações do mundo real demandam mais do que pontuações em testes; elas exigem uma avaliação abrangente de habilidades práticas e interdisciplinares. O GAIA estabelece um novo padrão, oferecendo uma abordagem mais alinhada com os desafios e oportunidades da IA no ambiente empresarial. Para aprofundar esse debate, veja também como benchmarks específicos podem impactar casos reais.