Menos é mais: UC Berkeley e Google descobrem o potencial de LLMs com uma abordagem simples

Leandro Lopes
4 Min de Leitura
Menos é mais: UC Berkeley e Google descobrem o potencial de LLMs com uma abordagem simples

Um estudo recente, conduzido por pesquisadores do Google Research e da Universidade da Califórnia, Berkeley, apresentou uma solução surpreendentemente simples para aprimorar o desempenho de modelos de linguagem de grande porte (LLMs). A técnica envolve a ampliação do método de busca baseado em amostragem, que gera múltiplas respostas e utiliza o próprio modelo para verificá-las.

Simplicidade que entrega resultados

A pesquisa descobriu que mesmo uma implementação básica dessa técnica, com amostragem aleatória e autoverificação, pode superar modelos altamente treinados em benchmarks populares.

Por exemplo, o Gemini 1.5 Pro obteve resultados superiores ao o1-Preview, mostrando que soluções simples podem ser tão eficazes quanto arquiteturas mais complexas e caras. Isso abre novas possibilidades para aplicações empresariais e desafia a ideia de que apenas abordagens especializadas trazem resultados de ponta.

Limitações das abordagens tradicionais

Métodos populares de escalonamento durante o tempo de teste, como o uso de aprendizado por reforço para gerar respostas prolongadas com raciocínio em cadeia, são eficazes, mas caros. Outra estratégia, chamada de “autoconsistência”, depende da geração de várias respostas e da escolha da mais frequente. No entanto, em problemas complexos, a resposta mais repetida nem sempre é a correta.

Já a busca baseada em amostragem oferece uma alternativa mais acessível e escalável. O modelo gera múltiplas respostas e seleciona a melhor por meio de um mecanismo de verificação, que pode ser implementado de forma paralela e adaptada para qualquer modelo LLM, mesmo aqueles não treinados especificamente para tarefas de raciocínio.

Como funciona o método de busca baseado em amostragem

Esse modelo simples de busca realiza três etapas principais:

  1. Geração de respostas: O modelo gera diferentes soluções para um problema usando um ajuste de temperatura não nulo, garantindo diversidade nas respostas.
  2. Verificação de respostas: Cada solução passa por um processo de verificação para avaliar sua precisão. O resultado final é calculado a partir da média das pontuações de verificação.
  3. Seleção da melhor resposta: A solução com a maior pontuação é escolhida. Em caso de empate, o modelo realiza comparações entre as opções para determinar a melhor.

Os pesquisadores destacam dois eixos principais para o escalonamento: o número de respostas geradas e a quantidade de verificações realizadas por resposta. Essa abordagem continua a melhorar o desempenho mesmo em situações onde outras técnicas saturam.

Comparando a eficácia da amostragem

O estudo mostrou que essa técnica aprimora significativamente a capacidade dos modelos em benchmarks complexos, como AIME e MATH. Por exemplo, o Gemini 1.5 Pro superou o o1-Preview, enquanto o Gemini 1.5 Flash foi além do Pro. Entretanto, os custos de implementação podem ser altos, principalmente em cenários com amostragem extensa e múltiplas verificações. Estratégias como o uso de modelos menores, como o Gemini 1.5 Flash, e técnicas de otimização podem reduzir os gastos.

Estratégias para autoverificação eficaz

O estudo destacou duas abordagens promissoras para melhorar a autoverificação:

  • Comparação direta entre respostas: Quando há divergências entre as soluções, o modelo consegue identificar erros com mais precisão, corrigindo falhas comuns.
  • Reformulação orientada pela tarefa: Respostas organizadas de forma mais estruturada (como estilo “teorema-lema-prova”) são mais fáceis de verificar, especialmente em tarefas matemáticas.

Essas estratégias podem transformar o desempenho de modelos de linguagem e oferecer soluções viáveis para problemas complexos.

Aplicações no mundo real

Essa técnica simples e escalável oferece oportunidades reais para empresas. Com mais recursos de computação destinados à amostragem e verificação, é possível superar limites operacionais e alcançar novos patamares de desempenho. Sua compatibilidade com outras estratégias e capacidade de paralelização tornam a busca baseada em amostragem uma ferramenta essencial para enfrentar desafios complexos no futuro.

Compartilhe