A DeepSeek, renomado laboratório de pesquisa na China conhecido por seus modelos abertos como o DeepSeek-R1, apresentou um avanço significativo no campo de modelos de recompensa para grandes modelos de linguagem (LLMs). A técnica, denominada Self-Principled Critique Tuning (SPCT), promete transformar a maneira como os modelos são treinados para tarefas complexas e abertas, onde critérios precisos podem ser indefinidos ou inexistentes.
A Importância dos Modelos de Recompensa e Seus Desafios
No aprendizado por reforço (RL), uma peça-chave no desenvolvimento de LLMs, os modelos de recompensa (RMs) desempenham o papel crítico de avaliar respostas geradas e fornecer sinais que permitem ajustes no comportamento do modelo. Esses sinais configuram o caminho para que os LLMs aprendam a oferecer respostas úteis e precisas.
Entretanto, os modelos de recompensa atuais possuem limitações. Eles funcionam bem em domínios estreitos, onde as regras são claras e os resultados podem ser facilmente verificados. Por exemplo, no DeepSeek-R1, o aprendizado por reforço foi aplicado em problemas matemáticos e de codificação, onde as soluções corretas são bem definidas. Contudo, ao lidar com cenários gerais e responsivos, os desafios aumentam exponencialmente. Critérios vagos e a ausência de verdades absolutas dificultam a tarefa de treinar modelos capazes de lidar com estes contextos amplos.
Os pesquisadores da DeepSeek identificaram quatro requisitos centrais para modelos de recompensa generalistas:
- Flexibilidade de Entrada: Capacidade de lidar com diferentes tipos de consulta e avaliar múltiplas respostas.
- Precisão: Geração de sinais de recompensa precisos em domínios amplos e complexos.
- Escalabilidade na Inferência: Melhor qualidade ao aumentar os recursos computacionais.
- Aprendizado de Comportamentos Escaláveis: Modelos devem melhorar à medida que mais recursos de computação são usados.
A Proposta do SPCT
A abordagem SPCT introduz um avanço significativo ao incorporar princípios dinâmicos no processo de geração de recompensas. Em vez de aplicar critérios fixos como etapa inicial, o modelo gera princípios e críticas adaptados às consultas e respostas em tempo real. Isso permite maior alinhamento no processo de avaliação e melhora a qualidade das recompensas.
O SPCT é aplicado em duas fases:
- Afinamento Rejeitivo: O modelo aprende a criar princípios e críticas nos formatos corretos. Gera respostas críticas e trajetórias, que são aceitas somente quando os sinais de recompensa correspondem aos dados de referência. Essa filtragem aprimora as capacidades do modelo progressivamente.
- Aprendizado por Reforço Baseado em Regras: Após a primeira fase, o modelo é ajustado com aprendizado por reforço, onde sinais de recompensa são baseados em regras simples, como precisão na escolha da melhor resposta. Isso afina o modelo para gerar recompensas mais eficazes e escaláveis.
Para superar o desafio da escalabilidade na inferência, o SPCT utiliza uma abordagem de amostragem múltipla. Vários conjuntos de princípios e críticas são gerados para cada entrada, e a avaliação final é feita com base em votação, o que aprimora a precisão das recompensas.
Além disso, para minimizar julgamentos imprecisos, a equipe apresentou um “meta RM”, um modelo auxiliar que filtra os resultados de baixa qualidade antes da avaliação final.
Resultados e Implicações no Uso Empresarial
Testes realizados no DeepSeek-GRM-27B, utilizando a técnica SPCT, demonstraram ganhos notáveis em escalabilidade e qualidade nas recompensas. Quando comparado a modelos maiores, como Nemotron-4-340B, o DeepSeek-GRM-27B apresentou desempenho superior em tarefas gerais ao se beneficiar de maior diversidade nos princípios gerados. Mesmo em benchmarks rigorosos, o modelo da DeepSeek se destacou.
No entanto, os modelos especializados ainda apresentam vantagem em tarefas altamente verificáveis, onde abordagens mais diretas podem ser mais eficientes. Mesmo assim, o SPCT oferece um potencial significativo em aplicações empresariais, como tarefas criativas ou ambientes dinâmicos, onde a flexibilidade e adaptabilidade são fundamentais.
O próximo passo para a DeepSeek inclui melhorias na eficiência computacional e integração mais profunda com pipelines de aprendizado por reforço. Para explorar mais sobre avanços no aprendizado por reforço e suas aplicações, veja Ferramentas Essenciais para Construção de Squads de Agentes.
A inovação do SPCT e suas aplicações práticas indicam uma nova era para os modelos de recompensa, proporcionando maior escalabilidade, precisão e adaptabilidade. Modelos como o DeepSeek-GRM estão pavimentando o caminho para soluções mais robustas e eficazes no treinamento de LLMs para uma ampla gama de tarefas.