DeepSeek: Nova Técnica para Modelos de Recompensa Mais Inteligentes e Escaláveis

Leandro Lopes
5 Min de Leitura
DeepSeek: Nova Técnica para Modelos de Recompensa Mais Inteligentes e Escaláveis

A DeepSeek, renomado laboratório de pesquisa na China conhecido por seus modelos abertos como o DeepSeek-R1, apresentou um avanço significativo no campo de modelos de recompensa para grandes modelos de linguagem (LLMs). A técnica, denominada Self-Principled Critique Tuning (SPCT), promete transformar a maneira como os modelos são treinados para tarefas complexas e abertas, onde critérios precisos podem ser indefinidos ou inexistentes.

A Importância dos Modelos de Recompensa e Seus Desafios

No aprendizado por reforço (RL), uma peça-chave no desenvolvimento de LLMs, os modelos de recompensa (RMs) desempenham o papel crítico de avaliar respostas geradas e fornecer sinais que permitem ajustes no comportamento do modelo. Esses sinais configuram o caminho para que os LLMs aprendam a oferecer respostas úteis e precisas.

Entretanto, os modelos de recompensa atuais possuem limitações. Eles funcionam bem em domínios estreitos, onde as regras são claras e os resultados podem ser facilmente verificados. Por exemplo, no DeepSeek-R1, o aprendizado por reforço foi aplicado em problemas matemáticos e de codificação, onde as soluções corretas são bem definidas. Contudo, ao lidar com cenários gerais e responsivos, os desafios aumentam exponencialmente. Critérios vagos e a ausência de verdades absolutas dificultam a tarefa de treinar modelos capazes de lidar com estes contextos amplos.

Os pesquisadores da DeepSeek identificaram quatro requisitos centrais para modelos de recompensa generalistas:

  1. Flexibilidade de Entrada: Capacidade de lidar com diferentes tipos de consulta e avaliar múltiplas respostas.
  2. Precisão: Geração de sinais de recompensa precisos em domínios amplos e complexos.
  3. Escalabilidade na Inferência: Melhor qualidade ao aumentar os recursos computacionais.
  4. Aprendizado de Comportamentos Escaláveis: Modelos devem melhorar à medida que mais recursos de computação são usados.

A Proposta do SPCT

A abordagem SPCT introduz um avanço significativo ao incorporar princípios dinâmicos no processo de geração de recompensas. Em vez de aplicar critérios fixos como etapa inicial, o modelo gera princípios e críticas adaptados às consultas e respostas em tempo real. Isso permite maior alinhamento no processo de avaliação e melhora a qualidade das recompensas.

O SPCT é aplicado em duas fases:

  1. Afinamento Rejeitivo: O modelo aprende a criar princípios e críticas nos formatos corretos. Gera respostas críticas e trajetórias, que são aceitas somente quando os sinais de recompensa correspondem aos dados de referência. Essa filtragem aprimora as capacidades do modelo progressivamente.
  2. Aprendizado por Reforço Baseado em Regras: Após a primeira fase, o modelo é ajustado com aprendizado por reforço, onde sinais de recompensa são baseados em regras simples, como precisão na escolha da melhor resposta. Isso afina o modelo para gerar recompensas mais eficazes e escaláveis.

Para superar o desafio da escalabilidade na inferência, o SPCT utiliza uma abordagem de amostragem múltipla. Vários conjuntos de princípios e críticas são gerados para cada entrada, e a avaliação final é feita com base em votação, o que aprimora a precisão das recompensas.

Além disso, para minimizar julgamentos imprecisos, a equipe apresentou um “meta RM”, um modelo auxiliar que filtra os resultados de baixa qualidade antes da avaliação final.

Resultados e Implicações no Uso Empresarial

Testes realizados no DeepSeek-GRM-27B, utilizando a técnica SPCT, demonstraram ganhos notáveis em escalabilidade e qualidade nas recompensas. Quando comparado a modelos maiores, como Nemotron-4-340B, o DeepSeek-GRM-27B apresentou desempenho superior em tarefas gerais ao se beneficiar de maior diversidade nos princípios gerados. Mesmo em benchmarks rigorosos, o modelo da DeepSeek se destacou.

No entanto, os modelos especializados ainda apresentam vantagem em tarefas altamente verificáveis, onde abordagens mais diretas podem ser mais eficientes. Mesmo assim, o SPCT oferece um potencial significativo em aplicações empresariais, como tarefas criativas ou ambientes dinâmicos, onde a flexibilidade e adaptabilidade são fundamentais.

O próximo passo para a DeepSeek inclui melhorias na eficiência computacional e integração mais profunda com pipelines de aprendizado por reforço. Para explorar mais sobre avanços no aprendizado por reforço e suas aplicações, veja Ferramentas Essenciais para Construção de Squads de Agentes.

A inovação do SPCT e suas aplicações práticas indicam uma nova era para os modelos de recompensa, proporcionando maior escalabilidade, precisão e adaptabilidade. Modelos como o DeepSeek-GRM estão pavimentando o caminho para soluções mais robustas e eficazes no treinamento de LLMs para uma ampla gama de tarefas.

Tag:
Compartilhe