Nvidia lança o Llama-3.1 Nemotron Ultra com desempenho superior ao DeepSeek R1

Leandro Lopes
4 Min de Leitura
Nvidia lança o Llama-3.1 Nemotron Ultra com desempenho superior ao DeepSeek R1

Mesmo enquanto a Meta enfrenta críticas sobre a nova família de modelos Llama 4, a Nvidia, líder em GPUs, apresentou o Llama-3.1 Nemotron Ultra. Esse modelo, totalmente open source, foi baseado no antigo Llama-3.1-405B-Instruct da Meta e mostra um desempenho impressionante em benchmarks de terceiros, superando o renomado modelo DeepSeek R1 em várias tarefas.

O Llama-3.1-Nemotron-Ultra-253B-v1 conta com 253 bilhões de parâmetros e foi projetado para raciocínio avançado, seguir instruções e ser utilizado em fluxos de trabalho de assistentes virtuais. Ele foi anunciado pela primeira vez na Conferência Anual de Tecnologia GPU (GTC) da Nvidia, em março.

Design otimizado para eficiência

O Llama-3.1 Nemotron Ultra foi criado com foco em eficiência de inferência. Sua arquitetura, refinada com o processo Neural Architecture Search (NAS), introduziu melhorias como camadas de atenção otimizadas e redes feedforward fundidas. Essas mudanças reduziram a necessidade de memória e o uso computacional, permitindo que o modelo funcione em um único nó de GPU 8x H100.

Além disso, o modelo é compatível com as microarquiteturas B100 e Hopper da Nvidia, oferecendo suporte para modos de precisão BF16 e FP8. Isso o torna uma solução econômica para ambientes de data centers.

Melhorias por treinamento pós-modelo

Para aumentar o desempenho, o modelo passou por um treinamento pós-modelo em várias fases. Foram realizados ajustes supervisionados em áreas como matemática, geração de código, chat e uso de ferramentas. Em seguida, utilizou-se o aprendizado por reforço com Group Relative Policy Optimization (GRPO) para aprimorar a capacidade de seguir instruções e realizar raciocínios.

O processo incluiu também destilação de conhecimento com mais de 65 bilhões de tokens, seguido por pré-treinamento contínuo usando 88 bilhões de tokens adicionais. As fontes de dados variaram entre conjuntos como FineWeb, Buzz-V1.2 e Dolma, além de métodos de geração sintética para ensinar o modelo a alternar entre modos de raciocínio.

Desempenho em benchmarks

O Llama-3.1 Nemotron Ultra demonstrou ganhos significativos em diferentes benchmarks ao ativar o modo de raciocínio. No MATH500, a precisão subiu de 80,40% para 97,00%. No AIME25, os resultados aumentaram de 16,67% para 72,50%. Em tarefas de codificação, como no LiveCodeBench, os resultados dobraram, atingindo 66,31%.

Mesmo com um número de parâmetros menor que o DeepSeek R1 — um modelo MoE com 671 bilhões de parâmetros —, o Llama-3.1 Nemotron Ultra obteve melhores resultados em áreas como GPQA (76,01% contra 71,5%) e tarefas LiveCodeBench (66,31% contra 65,9%). Contudo, o DeepSeek R1 ainda lidera em benchmarks matemáticos mais complexos, como AIME25 (79,8% contra 72,50%).

Usos e integração

O modelo é compatível com a biblioteca Transformers do Hugging Face (versão 4.48.3 recomendada) e suporta sequências de entrada e saída de até 128.000 tokens. Desenvolvedores podem personalizar o comportamento do raciocínio através de prompts e escolher estratégias de decodificação adequadas à tarefa.

Para tarefas mais complexas de raciocínio, recomenda-se o uso de amostragem de temperatura (0,6) e valor top-p de 0,95. Já para resultados mais determinísticos, a decodificação greedy é sugerida.

O Llama-3.1 Nemotron Ultra também possui suporte multilíngue, funcionando em inglês, português, espanhol e outros idiomas. Suas aplicações incluem chatbots, geração de código, agentes de IA e geração aumentada por recuperação (RAG).

Licenciamento comercial

Sob a Nvidia Open Model License e o Acordo de Licença Comunitário Llama 3.1, o modelo está disponível para uso comercial. A Nvidia destaca a necessidade de avaliar alinhamento, segurança e possíveis vieses antes da implementação.

Para mais detalhes sobre avanços em modelos de IA, confira o nosso artigo sobre o impacto do DeepSeek R1.

Compartilhe