O Google DeepMind revelou dois modelos inovadores de inteligência artificial projetados para ampliar as capacidades dos robôs em tarefas do mundo físico. Essas tecnologias prometem auxiliar robôs a executar uma variedade maior de atividades práticas, mesmo sem treinamento prévio.
Gemini Robotics: Um modelo multimodal para o mundo real
O primeiro modelo, chamado Gemini Robotics, combina visão, linguagem e ação em uma plataforma integrada. Essa abordagem permite que o sistema compreenda situações inéditas e responda a elas de maneira eficiente. Ele é baseado no Gemini 2.0, a versão mais recente do modelo de IA do Google.
Segundo Carolina Parada, diretora sênior de robótica do Google DeepMind, o Gemini Robotics utiliza o entendimento multimodal do mundo do Gemini 2.0 e o aplica ao universo físico, incluindo a capacidade de realizar ações práticas. “Estamos adicionando ações físicas como uma nova modalidade”, explicou Parada.
Três pilares para robôs mais eficientes
O Google DeepMind identificou três áreas principais para o desenvolvimento de robôs mais úteis: generalidade, interatividade e destreza.
- Generaliade: A habilidade de lidar com cenários novos e diferentes, sem necessidade de treinamento específico para cada situação.
- Interatividade: Melhora na comunicação e interação dos robôs com pessoas e com o ambiente ao redor.
- Destreza: A capacidade de realizar tarefas detalhadas, como dobrar uma folha de papel ou abrir uma garrafa.
Esses avanços tornam os robôs mais versáteis e prontos para uma ampla gama de aplicações práticas.
Para quem busca entender mais sobre o impacto da IA no cotidiano e como tecnologias como essa podem transformar negócios, confira 2025: A Revolução da IA e Suas Novas Possibilidades.
Gemini Robotics-ER: Raciocínio visual e interação aprimorada
Além disso, o Google DeepMind revelou o Gemini Robotics-ER, um modelo avançado focado em raciocínio visual e linguagem. Essa ferramenta é projetada para interpretar cenários complexos e dinâmicos. Por exemplo, ao organizar itens em uma mesa para colocá-los em uma lancheira, o sistema entende como abrir a lancheira, pegar os objetos e posicioná-los corretamente.
O Gemini Robotics-ER é compatível com controladores de baixo nível, usados para controlar movimentos de robôs, oferecendo novas possibilidades para engenheiros e desenvolvedores na área de robótica.
Para explorar outras áreas onde a IA está sendo utilizada, veja Casos Reais de Uso para Agentes de Inteligência Artificial.
Segurança em primeiro lugar
A segurança é uma prioridade no desenvolvimento desses novos modelos. O pesquisador do Google DeepMind, Vikas Sindhwani, destacou que os modelos Gemini Robotics-ER são treinados para avaliar se uma ação é segura antes de executá-la. Além disso, novos critérios e ferramentas estão sendo introduzidos para avançar ainda mais as pesquisas sobre segurança na área de inteligência artificial.
No ano passado, o Google DeepMind apresentou a “Constituição de Robôs”, um conjunto de regras inspirado nas leis de Isaac Asimov, voltado para orientar o comportamento de seus robôs.
Parcerias e testes confiáveis
O Google DeepMind está colaborando com empresas como Apptronik, Boston Dynamics e Agility Robotics para desenvolver a próxima geração de robôs humanoides. Modelos como o Gemini Robotics-ER já estão sendo testados por parceiros confiáveis, expandindo suas aplicações práticas.
Se você está interessado em como robôs estão moldando o futuro, confira Apple está Investigando Robôs Humanoides.
Conclusão
Os avanços apresentados pelo Google DeepMind deixam claro que a integração de inteligência artificial com robótica está evoluindo rapidamente. Com modelos como o Gemini Robotics e o Gemini Robotics-ER, estamos cada vez mais próximos de robôs capazes de realizar tarefas práticas, interagir com humanos e adaptar-se a novas situações. Essa revolução tecnológica promete transformar indústrias e a forma como interagimos com a tecnologia no dia a dia.