A OpenAI lançou o Operator, um agente de inteligência artificial desenvolvido para operar navegadores da web de forma semelhante a um usuário humano. Ele realiza tarefas como reservar mesas em restaurantes pelo OpenTable, fazer listas de compras no Instacart e realizar pedidos no DoorDash. Diferente do ChatGPT, o Operator não se limita a um chatbot ou API, mas interage diretamente com sites de forma autônoma.
O CEO da OpenAI, Sam Altman, descreveu o Operator como o primeiro passo da empresa na criação de agentes avançados durante uma apresentação ao vivo no YouTube.
Agora disponível para assinantes do plano ChatGPT Pro nos EUA, ao custo de US$ 200 mensais, o Operator busca demonstrar o potencial da inteligência artificial autônoma enquanto coleta feedback para melhorias.
Como funciona o Operator?
O Operator não assume controle do navegador do usuário. Em vez disso, ele funciona através de um site próprio, onde o usuário insere comandos como: “Encontre ingressos para o jogo do LA Lakers esta noite”. A partir disso, o Operator abre um navegador virtual em servidores da OpenAI, realiza buscas, preenche formulários e até conclui compras. O usuário pode assistir em tempo real enquanto o agente executa essas ações.
Para garantir segurança, o Operator solicita dados de pagamento apenas quando necessário e permite que o usuário tome controle a qualquer momento. Além disso, fluxos de trabalho podem ser salvos para reutilização futura.
A tecnologia por trás do Operator, chamada de agente de uso de computador (CUA), utiliza o modelo GPT-4o, treinado especificamente para executar tarefas em interfaces gráficas (GUIs). Essa abordagem possibilita o uso de uma combinação de aprendizado por reforço e visão computacional para interpretar, raciocinar e agir.
Onde o Operator se destaca
Diferente de outras ferramentas de automação que dependem de APIs específicas, o Operator interage diretamente com interfaces gráficas. Ele utiliza capturas de tela e ações simuladas de mouse e teclado para completar tarefas. Entre as aplicações práticas estão: navegação em e-commerces, planejamento de viagens e criação de listas de compras.
Estatísticas destacam sua eficiência:
- 87% de sucesso no WebVoyager, teste de navegação em sites ao vivo.
- 58,1% de sucesso no WebArena, que simula cenários reais de e-commerce e gerenciamento de conteúdo.
A OpenAI já está trabalhando com empresas como Instacart, DoorDash e Etsy para adaptar o Operator a casos de uso específicos. No setor público, cidades como Stockton exploram o potencial do Operator para simplificar serviços cívicos.
Desafios e limitações
Embora inovador, o Operator apresenta limitações. Sites que bloqueiam agentes de IA, como Reddit, não podem ser acessados. Além disso, certas plataformas, como Figma e YouTube, são restritas pela OpenAI devido a questões legais ou de desempenho.
Outro ponto crítico é o custo elevado. Como concorrente, a ByteDance lançou o UI-TARS, um agente de código aberto que promete funcionalidades similares.
Se você deseja saber mais sobre como a inteligência artificial está transformando serviços e criando novas oportunidades, confira nossas publicações sobre IA.
Segurança e privacidade
Por atuar em nome dos usuários, o Operator inclui várias medidas de segurança:
- Controle do usuário: Solicita confirmações para ações sensíveis, como compras.
- Modo de supervisão: Oferece monitoramento em tarefas críticas.
- Prevenção de abuso: Foi treinado para recusar comandos maliciosos.
Além disso, o sistema permite apagar dados de navegação e optar por não compartilhar informações para melhorias do modelo.
Futuro do Operator
A OpenAI planeja expandir o acesso ao Operator para usuários do ChatGPT Plus, Team e Enterprise. Também está prevista a integração com a API, permitindo que desenvolvedores criem agentes personalizados.
Apesar das limitações, o Operator representa uma evolução significativa no uso da IA para simplificar tarefas do dia a dia. Quer aprender mais sobre como a OpenAI está impactando o mercado? Leia nosso artigo sobre o significado das siglas GPT.