Aya Vision: O Novo Modelo Multimodal da Cohere com Pesos Abertos

Leandro Lopes
5 Min de Leitura
Aya Vision: O Novo Modelo Multimodal da Cohere com Pesos Abertos

A startup canadense de IA, Cohere, fundada em 2019, vem enfrentando desafios para se destacar no mercado competitivo de modelos de IA. Apesar de não conseguir competir de frente com gigantes como OpenAI e Anthropic, a empresa continua a expandir suas ofertas.

Agora, sua divisão de pesquisa, Cohere for AI, lança o Aya Vision, um modelo multimodal inovador que combina capacidades de visão e linguagem em 23 idiomas, atendendo a uma audiência global diversa.

O Que é o Aya Vision?

Aya Vision é um modelo que integra a interpretação de imagens, geração de texto e tradução de conteúdos visuais para linguagem natural. O objetivo é tornar a IA mais acessível e eficiente para lidar com tarefas multilíngues e visuais. Essa abordagem é especialmente útil para empresas que operam em mercados internacionais e precisam lidar com diferentes idiomas.

O modelo está disponível no site da Cohere e em plataformas como Hugging Face e Kaggle, sob a licença Creative Commons Attribution-NonCommercial 4.0. Isso permite que pesquisadores e desenvolvedores utilizem e modifiquem o modelo para fins não comerciais, desde que seja dada a devida atribuição.

Além disso, o Aya Vision também pode ser acessado via WhatsApp, permitindo interações em um ambiente familiar, mas com limitações para usos comerciais.

Recursos e Idiomas Compatíveis

Aya Vision está disponível em versões de 8 bilhões e 32 bilhões de parâmetros, referências ao número de configurações internas do modelo. Ele suporta 23 idiomas:

  • Inglês
  • Francês
  • Alemão
  • Espanhol
  • Italiano
  • Português
  • Japonês
  • Coreano
  • Chinês
  • Árabe
  • Grego
  • Persa
  • Polonês
  • Indonésio
  • Tcheco
  • Hebraico
  • Hindi
  • Holandês
  • Romeno
  • Russo
  • Turco
  • Ucraniano
  • Vietnamita

Essas capacidades multilíngues permitem que o Aya Vision realize tarefas como tradução de imagens, descrição de estilos artísticos e entendimento de texto em diversos idiomas. Por exemplo, ele pode analisar rótulos de produtos e oferecer explicações detalhadas.

Aplicações Práticas

Aya Vision apresenta implicações em várias áreas:

  • Educação: Facilita a tradução e descrição de imagens, tornando conteúdos mais acessíveis.
  • Preservação Cultural: Gera descrições detalhadas de arte, marcos históricos e artefatos.
  • Acessibilidade: Proporciona descrições detalhadas para usuários com deficiência visual.
  • Comunicação Global: Habilita traduções em tempo real, melhorando a comunicação internacional.

Para explorar mais sobre IA e suas aplicações, confira o artigo WordPress e Inteligência Artificial: Transformando a Criação.

Desempenho e Eficiência

Mesmo sendo menor em tamanho, Aya Vision supera modelos muito maiores em benchmarks significativos. Comparações mostram que:

  • Aya Vision 8B supera o Llama 90B em eficiência.
  • Aya Vision 32B supera modelos como Qwen 72B, Llama 90B e Molmo 72B.

O desempenho nos testes AyaVisionBench e m-WildVision demonstra taxas de sucesso de até 79% para Aya Vision 8B e 72% para Aya Vision 32B em tarefas de entendimento de imagens multilíngues.

Inovações Tecnológicas

Os avanços do Aya Vision são atribuídos a:

  • Anotações Sintéticas: Geração de dados para melhorar o treinamento.
  • Escalabilidade Multilíngue: Tradução de dados para ampliar o entendimento.
  • Fusão Multimodal: Combinação de modelos de visão e linguagem.

Essas inovações permitem maior precisão na interpretação de imagens e textos.

Quer saber mais sobre tendências em IA multimodal? Leia Google Gemini: O Futuro da Inteligência Artificial.

Uso nas Empresas

Embora o Aya Vision tenha restrições comerciais, ele pode ser usado para pesquisa interna e desenvolvimento em empresas. CTOs e equipes de IA podem utilizá-lo para benchmarking e experimentação antes de adotar estratégias comerciais.

Pesquisa e Colaboração

Aya Vision faz parte do projeto Aya, que une pesquisadores globais para melhorar modelos de IA multilíngue. Desde sua criação, mais de 3.000 pesquisadores de 119 países participam dessa iniciativa.

A disponibilização de pesos abertos marca um avanço significativo na inclusão e acessibilidade em pesquisas de IA.

Para saber mais sobre como modelos de linguagem estão transformando negócios, leia O Que São Modelos de Linguagem de IA e Suas Aplicações na Automação.

Aya Vision é um marco na integração de IA multimodal em diversos idiomas, desafiando o domínio de modelos maiores e fechados.

Compartilhe