Um Modelo de Reconhecimento de Voz Feito para Empresas: Jargonic da aiOla Promete Ser o Mais Preciso para o Vocabulário Corporativo

Os modelos de reconhecimento de voz têm avançado significativamente, mas muitos ainda enfrentam dificuldades em cenários reais, como ruídos de fundo, sotaques variados e terminologias específicas de nichos. Para resolver esses desafios, a startup israelense aiOla lançou o Jargonic, um modelo de reconhecimento automático de voz (ASR), idealizado para ambientes corporativos e situações complexas.

O Que é o Jargonic?

Jargonic é um modelo de transcrição de voz para texto que se destaca por sua capacidade de entender jargões específicos, operar eficientemente em ambientes com ruído e reconhecer diferentes sotaques sem a necessidade de ajustes extensos. De acordo com Gill Hetz, vice-presidente de IA da aiOla, o objetivo principal do modelo é enfrentar três grandes barreiras: jargões técnicos, sons de fundo e diversidade linguística.

Já disponível via API na plataforma empresarial da aiOla, o Jargonic foi projetado para atender indústrias como manufatura, logística, serviços financeiros e saúde, onde a precisão no reconhecimento de voz é essencial.

Adaptação Sem Esforço com Zero-Shot Learning

Um dos maiores diferenciais do Jargonic é sua abordagem em relação a termos técnicos. Enquanto outros sistemas de ASR exigem treinamento específico para reconhecer palavras de nicho, o Jargonic utiliza um sistema proprietário de identificação de palavras-chave que permite adaptar-se instantaneamente. Com a simples adição de uma lista de termos, empresas podem melhorar drasticamente a precisão sem precisar passar por processos demorados de re-treinamento.

Desempenho Superior em Testes

O modelo já demonstrou resultados impressionantes. Com uma taxa de erro médio de palavras (WER) de 5,91% em testes acadêmicos de inglês, superou concorrentes como Eleven Labs e OpenAI Whisper. Além disso, alcançou uma taxa de recall de 89,3% para termos financeiros específicos e mais de 95% de precisão em jargões técnicos em cinco idiomas diferentes. Essa eficiência é particularmente útil em setores onde a terminologia técnica é imprescindível para a comunicação.

Solução Otimizada para Ambientes Empresariais

O desenvolvimento do Jargonic foi baseado em mais de um milhão de horas de áudio transcrito, incluindo cenários do mundo real em indústrias, escritórios e outros ambientes corporativos. Este treinamento robusto garantiu que o modelo fosse capaz de operar com alta precisão mesmo em condições adversas, como ruídos constantes e múltiplas fontes de áudio.

Hetz destacou: “Enquanto outros modelos lidam bem com podcasts e vídeos de qualidade, nós focamos em ambientes reais, como fábricas e locais de trabalho movimentados.”

Além disso, o Jargonic integra a tecnologia de identificação de palavras-chave diretamente na sua arquitetura de transcrição, o que melhora sua capacidade de interpretar áudio em tempo real.

O Futuro da Interação por Voz

Para os líderes da aiOla, o Jargonic é apenas o começo. A visão da empresa é transformar a interação homem-máquina, levando o reconhecimento de voz a todos os aspectos da tecnologia. Com a filosofia de “primeiro a voz”, a expectativa é que dispositivos como geladeiras, aspiradores e outros eletrodomésticos possam ser controlados facilmente pela fala.

“Nosso objetivo é que as interfaces de todas as máquinas sejam baseadas em voz,” afirmou Hetz. Já Assaf Asbag, diretor de tecnologia e produto, complementou: “A inteligência artificial conversacional será tão comum quanto um navegador de internet, permitindo interações naturais e intuitivas.”

Atualmente, o Jargonic está disponível para uso imediato por meio de API, permitindo que empresas integrem seu poder de reconhecimento de voz em aplicativos, fluxos de trabalho ou serviços voltados ao cliente.