Um Modelo de Reconhecimento de Voz Feito para Empresas: Jargonic da aiOla Promete Ser o Mais Preciso para o Vocabulário Corporativo

Leandro Lopes
4 Min de Leitura
Um Modelo de Reconhecimento de Voz Feito para Empresas: Jargonic da aiOla Promete Ser o Mais Preciso para o Vocabulário Corporativo

Os modelos de reconhecimento de voz têm avançado significativamente, mas muitos ainda enfrentam dificuldades em cenários reais, como ruídos de fundo, sotaques variados e terminologias específicas de nichos. Para resolver esses desafios, a startup israelense aiOla lançou o Jargonic, um modelo de reconhecimento automático de voz (ASR), idealizado para ambientes corporativos e situações complexas.

O Que é o Jargonic?

Jargonic é um modelo de transcrição de voz para texto que se destaca por sua capacidade de entender jargões específicos, operar eficientemente em ambientes com ruído e reconhecer diferentes sotaques sem a necessidade de ajustes extensos. De acordo com Gill Hetz, vice-presidente de IA da aiOla, o objetivo principal do modelo é enfrentar três grandes barreiras: jargões técnicos, sons de fundo e diversidade linguística.

Já disponível via API na plataforma empresarial da aiOla, o Jargonic foi projetado para atender indústrias como manufatura, logística, serviços financeiros e saúde, onde a precisão no reconhecimento de voz é essencial.

Adaptação Sem Esforço com Zero-Shot Learning

Um dos maiores diferenciais do Jargonic é sua abordagem em relação a termos técnicos. Enquanto outros sistemas de ASR exigem treinamento específico para reconhecer palavras de nicho, o Jargonic utiliza um sistema proprietário de identificação de palavras-chave que permite adaptar-se instantaneamente. Com a simples adição de uma lista de termos, empresas podem melhorar drasticamente a precisão sem precisar passar por processos demorados de re-treinamento.

Desempenho Superior em Testes

O modelo já demonstrou resultados impressionantes. Com uma taxa de erro médio de palavras (WER) de 5,91% em testes acadêmicos de inglês, superou concorrentes como Eleven Labs e OpenAI Whisper. Além disso, alcançou uma taxa de recall de 89,3% para termos financeiros específicos e mais de 95% de precisão em jargões técnicos em cinco idiomas diferentes. Essa eficiência é particularmente útil em setores onde a terminologia técnica é imprescindível para a comunicação.

Solução Otimizada para Ambientes Empresariais

O desenvolvimento do Jargonic foi baseado em mais de um milhão de horas de áudio transcrito, incluindo cenários do mundo real em indústrias, escritórios e outros ambientes corporativos. Este treinamento robusto garantiu que o modelo fosse capaz de operar com alta precisão mesmo em condições adversas, como ruídos constantes e múltiplas fontes de áudio.

Hetz destacou: “Enquanto outros modelos lidam bem com podcasts e vídeos de qualidade, nós focamos em ambientes reais, como fábricas e locais de trabalho movimentados.”

Além disso, o Jargonic integra a tecnologia de identificação de palavras-chave diretamente na sua arquitetura de transcrição, o que melhora sua capacidade de interpretar áudio em tempo real.

O Futuro da Interação por Voz

Para os líderes da aiOla, o Jargonic é apenas o começo. A visão da empresa é transformar a interação homem-máquina, levando o reconhecimento de voz a todos os aspectos da tecnologia. Com a filosofia de “primeiro a voz”, a expectativa é que dispositivos como geladeiras, aspiradores e outros eletrodomésticos possam ser controlados facilmente pela fala.

“Nosso objetivo é que as interfaces de todas as máquinas sejam baseadas em voz,” afirmou Hetz. Já Assaf Asbag, diretor de tecnologia e produto, complementou: “A inteligência artificial conversacional será tão comum quanto um navegador de internet, permitindo interações naturais e intuitivas.”

Atualmente, o Jargonic está disponível para uso imediato por meio de API, permitindo que empresas integrem seu poder de reconhecimento de voz em aplicativos, fluxos de trabalho ou serviços voltados ao cliente.

Compartilhe