Os modelos de reconhecimento de voz têm avançado significativamente, mas muitos ainda enfrentam dificuldades em cenários reais, como ruídos de fundo, sotaques variados e terminologias específicas de nichos. Para resolver esses desafios, a startup israelense aiOla lançou o Jargonic, um modelo de reconhecimento automático de voz (ASR), idealizado para ambientes corporativos e situações complexas.
O Que é o Jargonic?
Jargonic é um modelo de transcrição de voz para texto que se destaca por sua capacidade de entender jargões específicos, operar eficientemente em ambientes com ruído e reconhecer diferentes sotaques sem a necessidade de ajustes extensos. De acordo com Gill Hetz, vice-presidente de IA da aiOla, o objetivo principal do modelo é enfrentar três grandes barreiras: jargões técnicos, sons de fundo e diversidade linguística.
Já disponível via API na plataforma empresarial da aiOla, o Jargonic foi projetado para atender indústrias como manufatura, logística, serviços financeiros e saúde, onde a precisão no reconhecimento de voz é essencial.
Adaptação Sem Esforço com Zero-Shot Learning
Um dos maiores diferenciais do Jargonic é sua abordagem em relação a termos técnicos. Enquanto outros sistemas de ASR exigem treinamento específico para reconhecer palavras de nicho, o Jargonic utiliza um sistema proprietário de identificação de palavras-chave que permite adaptar-se instantaneamente. Com a simples adição de uma lista de termos, empresas podem melhorar drasticamente a precisão sem precisar passar por processos demorados de re-treinamento.
Desempenho Superior em Testes
O modelo já demonstrou resultados impressionantes. Com uma taxa de erro médio de palavras (WER) de 5,91% em testes acadêmicos de inglês, superou concorrentes como Eleven Labs e OpenAI Whisper. Além disso, alcançou uma taxa de recall de 89,3% para termos financeiros específicos e mais de 95% de precisão em jargões técnicos em cinco idiomas diferentes. Essa eficiência é particularmente útil em setores onde a terminologia técnica é imprescindível para a comunicação.
Solução Otimizada para Ambientes Empresariais
O desenvolvimento do Jargonic foi baseado em mais de um milhão de horas de áudio transcrito, incluindo cenários do mundo real em indústrias, escritórios e outros ambientes corporativos. Este treinamento robusto garantiu que o modelo fosse capaz de operar com alta precisão mesmo em condições adversas, como ruídos constantes e múltiplas fontes de áudio.
Hetz destacou: “Enquanto outros modelos lidam bem com podcasts e vídeos de qualidade, nós focamos em ambientes reais, como fábricas e locais de trabalho movimentados.”
Além disso, o Jargonic integra a tecnologia de identificação de palavras-chave diretamente na sua arquitetura de transcrição, o que melhora sua capacidade de interpretar áudio em tempo real.
O Futuro da Interação por Voz
Para os líderes da aiOla, o Jargonic é apenas o começo. A visão da empresa é transformar a interação homem-máquina, levando o reconhecimento de voz a todos os aspectos da tecnologia. Com a filosofia de “primeiro a voz”, a expectativa é que dispositivos como geladeiras, aspiradores e outros eletrodomésticos possam ser controlados facilmente pela fala.
“Nosso objetivo é que as interfaces de todas as máquinas sejam baseadas em voz,” afirmou Hetz. Já Assaf Asbag, diretor de tecnologia e produto, complementou: “A inteligência artificial conversacional será tão comum quanto um navegador de internet, permitindo interações naturais e intuitivas.”
Atualmente, o Jargonic está disponível para uso imediato por meio de API, permitindo que empresas integrem seu poder de reconhecimento de voz em aplicativos, fluxos de trabalho ou serviços voltados ao cliente.