Tecnologia Científica

Ensinar a IA a comunicar sons como os humanos fazem
Inspirado pelo trato vocal humano, um novo modelo de IA pode produzir e entender imitações vocais de sons cotidianos. O método pode ajudar a construir novas interfaces sonoras para entretenimento e educação.
Por Alex Shipps - 14/01/2025


Um novo modelo pode pegar muitos sons do mundo e gerar uma imitação humana deles, como o chiado de uma cobra e a sirene de uma ambulância se aproximando. O sistema também pode ser executado ao contrário para adivinhar sons do mundo real a partir de imitações vocais humanas. Créditos: Imagem: Alex Shipps/MIT CSAIL, com elementos visuais do Pixabay


Quer você esteja descrevendo o som do motor do seu carro com defeito ou miando como o gato do seu vizinho, imitar sons com sua voz pode ser uma maneira útil de transmitir um conceito quando as palavras não funcionam.

A imitação vocal é o equivalente sonoro de rabiscar uma imagem rápida para comunicar algo que você viu — exceto que, em vez de usar um lápis para ilustrar uma imagem, você usa seu trato vocal para expressar um som. Isso pode parecer difícil, mas é algo que todos nós fazemos intuitivamente: para experimentar por si mesmo, tente usar sua voz para espelhar o som de uma sirene de ambulância, um corvo ou um sino sendo tocado.

Inspirados pela ciência cognitiva de como nos comunicamos, pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) desenvolveram um sistema de IA que pode produzir imitações vocais semelhantes às humanas sem treinamento e sem nunca ter "ouvido" uma impressão vocal humana antes.

Para conseguir isso, os pesquisadores projetaram seu sistema para produzir e interpretar sons muito parecidos com os nossos. Eles começaram construindo um modelo do trato vocal humano que simula como as vibrações da caixa vocal são moldadas pela garganta, língua e lábios. Então, eles usaram um algoritmo de IA inspirado cognitivamente para controlar esse modelo de trato vocal e fazê-lo produzir imitações, levando em consideração as formas específicas do contexto que os humanos escolhem para comunicar o som.

O modelo pode efetivamente pegar muitos sons do mundo e gerar uma imitação humana deles — incluindo ruídos como folhas farfalhando, o chiado de uma cobra e uma sirene de ambulância se aproximando. Seu modelo também pode ser executado ao contrário para adivinhar sons do mundo real a partir de imitações vocais humanas, semelhante a como alguns sistemas de visão computacional podem recuperar imagens de alta qualidade com base em esboços. Por exemplo, o modelo pode distinguir corretamente o som de um humano imitando o "miau" de um gato em relação ao seu "assobio".

No futuro, esse modelo pode potencialmente levar a interfaces mais intuitivas “baseadas em imitação” para designers de som, personagens de IA mais semelhantes a humanos em realidade virtual e até mesmo métodos para ajudar os alunos a aprender novos idiomas.

Os coautores principais — os alunos de doutorado do MIT CSAIL Kartik Chandra SM '23 e Karima Ma, e o pesquisador de graduação Matthew Caren — observam que os pesquisadores de computação gráfica há muito reconhecem que o realismo raramente é o objetivo final da expressão visual. Por exemplo, uma pintura abstrata ou um rabisco de giz de cera de uma criança podem ser tão expressivos quanto uma fotografia.

“Nas últimas décadas, os avanços nos algoritmos de esboço levaram a novas ferramentas para artistas, avanços em IA e visão computacional, e até mesmo uma compreensão mais profunda da cognição humana”, observa Chandra. “Da mesma forma que um esboço é uma representação abstrata e não fotorrealista de uma imagem, nosso método captura as formas abstratas e não fono - realistas com que os humanos expressam os sons que ouvem. Isso nos ensina sobre o processo de abstração auditiva.”

A arte da imitação, em três partes

A equipe desenvolveu três versões cada vez mais matizadas do modelo para comparar com imitações vocais humanas. Primeiro, eles criaram um modelo de base que simplesmente visava gerar imitações que fossem tão semelhantes aos sons do mundo real quanto possível — mas esse modelo não correspondia muito bem ao comportamento humano.

Os pesquisadores então projetaram um segundo modelo “comunicativo”. De acordo com Caren, esse modelo considera o que é distintivo sobre um som para um ouvinte. Por exemplo, você provavelmente imitaria o som de um barco a motor imitando o ronco do motor, já que essa é sua característica auditiva mais distintiva, mesmo que não seja o aspecto mais alto do som (comparado a, digamos, o respingo da água). Esse segundo modelo criou imitações que eram melhores do que a linha de base, mas a equipe queria melhorá-lo ainda mais.

Para levar seu método um passo adiante, os pesquisadores adicionaram uma camada final de raciocínio ao modelo. “Imitações vocais podem soar diferentes com base na quantidade de esforço que você coloca nelas. Custa tempo e energia para produzir sons que são perfeitamente precisos”, diz Chandra. O modelo completo dos pesquisadores leva isso em conta ao tentar evitar declarações muito rápidas, altas ou agudas ou graves, que as pessoas têm menos probabilidade de usar em uma conversa. O resultado: imitações mais humanas que correspondem de perto a muitas das decisões que os humanos tomam ao imitar os mesmos sons.

Após construir esse modelo, a equipe conduziu um experimento comportamental para ver se as imitações vocais geradas por IA ou por humanos eram percebidas como melhores pelos juízes humanos. Notavelmente, os participantes do experimento favoreceram o modelo de IA 25% do tempo em geral, e até 75% para uma imitação de um barco a motor e 50% para uma imitação de um tiro.

Rumo a uma tecnologia sonora mais expressiva

Apaixonado por tecnologia para música e arte, Caren prevê que esse modelo poderia ajudar artistas a comunicar melhor sons para sistemas computacionais e auxiliar cineastas e outros criadores de conteúdo a gerar sons de IA que sejam mais matizados para um contexto específico. Ele também poderia permitir que um músico buscasse rapidamente um banco de dados de som imitando um ruído que é difícil de descrever em, digamos, um prompt de texto.

Enquanto isso, Caren, Chandra e Ma estão analisando as implicações de seu modelo em outros domínios, incluindo o desenvolvimento da linguagem, como os bebês aprendem a falar e até mesmo comportamentos de imitação em pássaros como papagaios e pássaros canoros.

A equipe ainda tem trabalho a fazer com a iteração atual do seu modelo: Ele tem dificuldades com algumas consoantes, como “z”, o que levou a impressões imprecisas de alguns sons, como o zumbido de abelhas. Eles também ainda não conseguem replicar como os humanos imitam a fala, a música ou sons que são imitados de forma diferente em diferentes idiomas, como um batimento cardíaco.

O professor de linguística da Universidade de Stanford, Robert Hawkins, diz que a linguagem é cheia de onomatopeias e palavras que imitam, mas não replicam completamente as coisas que descrevem, como o som "miau" que se aproxima muito inexatamente do som que os gatos fazem. "Os processos que nos levam do som de um gato real a uma palavra como 'miau' revelam muito sobre a intrincada interação entre fisiologia, raciocínio social e comunicação na evolução da linguagem", diz Hawkins, que não estava envolvido na pesquisa do CSAIL. "Este modelo apresenta um passo emocionante em direção à formalização e teste de teorias desses processos, demonstrando que tanto as restrições físicas do trato vocal humano quanto as pressões sociais da comunicação são necessárias para explicar a distribuição de imitações vocais."

Caren, Chandra e Ma escreveram o artigo com dois outros afiliados do CSAIL: Jonathan Ragan-Kelley, professor associado do Departamento de Engenharia Elétrica e Ciência da Computação do MIT, e Joshua Tenenbaum, professor do MIT Brain and Cognitive Sciences e membro do Center for Brains, Minds, and Machines. O trabalho deles foi apoiado, em parte, pela Hertz Foundation e pela National Science Foundation. Foi apresentado na SIGGRAPH Asia no início de dezembro.

 

.
.

Leia mais a seguir