Tecnologia Científica

Novo algoritmo descobre linguagem apenas assistindo a vídeos
O DenseAV, desenvolvido no MIT, aprende a analisar e compreender o significado da linguagem apenas assistindo a vídeos de pessoas conversando, com aplicações potenciais...
Por Raquel Gordon - 14/06/2024


O algoritmo DenseAV aprende o significado da linguagem apenas associando sinais de áudio e vídeo - Créditos: Imagem: Mark Hamilton


Mark Hamilton, estudante de doutorado do MIT em engenharia elétrica e ciência da computação e afiliado do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL), quer usar máquinas para entender como os animais se comunicam. Para fazer isso, ele decidiu primeiro criar um sistema que pudesse aprender a linguagem humana “do zero”.

“Engraçado, o principal momento de inspiração veio do filme 'Marcha dos Pinguins'. Há uma cena em que um pinguim cai ao cruzar o gelo e solta um pequeno gemido elaborado ao se levantar. Quando você assiste, é quase óbvio que esse gemido substitui uma palavra de quatro letras. Este foi o momento em que pensamos: talvez precisemos usar áudio e vídeo para aprender um idioma”, diz Hamilton. “Existe uma maneira de deixar um algoritmo assistir TV o dia todo e, a partir disso, descobrir do que estamos falando?”

“Nosso modelo, 'DenseAV', visa aprender uma linguagem prevendo o que está vendo a partir do que está ouvindo e vice-versa. Por exemplo, se você ouvir o som de alguém dizendo 'asse o bolo a 350', é provável que esteja vendo um bolo ou um forno. Para ter sucesso neste jogo de correspondência de áudio e vídeo em milhões de vídeos, o modelo precisa aprender sobre o que as pessoas estão falando”, diz Hamilton.

Depois de treinar o DenseAV neste jogo de correspondência, Hamilton e seus colegas observaram quais pixels o modelo procurava quando ouvia um som. Por exemplo, quando alguém diz “cachorro”, o algoritmo imediatamente começa a procurar cachorros no stream de vídeo. Ao ver quais pixels são selecionados pelo algoritmo, pode-se descobrir o que o algoritmo pensa que uma palavra significa.

Curiosamente, um processo de pesquisa semelhante acontece quando o DenseAV ouve o latido de um cachorro: ele procura um cachorro no stream de vídeo. “Isso despertou nosso interesse. Queríamos ver se o algoritmo sabia a diferença entre a palavra ‘cachorro’ e o latido de um cachorro”, diz Hamilton. A equipe explorou isso dando ao DenseAV um “cérebro de dois lados”. Curiosamente, eles descobriram que um lado do cérebro do DenseAV se concentra naturalmente na linguagem, como a palavra “cachorro”, e o outro lado se concentra em sons como latidos. Isto mostrou que o DenseAV não apenas aprendeu o significado das palavras e a localização dos sons, mas também aprendeu a distinguir entre esses tipos de conexões intermodais, tudo sem intervenção humana ou qualquer conhecimento da linguagem escrita.

Um ramo das aplicações é aprender com a enorme quantidade de vídeos publicados diariamente na Internet: “Queremos sistemas que possam aprender com grandes quantidades de conteúdo de vídeo, como vídeos instrutivos”, diz Hamilton. “Outra aplicação interessante é a compreensão de novas línguas, como a comunicação entre golfinhos ou baleias, que não possuem uma forma de comunicação escrita. Nossa esperança é que o DenseAV possa nos ajudar a compreender esses idiomas que escaparam dos esforços de tradução humana desde o início. Finalmente, esperamos que este método possa ser usado para descobrir padrões entre outros pares de sinais, como os sons sísmicos que a Terra emite e a sua geologia.” 

Um desafio formidável estava à frente da equipe: aprender o idioma sem qualquer inserção de texto. O objetivo era redescobrir o significado da linguagem a partir de uma tábua rasa, evitando o uso de modelos de linguagem pré-treinados. Esta abordagem é inspirada na forma como as crianças aprendem observando e ouvindo o ambiente para compreender a linguagem.

Para conseguir esse feito, o DenseAV usa dois componentes principais para processar dados de áudio e visuais separadamente. Essa separação impossibilitou a trapaça do algoritmo, deixando o lado visual olhar para o áudio e vice-versa. Forçou o algoritmo a reconhecer objetos e criou recursos detalhados e significativos para sinais de áudio e visuais. O DenseAV aprende comparando pares de sinais de áudio e visuais para descobrir quais sinais correspondem e quais não. Este método, chamado de aprendizagem contrastiva, não requer exemplos rotulados e permite que o DenseAV descubra os padrões preditivos importantes da própria linguagem.

Uma grande diferença entre o DenseAV e os algoritmos anteriores é que os trabalhos anteriores focaram em uma única noção de semelhança entre som e imagens. Um clip de áudio inteiro, como alguém dizendo “o cachorro sentou na grama”, foi comparado com a imagem inteira de um cachorro. Isso não permitiu que métodos anteriores descobrissem detalhes refinados, como a conexão entre a palavra “grama” e a grama embaixo do cachorro. O algoritmo da equipe procura e agrega todas as correspondências possíveis entre um clipe de áudio e os pixels de uma imagem. Isso não apenas melhorou o desempenho, mas permitiu à equipe localizar sons com precisão de uma forma que os algoritmos anteriores não conseguiam. “Os métodos convencionais usam um token de classe única, mas nossa abordagem compara cada pixel e cada segundo de som. Este método refinado permite que o DenseAV faça conexões mais detalhadas para melhor localização”, diz Hamilton.

Os pesquisadores treinaram o DenseAV no AudioSet, que inclui 2 milhões de vídeos do YouTube. Eles também criaram novos conjuntos de dados para testar até que ponto o modelo consegue vincular sons e imagens. Nestes testes, o DenseAV superou outros modelos de ponta em tarefas como identificar objetos a partir de seus nomes e sons, comprovando sua eficácia. “Os conjuntos de dados anteriores suportavam apenas avaliações grosseiras, por isso criamos um conjunto de dados usando conjuntos de dados de segmentação semântica. Isso ajuda com anotações com pixels perfeitos para uma avaliação precisa do desempenho do nosso modelo. Podemos ativar o algoritmo com sons ou imagens específicas e obter essas localizações detalhadas”, diz Hamilton.

Devido à enorme quantidade de dados envolvidos, o projeto levou cerca de um ano para ser concluído. A equipe afirma que a transição para uma arquitetura de transformador grande apresentou desafios, pois esses modelos podem facilmente ignorar detalhes refinados. Incentivar o modelo a concentrar-se nestes detalhes foi um obstáculo significativo.

Olhando para o futuro, a equipe pretende criar sistemas que possam aprender com grandes quantidades de dados somente de vídeo ou áudio. Isso é crucial para novos domínios onde há muitos modos, mas não juntos. Eles também pretendem ampliar isso usando backbones maiores e possivelmente integrar o conhecimento de modelos de linguagem para melhorar o desempenho.

“Reconhecer e segmentar objetos visuais em imagens, bem como sons ambientais e palavras faladas em gravações de áudio, são problemas difíceis por si só. Historicamente, os pesquisadores confiaram em anotações caras fornecidas por humanos para treinar modelos de aprendizado de máquina para realizar essas tarefas”, diz David Harwath, professor assistente de ciência da computação na Universidade do Texas em Austin, que não esteve envolvido no trabalho. “O DenseAV faz progressos significativos no desenvolvimento de métodos que podem aprender a resolver essas tarefas simultaneamente, simplesmente observando o mundo através da visão e do som – com base na percepção de que as coisas que vemos e com as quais interagimos geralmente emitem som, e também usamos a linguagem falada para falar. sobre eles. Este modelo também não faz suposições sobre a língua específica que está sendo falada e, portanto, poderia, em princípio, aprender a partir de dados em qualquer língua. Seria emocionante ver o que o DenseAV poderia aprender ampliando-o para milhares ou milhões de horas de dados de vídeo em vários idiomas.”

Autores adicionais em um artigo que descreve o trabalho são Andrew Zisserman, professor de engenharia de visão computacional na Universidade de Oxford; John R. Hershey, pesquisador de percepção de IA do Google; e William T. Freeman, professor de engenharia elétrica e ciência da computação do MIT e investigador principal do CSAIL. Sua pesquisa foi apoiada, em parte, pela US National Science Foundation, uma cátedra de pesquisa da Royal Society e um programa EPSRC Grant Visual AI. Este trabalho será apresentado na Conferência IEEE/CVF Computer Vision and Pattern Recognition este mês.

 

.
.

Leia mais a seguir