Humanidades

Tal como os cérebros humanos, os grandes modelos de linguagem raciocinam sobre dados diversos de uma forma geral
Um novo estudo mostra que os LLMs representam diferentes tipos de dados com base em seu significado subjacente e no raciocínio sobre os dados em sua língua dominante.
Por Adam Zewe - 21/02/2025


Pesquisadores do MIT investigaram o funcionamento interno de grandes modelos de linguagem para entender melhor como eles processam dados tão diversos e encontraram evidências de que eles compartilham algumas semelhanças com o cérebro humano. Crédito: MIT News, iStock


Enquanto os primeiros modelos de linguagem só conseguiam processar texto, os grandes modelos de linguagem contemporâneos agora realizam tarefas altamente diversas em diferentes tipos de dados. Por exemplo, os LLMs podem entender muitas línguas, gerar código de computador, resolver problemas de matemática ou responder perguntas sobre imagens e áudio.   

Pesquisadores do MIT investigaram o funcionamento interno dos LLMs para entender melhor como eles processam dados tão variados e encontraram evidências de que eles compartilham algumas semelhanças com o cérebro humano.

Os neurocientistas acreditam que o cérebro humano tem um “hub semântico” no lobo temporal anterior que integra informações semânticas de várias modalidades, como dados visuais e entradas táteis. Este hub semântico é conectado a “raios” específicos da modalidade que direcionam informações para o hub. Os pesquisadores do MIT descobriram que os LLMs usam um mecanismo semelhante ao processar dados abstratamente de diversas modalidades de forma central e generalizada. Por exemplo, um modelo que tem o inglês como idioma dominante dependeria do inglês como meio central para processar entradas em japonês ou raciocinar sobre aritmética, código de computador, etc. Além disso, os pesquisadores demonstram que podem intervir no hub semântico de um modelo usando texto no idioma dominante do modelo para alterar suas saídas, mesmo quando o modelo está processando dados em outros idiomas.

Essas descobertas podem ajudar cientistas a treinar futuros LLMs que sejam mais capazes de lidar com dados diversos.

“LLMs são grandes caixas pretas. Eles alcançaram um desempenho muito impressionante, mas temos muito pouco conhecimento sobre seus mecanismos internos de funcionamento. Espero que este seja um passo inicial para entender melhor como eles funcionam, para que possamos melhorá-los e controlá-los melhor quando necessário”, diz Zhaofeng Wu, um estudante de pós-graduação em engenharia elétrica e ciência da computação (EECS) e autor principal de um artigo sobre esta pesquisa .

Seus coautores incluem Xinyan Velocity Yu, um estudante de pós-graduação na University of Southern California (USC); Dani Yogatama, um professor associado na USC; Jiasen Lu, um cientista pesquisador na Apple; e o autor sênior Yoon Kim, um professor assistente de EECS no MIT e um membro do Computer Science and Artificial Intelligence Laboratory (CSAIL). A pesquisa será apresentada na International Conference on Learning Representations.

Integrando dados diversos

Os pesquisadores basearam o novo estudo em trabalhos anteriores que sugeriram que os LLMs centrados no inglês usam o inglês para realizar processos de raciocínio em vários idiomas.

Wu e seus colaboradores expandiram essa ideia, lançando um estudo aprofundado sobre os mecanismos que os LLMs usam para processar dados diversos.

Um LLM, que é composto de muitas camadas interconectadas, divide o texto de entrada em palavras ou subpalavras chamadas tokens. O modelo atribui uma representação a cada token, o que permite que ele explore as relações entre os tokens e gere a próxima palavra em uma sequência. No caso de imagens ou áudio, esses tokens correspondem a regiões específicas de uma imagem ou seções de um clipe de áudio.

Os pesquisadores descobriram que as camadas iniciais do modelo processam dados em sua linguagem ou modalidade específica, como os raios específicos da modalidade no cérebro humano. Então, o LLM converte tokens em representações agnósticas de modalidade conforme ele raciocina sobre eles por meio de suas camadas internas, semelhante a como o hub semântico do cérebro integra informações diversas.

O modelo atribui representações semelhantes a entradas com significados semelhantes, apesar do tipo de dados, incluindo imagens, áudio, código de computador e problemas aritméticos. Embora uma imagem e sua legenda de texto sejam tipos de dados distintos, por compartilharem o mesmo significado, o LLM atribuiria a elas representações semelhantes.

Por exemplo, um LLM com predominância de inglês “pensa” sobre uma entrada de texto em chinês em inglês antes de gerar uma saída em chinês. O modelo tem uma tendência de raciocínio semelhante para entradas não textuais, como código de computador, problemas de matemática ou até mesmo dados multimodais.

Para testar essa hipótese, os pesquisadores passaram um par de frases com o mesmo significado, mas escritas em duas línguas diferentes, pelo modelo. Eles mediram o quão similares eram as representações do modelo para cada frase.

Então, eles conduziram um segundo conjunto de experimentos onde alimentaram um texto modelo de predominância inglesa em um idioma diferente, como chinês, e mediram quão similar era sua representação interna ao inglês versus chinês. Os pesquisadores conduziram experimentos semelhantes para outros tipos de dados.

Eles consistentemente descobriram que as representações do modelo eram semelhantes para sentenças com significados semelhantes. Além disso, em muitos tipos de dados, os tokens que o modelo processou em suas camadas internas eram mais como tokens centrados no inglês do que o tipo de dados de entrada.

“Muitos desses tipos de dados de entrada parecem extremamente diferentes da linguagem, então ficamos muito surpresos por podermos sondar tokens em inglês quando o modelo processa, por exemplo, expressões matemáticas ou de codificação”, diz Wu.

Aproveitando o centro semântico

Os pesquisadores acreditam que os LLMs podem aprender essa estratégia de hub semântico durante o treinamento porque é uma maneira econômica de processar dados variados.

“Existem milhares de idiomas por aí, mas muito do conhecimento é compartilhado, como conhecimento de senso comum ou conhecimento factual. O modelo não precisa duplicar esse conhecimento entre os idiomas”, diz Wu.

Os pesquisadores também tentaram intervir nas camadas internas do modelo usando texto em inglês quando ele estava processando outros idiomas. Eles descobriram que podiam previsivelmente mudar as saídas do modelo, mesmo que essas saídas estivessem em outros idiomas.

Os cientistas poderiam aproveitar esse fenômeno para incentivar o modelo a compartilhar o máximo de informações possível entre diversos tipos de dados, aumentando potencialmente a eficiência.

Mas, por outro lado, pode haver conceitos ou conhecimento que não são traduzíveis entre idiomas ou tipos de dados, como conhecimento culturalmente específico. Os cientistas podem querer que os LLMs tenham alguns mecanismos de processamento específicos do idioma nesses casos.

“Como você compartilha o máximo sempre que possível, mas também permite que as linguagens tenham alguns mecanismos de processamento específicos da linguagem? Isso poderia ser explorado em trabalhos futuros sobre arquiteturas de modelos”, diz Wu.

Além disso, os pesquisadores poderiam usar esses insights para melhorar modelos multilíngues. Frequentemente, um modelo com predominância de inglês que aprende a falar outra língua perderá parte de sua precisão em inglês. Uma melhor compreensão do hub semântico de um LLM poderia ajudar os pesquisadores a evitar essa interferência de linguagem, ele diz.

“Entender como os modelos de linguagem processam entradas entre linguagens e modalidades é uma questão-chave na inteligência artificial. Este artigo faz uma conexão interessante com a neurociência e mostra que a proposta 'hipótese do hub semântico' se mantém em modelos de linguagem modernos, onde representações semanticamente semelhantes de diferentes tipos de dados são criadas nas camadas intermediárias do modelo”, diz Mor Geva Pipek, professor assistente na Escola de Ciência da Computação da Universidade de Tel Aviv, que não estava envolvido com este trabalho. “A hipótese e os experimentos vinculam e estendem bem as descobertas de trabalhos anteriores e podem ser influentes para pesquisas futuras sobre a criação de melhores modelos multimodais e o estudo de vínculos entre eles e a função cerebral e a cognição em humanos.”

Esta pesquisa é financiada, em parte, pelo MIT-IBM Watson AI Lab.

 

.
.

Leia mais a seguir