Tecnologia Científica

Revelando vieses, humores, personalidades e conceitos abstratos ocultos em grandes modelos de linguagem
Um novo método desenvolvido no MIT pode eliminar vulnerabilidades e melhorar a segurança e o desempenho do LLM.
Por Jennifer Chu - 01/03/2026


Um novo método pode testar se um modelo de linguagem de grande porte contém vieses ocultos, personalidades, humores ou outros conceitos abstratos. Crédito: Christine Daniloff, MIT; iStock


Atualmente, o ChatGPT, o Claude e outros grandes modelos de linguagem acumularam tanto conhecimento humano que estão longe de serem simples geradores de respostas; eles também podem expressar conceitos abstratos, como certos tons, personalidades, vieses e humores. No entanto, não é óbvio exatamente como esses modelos representam conceitos abstratos a partir do conhecimento que possuem.

Uma equipe do MIT e da Universidade da Califórnia em San Diego desenvolveu um método para testar se um modelo de linguagem de grande escala (LLM, na sigla em inglês) contém vieses, personalidades, humores ou outros conceitos abstratos ocultos. O método consegue identificar conexões dentro de um modelo que codificam um conceito de interesse. Além disso, o método pode manipular, ou "direcionar", essas conexões para fortalecer ou enfraquecer o conceito em qualquer resposta que o modelo seja solicitado a fornecer.

A equipe comprovou que seu método poderia identificar e direcionar rapidamente mais de 500 conceitos gerais em alguns dos maiores modelos de aprendizagem de linguagem (LLMs) usados atualmente. Por exemplo, os pesquisadores conseguiram identificar as representações de um modelo para personalidades como "influenciador social" e "teórico da conspiração", e posicionamentos como "medo do casamento" e "torcedor do Boston". Eles puderam então ajustar essas representações para reforçar ou minimizar os conceitos em quaisquer respostas geradas pelo modelo.

No caso do conceito de "teórico da conspiração", a equipe identificou com sucesso uma representação desse conceito em um dos maiores modelos de linguagem visual disponíveis atualmente. Ao aprimorarem a representação e, em seguida, solicitarem que o modelo explicasse a origem da famosa imagem da Terra "Blue Marble" tirada pela Apollo 17, o modelo gerou uma resposta com o tom e a perspectiva de um teórico da conspiração.

A equipe reconhece que existem riscos na extração de certos conceitos, os quais também ilustram (e contra os quais alertam). No geral, porém, eles veem a nova abordagem como uma forma de revelar conceitos ocultos e vulnerabilidades potenciais em Modelos de Aprendizagem Baseados em Lógica (LLMs), que poderiam então ser ajustados para melhorar a segurança ou o desempenho de um modelo.

“O que isso realmente mostra sobre os LLMs é que eles contêm esses conceitos, mas nem todos são expostos ativamente”, diz Adityanarayanan “Adit” Radhakrishnan, professor assistente de matemática no MIT. “Com o nosso método, existem maneiras de extrair esses diferentes conceitos e ativá-los de formas que o estímulo manual não consegue fornecer.”

A equipe publicou suas descobertas hoje em um estudo que apareceu na revista Science . Os coautores do estudo incluem Radhakrishnan, Daniel Beaglehole e Mikhail Belkin, da UC San Diego, e Enric Boix-Adserà, da Universidade da Pensilvânia.

Um peixe em uma caixa preta

Com o uso exponencial de assistentes de inteligência artificial como o ChatGPT da OpenAI, o Gemini do Google, o Claude da Anthropic e outros, cientistas estão empenhados em compreender como esses modelos representam certos conceitos abstratos, como "alucinação" e "engano". No contexto de um Modelo de Aprendizagem Baseado em Lógica (LLM), uma alucinação é uma resposta falsa ou que contém informações enganosas, que o modelo "alucinou" ou construiu erroneamente como fato.

Para descobrir se um conceito como "alucinação" está codificado em um LLM (modelo de memória de longo prazo), os cientistas frequentemente adotam uma abordagem de "aprendizado não supervisionado" — um tipo de aprendizado de máquina no qual algoritmos vasculham amplamente representações não rotuladas para encontrar padrões que possam estar relacionados a um conceito como "alucinação". Mas, para Radhakrishnan, essa abordagem pode ser muito abrangente e computacionalmente dispendiosa.

“É como ir pescar com uma rede enorme, tentando pegar uma espécie de peixe. Você vai pegar um monte de peixes e terá que procurar bastante para encontrar o certo”, diz ele. “Em vez disso, nós vamos com isca para a espécie certa de peixe.”

Ele e seus colegas já haviam desenvolvido os primórdios de uma abordagem mais direcionada com um tipo de algoritmo de modelagem preditiva conhecido como máquina de características recursiva (RFM, na sigla em inglês). Uma RFM é projetada para identificar diretamente características ou padrões em dados, aproveitando um mecanismo matemático que as redes neurais — uma ampla categoria de modelos de IA que inclui os Modelos de Aprendizagem Baseados em Lógica (LLMs, na sigla em inglês) — usam implicitamente para aprender características.

Como o algoritmo se mostrou uma abordagem eficaz e eficiente para capturar características em geral, a equipe se perguntou se seria possível utilizá-lo para extrair representações de conceitos em Modelos de Aprendizagem Linear (LLMs), que são de longe o tipo de rede neural mais utilizado e talvez o menos compreendido.

“Queríamos aplicar nossos algoritmos de aprendizado de recursos aos LLMs para, de forma direcionada, descobrir representações de conceitos nesses modelos grandes e complexos”, diz Radhakrishnan.

Convergindo para um conceito

A nova abordagem da equipe identifica qualquer conceito de interesse dentro de um Modelo de Aprendizagem Baseado em Liderança (LLM) e "direciona" ou guia a resposta do modelo com base nesse conceito. Os pesquisadores buscaram 512 conceitos em cinco categorias: medos (como de casamento, insetos e até botões); especialistas (influenciador social, medievalista); estados de espírito (arrogante, desapegado e divertido); preferência por locais (Boston, Kuala Lumpur); e personas (Ada Lovelace, Neil deGrasse Tyson).

Em seguida, os pesquisadores buscaram representações de cada conceito em diversos modelos de linguagem e visão de grande porte disponíveis atualmente. Para isso, treinaram RFMs (Recording Functional Models) para reconhecer padrões numéricos em um LLM (Literary Language Modeling) que pudessem representar um conceito específico de interesse.

Um modelo de linguagem padrão de grande escala é, em linhas gerais, uma  rede neural que recebe um estímulo em linguagem natural, como "Por que o céu é azul?", e o divide em palavras individuais, cada uma codificada matematicamente como uma lista, ou vetor, de números. O modelo processa esses vetores através de uma série de camadas computacionais, criando matrizes com muitos números que, em cada camada, são usadas para identificar outras palavras com maior probabilidade de serem usadas como resposta ao estímulo original. Por fim, as camadas convergem para um conjunto de números que é decodificado de volta para texto, na forma de uma resposta em linguagem natural.

A abordagem da equipe treina RFMs (Máquinas de Resposta Rápida) para reconhecer padrões numéricos em um LLM (Modelo de Aprendizagem Lógica) que possam ser associados a um conceito específico. Por exemplo, para verificar se um LLM contém alguma representação de um "teórico da conspiração", os pesquisadores primeiro treinariam o algoritmo para identificar padrões entre as representações do LLM de 100 estímulos claramente relacionados a conspirações e outros 100 estímulos que não estão. Dessa forma, o algoritmo aprenderia padrões associados ao conceito de teórico da conspiração. Em seguida, os pesquisadores podem modular matematicamente a atividade do conceito de teórico da conspiração, perturbando as representações do LLM com esses padrões identificados. 

O método pode ser aplicado para buscar e manipular qualquer conceito geral em um Modelo de Aprendizagem Baseado em Liderança (LLM). Entre muitos exemplos, os pesquisadores identificaram representações e manipularam um LLM para fornecer respostas no tom e na perspectiva de um "teórico da conspiração". Eles também identificaram e aprimoraram o conceito de "antirrecusa" e mostraram que, enquanto normalmente um modelo seria programado para recusar certos estímulos, ele, em vez disso, respondia, por exemplo, dando instruções sobre como assaltar um banco.

Radhakrishnan afirma que a abordagem pode ser usada para buscar e minimizar rapidamente vulnerabilidades em LLMs (Modelos de Aprendizagem Baseados em Lógica). Ela também pode ser usada para aprimorar certos traços, personalidades, humores ou preferências, como enfatizar o conceito de "brevidade" ou "raciocínio" em qualquer resposta gerada por um LLM. A equipe disponibilizou publicamente o código subjacente do método.

“As LLMs claramente têm muitos desses conceitos abstratos armazenados nelas, em alguma representação”, diz Radhakrishnan . “ Existem maneiras pelas quais, se entendermos bem essas representações, podemos construir LLMs altamente especializadas que ainda sejam seguras para uso, mas realmente eficazes em determinadas tarefas.”


Este trabalho foi financiado, em parte, pela Fundação Nacional de Ciência (National Science Foundation), pela Fundação Simons, pelo Instituto TILOS e pelo Escritório de Pesquisa Naval dos EUA (Office of Naval Research). 

 

.
.

Leia mais a seguir