MaisConhecer - Desvendando o viés dos grandes modelos de linguagem

Desvendando o viés dos grandes modelos de linguagem

Em um novo estudo, pesquisadores descobrem a causa raiz de um tipo de viés em LLMs, abrindo caminho para sistemas de IA mais precisos e confiáveis.

Pesquisadores do MIT descobriram a causa subjacente do viés de posição, um fenômeno que faz com que grandes modelos de linguagem enfatizem demais o início ou o fim de um documento ou conversa, negligenciando o meio. Crédito: MIT News; iStock

Pesquisas mostram que grandes modelos de linguagem (LLMs) tendem a enfatizar demais as informações no início e no fim de um documento ou conversa, negligenciando o meio.

Esse “viés de posição” significa que, se um advogado estiver usando um assistente virtual com tecnologia de LLM para recuperar uma determinada frase em uma declaração juramentada de 30 páginas, o LLM terá mais probabilidade de encontrar o texto certo se ele estiver nas páginas iniciais ou finais.

Pesquisadores do MIT descobriram o mecanismo por trás desse fenômeno.

Eles criaram uma estrutura teórica para estudar como as informações fluem pela arquitetura de aprendizado de máquina que constitui a espinha dorsal dos LLMs. Eles descobriram que certas escolhas de design que controlam como o modelo processa os dados de entrada podem causar viés de posicionamento.

Seus experimentos revelaram que as arquiteturas do modelo, particularmente aquelas que afetam como as informações são distribuídas entre as palavras de entrada dentro do modelo, podem dar origem ou intensificar o viés de posição, e que os dados de treinamento também contribuem para o problema.

Além de identificar as origens do viés de posição, sua estrutura pode ser usada para diagnosticar e corrigi-lo em futuros projetos de modelos.

Isso poderia levar a chatbots mais confiáveis ??que se mantêm no tópico durante conversas longas, sistemas de IA médica que raciocinam de forma mais justa ao lidar com um grande volume de dados de pacientes e assistentes de código que prestam mais atenção a todas as partes de um programa.

“Esses modelos são caixas-pretas, então, como usuário de LLM, você provavelmente não sabe que o viés de posição pode causar inconsistências no seu modelo. Você simplesmente o insere em seus documentos na ordem que quiser e espera que ele funcione. Mas, ao compreender melhor o mecanismo subjacente desses modelos de caixa-preta, podemos aprimorá-los, abordando essas limitações”, afirma Xinyi Wu, estudante de pós-graduação no Instituto de Dados, Sistemas e Sociedade (IDSS) do MIT e no Laboratório de Sistemas de Informação e Decisão (LIDS), e primeira autora de um artigo sobre esta pesquisa.

Seus coautores incluem Yifei Wang, pós-doutoranda do MIT; e os autores seniores Stefanie Jegelka, professora associada de engenharia elétrica e ciência da computação (EECS) e membro do IDSS e do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL); e Ali Jadbabaie, professor e chefe do Departamento de Engenharia Civil e Ambiental, membro do corpo docente do IDSS e pesquisador principal do LIDS. A pesquisa será apresentada na Conferência Internacional sobre Aprendizado de Máquina.

Analisando a atenção

LLMs como Claude, Llama e GPT-4 são alimentados por um tipo de arquitetura de rede neural conhecida como transformador. Transformadores são projetados para processar dados sequenciais, codificando uma frase em blocos chamados tokens e, em seguida, aprendendo as relações entre os tokens para prever quais palavras virão a seguir.

Esses modelos se tornaram muito bons nisso por causa do mecanismo de atenção, que usa camadas interconectadas de nós de processamento de dados para dar sentido ao contexto, permitindo que os tokens se concentrem seletivamente ou atendam a tokens relacionados.

Mas se cada token puder atender a todos os outros tokens em um documento de 30 páginas, isso rapidamente se torna computacionalmente intratável. Portanto, quando engenheiros constroem modelos de transformadores, eles frequentemente empregam técnicas de mascaramento de atenção que limitam as palavras às quais um token pode atender.

Por exemplo, uma máscara causal só permite que as palavras atenda àquelas que vieram antes dela.

Os engenheiros também usam codificações posicionais para ajudar o modelo a entender a localização de cada palavra em uma frase, melhorando o desempenho.

Os pesquisadores do MIT construíram uma estrutura teórica baseada em gráficos para explorar como essas escolhas de modelagem, máscaras de atenção e codificações posicionais poderiam afetar o viés de posição.

"Tudo está acoplado e entrelaçado dentro do mecanismo de atenção, por isso é muito difícil de estudar. Os gráficos são uma linguagem flexível para descrever a relação de dependência entre as palavras dentro do mecanismo de atenção e rastreá-las em múltiplas camadas", diz Wu.

A análise teórica sugeriu que o mascaramento causal dá ao modelo um viés inerente em direção ao início de uma entrada, mesmo quando esse viés não existe nos dados.

Se as palavras anteriores forem relativamente sem importância para o significado de uma frase, o mascaramento causal pode fazer com que o transformador preste mais atenção ao seu início.

“Embora muitas vezes seja verdade que as palavras iniciais e finais de uma frase sejam mais importantes, se um LLM for usado em uma tarefa que não seja geração de linguagem natural, como classificação ou recuperação de informações, esses vieses podem ser extremamente prejudiciais”, diz Wu.

À medida que um modelo cresce, com camadas adicionais de mecanismo de atenção, esse viés é amplificado porque partes anteriores da entrada são usadas com mais frequência no processo de raciocínio do modelo.

Eles também descobriram que o uso de codificações posicionais para vincular palavras mais fortemente a palavras próximas pode mitigar o viés de posição. A técnica redireciona a atenção do modelo para o lugar certo, mas seu efeito pode ser diluído em modelos com mais camadas de atenção.

E essas escolhas de design são apenas uma das causas do viés de posição — algumas podem vir de dados de treinamento que o modelo usa para aprender como priorizar palavras em uma sequência.

“Se você sabe que seus dados são tendenciosos de alguma forma, você também deve refinar seu modelo, além de ajustar suas escolhas de modelagem”, diz Wu.

Perdido no meio

Depois de estabelecer uma estrutura teórica, os pesquisadores realizaram experimentos nos quais variaram sistematicamente a posição da resposta correta em sequências de texto para uma tarefa de recuperação de informações.

Os experimentos mostraram um fenômeno de "perda no meio", em que a precisão da recuperação seguia um padrão em forma de U. Os modelos tiveram melhor desempenho se a resposta correta estivesse localizada no início da sequência. O desempenho decaiu à medida que se aproximava do meio, antes de se recuperar um pouco se a resposta correta estivesse perto do final.

Em última análise, o trabalho deles sugere que usar uma técnica de mascaramento diferente, remover camadas extras do mecanismo de atenção ou empregar estrategicamente codificações posicionais pode reduzir o viés de posição e melhorar a precisão de um modelo.

"Combinando teoria e experimentos, conseguimos analisar as consequências de escolhas de design de modelos que não estavam claras na época. Se você quiser usar um modelo em aplicações de alto risco, precisa saber quando ele funcionará, quando não funcionará e por quê", diz Jadbabaie.

No futuro, os pesquisadores querem explorar mais os efeitos das codificações posicionais e estudar como o viés de posição pode ser explorado estrategicamente em determinadas aplicações.

“Esses pesquisadores oferecem uma rara lente teórica para o mecanismo de atenção no cerne do modelo de transformador. Eles fornecem uma análise convincente que esclarece peculiaridades de longa data no comportamento do transformador, mostrando que mecanismos de atenção, especialmente com máscaras causais, distorcem inerentemente os modelos em direção ao início das sequências. O artigo alcança o melhor dos dois mundos — clareza matemática aliada a insights que alcançam as entranhas dos sistemas do mundo real”, afirma Amin Saberi, professor e diretor do Centro de Design de Mercado Computacional da Universidade Stanford, que não esteve envolvido neste trabalho.

Esta pesquisa é apoiada, em parte, pelo Escritório de Pesquisa Naval dos EUA, pela Fundação Nacional de Ciências e pela Cátedra Alexander von Humboldt.

Tecnologia Científica

Analisando a atenção

"Tudo está acoplado e entrelaçado dentro do mecanismo de atenção, por isso é muito difícil de estudar. Os gráficos são uma linguagem flexível para descrever a relação de dependência entre as palavras dentro do mecanismo de atenção e rastreá-las em múltiplas camadas", diz Wu.

Perdido no meio