Grandes modelos de linguagem não se comportam como pessoas, embora possamos esperar que o façam
Um novo estudo mostra que as crenças de alguém sobre um LLM desempenham um papel significativo no desempenho do modelo e são importantes para a forma como ele é implantado.
Quando um LLM não está alinhado com as crenças de uma pessoa, até mesmo um modelo extremamente capaz pode falhar inesperadamente quando implantado em uma situação do mundo real. Créditos: Imagem: MIT News; iStock
Uma coisa que torna os modelos de linguagem grandes (LLMs) tão poderosos é a diversidade de tarefas às quais eles podem ser aplicados. O mesmo modelo de aprendizado de máquina que pode ajudar um aluno de pós-graduação a redigir um e-mail também pode ajudar um clínico a diagnosticar câncer.
No entanto, a ampla aplicabilidade desses modelos também os torna desafiadores para avaliar de forma sistemática. Seria impossível criar um conjunto de dados de referência para testar um modelo em todo tipo de pergunta que ele pode ser feito.
Em um novo artigo, pesquisadores do MIT adotaram uma abordagem diferente. Eles argumentam que, como os humanos decidem quando implementar grandes modelos de linguagem, avaliar um modelo requer uma compreensão de como as pessoas formam crenças sobre suas capacidades.
Por exemplo, o aluno de pós-graduação deve decidir se o modelo pode ser útil na elaboração de um e-mail específico, e o clínico deve determinar em quais casos seria melhor consultar o modelo.
Com base nessa ideia, os pesquisadores criaram uma estrutura para avaliar um LLM com base em seu alinhamento com as crenças humanas sobre como ele executará uma determinada tarefa.
Eles introduzem uma função de generalização humana — um modelo de como as pessoas atualizam suas crenças sobre as capacidades de um LLM após interagir com ele. Então, eles avaliam o quão alinhados os LLMs estão com essa função de generalização humana.
Seus resultados indicam que quando os modelos estão desalinhados com a função de generalização humana, um usuário pode estar confiante demais ou pouco confiante sobre onde implantá-lo, o que pode fazer com que o modelo falhe inesperadamente. Além disso, devido a esse desalinhamento, modelos mais capazes tendem a ter desempenho pior do que modelos menores em situações de alto risco.
“Essas ferramentas são empolgantes porque são de uso geral, mas, por serem de uso geral, elas colaborarão com as pessoas, então temos que levar em conta o ser humano no circuito”, diz o coautor do estudo Ashesh Rambachan, professor assistente de economia e pesquisador principal no Laboratório de Sistemas de Informação e Decisão (LIDS).
Rambachan é acompanhado no artigo pelo autor principal Keyon Vafa, um pós-doutorado na Universidade de Harvard; e Sendhil Mullainathan, um professor do MIT nos departamentos de Engenharia Elétrica e Ciência da Computação e de Economia, e um membro do LIDS. A pesquisa será apresentada na Conferência Internacional sobre Aprendizado de Máquina.
Generalização humana
À medida que interagimos com outras pessoas, formamos crenças sobre o que achamos que elas sabem e não sabem. Por exemplo, se seu amigo é exigente em corrigir a gramática das pessoas, você pode generalizar e pensar que ele também seria excelente na construção de frases, mesmo que você nunca tenha feito perguntas sobre a construção de frases.
“Modelos de linguagem frequentemente parecem tão humanos. Queríamos ilustrar que essa força da generalização humana também está presente em como as pessoas formam crenças sobre modelos de linguagem”, diz Rambachan.
Como ponto de partida, os pesquisadores definiram formalmente a função de generalização humana, que envolve fazer perguntas, observar como uma pessoa ou LLM responde e, então, fazer inferências sobre como essa pessoa ou modelo responderia a perguntas relacionadas.
Se alguém vê que um LLM pode responder corretamente a perguntas sobre inversão de matriz, ele também pode assumir que ele pode acertar perguntas sobre aritmética simples. Um modelo que está desalinhado com essa função — um que não tem um bom desempenho em perguntas que um humano espera que ele responda corretamente — pode falhar quando implantado.
Com essa definição formal em mãos, os pesquisadores criaram uma pesquisa para medir como as pessoas generalizam quando interagem com LLMs e outras pessoas.
Eles mostraram aos participantes da pesquisa perguntas que uma pessoa ou LLM acertou ou errou e então perguntaram se eles achavam que aquela pessoa ou LLM responderia corretamente a uma pergunta relacionada. Por meio da pesquisa, eles geraram um conjunto de dados de quase 19.000 exemplos de como os humanos generalizam sobre o desempenho do LLM em 79 tarefas diversas.
Medindo o desalinhamento
Eles descobriram que os participantes se saíram muito bem quando perguntados se um humano que acertou uma pergunta responderia corretamente a uma pergunta relacionada, mas foram muito piores em generalizar sobre o desempenho dos LLMs.
“A generalização humana é aplicada a modelos de linguagem, mas isso falha porque esses modelos de linguagem não mostram padrões de especialização como as pessoas mostrariam”, diz Rambachan.
As pessoas também eram mais propensas a atualizar suas crenças sobre um LLM quando ele respondia perguntas incorretamente do que quando ele acertava as perguntas. Elas também tendiam a acreditar que o desempenho do LLM em perguntas simples teria pouca influência em seu desempenho em perguntas mais complexas.
Em situações em que as pessoas deram mais importância a respostas incorretas, modelos mais simples superaram modelos muito grandes, como o GPT-4.
“Modelos de linguagem que melhoram podem quase enganar as pessoas, fazendo-as pensar que terão um bom desempenho em questões relacionadas quando, na verdade, não é isso que acontece”, diz ele.
Uma possível explicação para o motivo pelo qual os humanos são piores em generalizar para LLMs pode vir de sua novidade — as pessoas têm muito menos experiência interagindo com LLMs do que com outras pessoas.
“No futuro, é possível que melhoremos apenas em virtude de interagir mais com modelos de linguagem”, diz ele.
Para esse fim, os pesquisadores querem conduzir estudos adicionais sobre como as crenças das pessoas sobre LLMs evoluem ao longo do tempo conforme elas interagem com um modelo. Eles também querem explorar como a generalização humana pode ser incorporada ao desenvolvimento de LLMs.
“Quando treinamos esses algoritmos em primeiro lugar, ou tentamos atualizá-los com feedback humano, precisamos levar em conta a função de generalização humana em como pensamos sobre a medição de desempenho”, diz ele.
Enquanto isso, os pesquisadores esperam que seu conjunto de dados possa ser usado como referência para comparar o desempenho dos LLMs em relação à função de generalização humana, o que pode ajudar a melhorar o desempenho de modelos implantados em situações do mundo real.
“Para mim, a contribuição do artigo é dupla. A primeira é prática: o artigo revela um problema crítico com a implantação de LLMs para uso geral do consumidor. Se as pessoas não tiverem o entendimento correto de quando os LLMs serão precisos e quando falharão, elas estarão mais propensas a ver erros e talvez sejam desencorajadas a usar mais. Isso destaca a questão de alinhar os modelos com o entendimento das pessoas sobre generalização”, diz Alex Imas, professor de ciência comportamental e economia na Booth School of Business da Universidade de Chicago, que não estava envolvido neste trabalho. “A segunda contribuição é mais fundamental: a falta de generalização para problemas e domínios esperados ajuda a obter uma imagem melhor do que os modelos estão fazendo quando eles acertam um problema. Ele fornece um teste para saber se os LLMs 'entendem' o problema que estão resolvendo.”
Esta pesquisa foi financiada, em parte, pela Harvard Data Science Initiative e pelo Centro de IA Aplicada da Booth School of Business da Universidade de Chicago.