Crédito: Robert Way na iStock.
O estudo, publicado na Royal Society Open Science, testou os mais avançados Large Language Models (LLMs) usando testes de psicologia cognitiva para avaliar sua capacidade de raciocínio. Os resultados destacam a importância de compreender como estas IAs “pensam” antes de lhes confiar tarefas, especialmente aquelas que envolvem a tomada de decisões.
Nos últimos anos, os LLMs que alimentam aplicativos de IA generativos como o ChatGPT tornaram-se cada vez mais sofisticados. A sua capacidade de produzir textos, imagens, áudio e vídeos realistas suscitou preocupações sobre a sua capacidade de roubar empregos, influenciar eleições e cometer crimes.
No entanto, também foi demonstrado que estas IA fabricam informações rotineiramente, respondem de forma inconsistente e até erram em simples somas matemáticas.
Neste estudo, pesquisadores da UCL analisaram sistematicamente se sete LLMs eram capazes de raciocínio racional. Uma definição comum de agente racional (humano ou artificial), adotada pelos autores, é se ele raciocina de acordo com as regras da lógica e da probabilidade. Um agente irracional é aquele que não raciocina de acordo com estas regras.
Os LLMs receberam uma bateria de 12 testes comuns de psicologia cognitiva para avaliar o raciocínio, incluindo a tarefa de Wason, o problema de Linda e o problema de Monty Hall. A capacidade dos seres humanos para resolver estas tarefas é baixa; em estudos recentes, apenas 14% dos participantes acertaram o problema de Linda e 16% acertaram a tarefa de Wason.
Os modelos exibiram irracionalidade em muitas de suas respostas, como fornecer respostas variadas quando a mesma pergunta foi feita 10 vezes. Eles eram propensos a cometer erros simples, incluindo erros básicos de adição e confundir consoantes com vogais, o que os levava a fornecer respostas incorretas.
Por exemplo, as respostas corretas para a tarefa Wason variaram de 90% para GPT-4 a 0% para GPT-3.5 e Google Bard. Llama 2 70b, que respondeu corretamente 10% das vezes, confundiu a letra K com uma vogal e respondeu incorretamente.
Embora a maioria dos humanos também não conseguisse responder corretamente à tarefa de Wason, é improvável que isso acontecesse porque eles não sabiam o que era uma vogal.
Olivia Macmillan-Scott, primeira autora do estudo da UCL Computer Science, disse: “Com base nos resultados do nosso estudo e de outras pesquisas sobre modelos de linguagem grande, é seguro dizer que esses modelos ainda não 'pensam' como os humanos.
“Dito isto, o modelo com o maior conjunto de dados, GPT-4, teve um desempenho muito melhor do que outros modelos, sugerindo que estão a melhorar rapidamente. No entanto, é difícil dizer como este modelo específico funciona porque é um sistema fechado. Suspeito que existam outras ferramentas em uso que você não encontraria em seu antecessor GPT-3.5.”
Alguns modelos recusaram-se a responder às tarefas por motivos éticos, embora as perguntas fossem inocentes. Isto é provavelmente resultado da salvaguarda de parâmetros que não estão funcionando conforme o esperado.
Os pesquisadores também forneceram contexto adicional para as tarefas, o que demonstrou melhorar as respostas das pessoas. No entanto, os LLMs testados não apresentaram nenhuma melhoria consistente.
O professor Mirco Musolesi, autor sênior do estudo da UCL Computer Science, disse: “As capacidades desses modelos são extremamente surpreendentes, especialmente para pessoas que trabalham com computadores há décadas, eu diria.
“O interessante é que não entendemos realmente o comportamento emergente dos Grandes Modelos de Linguagem e por que e como eles obtêm respostas certas ou erradas. Temos agora métodos para aperfeiçoar estes modelos, mas então surge uma questão: se tentarmos resolver estes problemas ensinando os modelos, será que também impomos as nossas próprias falhas? O que é intrigante é que esses LLMs nos fazem refletir sobre como raciocinamos e sobre nossos próprios preconceitos, e se queremos máquinas totalmente racionais. Queremos algo que cometa erros como nós, ou queremos que eles sejam perfeitos?”
Os modelos testados foram GPT-4, GPT-3.5, Google Bard, Claude 2, Llama 2 7b, Llama 2 13b e Llama 2 70b.