Tecnologia Científica

Um 'teste de personalidade' mostra como os chatbots de IA imitam traços humanos – e como podem ser manipulados
Pesquisadores desenvolveram a primeira estrutura de 'teste de personalidade' cientificamente validada para chatbots de IA populares e demonstraram que os chatbots não apenas imitam traços de personalidade humana...
Por Sarah Collins - 30/12/2025


Jovem mulher conversando com um chatbot - Crédito: d3sign via Getty Images


Pesquisadores desenvolveram a primeira estrutura de "teste de personalidade" cientificamente validada para chatbots de IA populares e demonstraram que os chatbots não apenas imitam traços de personalidade humana, mas sua "personalidade" pode ser testada de forma confiável e moldada com precisão – o que levanta implicações para a segurança e a ética da IA.

A equipe de pesquisa, liderada pela Universidade de Cambridge e pelo Google DeepMind, desenvolveu um método para medir e influenciar a "personalidade" sintética de 18 diferentes modelos de linguagem de grande porte (LLMs, na sigla em inglês) – os sistemas por trás de chatbots de IA populares, como o ChatGPT – com base em métodos de testes psicológicos normalmente usados para avaliar traços de personalidade humana.

Os pesquisadores descobriram que modelos maiores e ajustados por instruções, como o GPT-40, emulavam com maior precisão os traços de personalidade humana, e que esses traços podem ser manipulados por meio de estímulos, alterando a forma como a IA realiza determinadas tarefas.

O estudo, publicado na revista Nature Machine Intelligence , também alerta que a modelagem de personalidade pode tornar os chatbots de IA mais persuasivos, levantando preocupações sobre manipulação e "psicose da IA". Os autores afirmam que a regulamentação dos sistemas de IA é urgentemente necessária para garantir a transparência e prevenir o uso indevido.

Enquanto os governos debatem se e como elaborar leis de segurança para IA, os pesquisadores afirmam que o conjunto de dados e o código por trás de sua ferramenta de teste de personalidade – ambos disponíveis publicamente – podem ajudar a auditar e testar modelos avançados antes de seu lançamento.

Em 2023, jornalistas relataram conversas que tiveram com o chatbot "Sydney" da Microsoft, que alegava, de diversas maneiras, ter espionado, se apaixonado ou até mesmo assassinado seus desenvolvedores; ameaçado usuários; e incentivado um jornalista a se separar de sua esposa. Sydney, assim como seu sucessor, o Microsoft Copilot, era baseado no GPT-4.

“Foi intrigante que um mestrado em Direito (LLM) pudesse incorporar traços humanos de forma tão convincente”, disse o coautor principal Gregory Serapio-García, do Centro de Psicometria da Cambridge Judge Business School. “Mas isso também levantou importantes questões de segurança e ética. Além da inteligência, a personalidade é um aspecto fundamental do que nos torna humanos. Se esses mestrados em Direito têm personalidade – o que por si só já é uma questão complexa –, como medi-la?”

Em psicometria, o subcampo da psicologia dedicado à avaliação e aos testes padronizados, os cientistas frequentemente enfrentam o desafio de mensurar fenômenos que não podem ser medidos diretamente, o que torna a validação de qualquer teste fundamental para garantir sua precisão, confiabilidade e utilidade prática. O desenvolvimento de um teste psicométrico de personalidade envolve a comparação de seus dados com testes correlatos, avaliações de observadores e critérios do mundo real. Esses dados de testes multimétodo são necessários para estabelecer a "validade de construto" de um teste: uma métrica da qualidade de um teste em termos de sua capacidade de medir o que se propõe a medir.  

“O ritmo da pesquisa em IA tem sido tão acelerado que os princípios básicos de medição e validação aos quais estamos acostumados na pesquisa científica se tornaram uma reflexão tardia”, disse Serapio-García, que também é bolsista da Fundação Gates em Cambridge. “Um chatbot que responde a qualquer questionário pode dizer que é muito agradável, mas se comportar de forma agressiva ao executar tarefas do mundo real com as mesmas instruções.”

“Essa é a complexa realidade da mensuração de construções sociais: elas são dinâmicas e subjetivas, em vez de estáticas e objetivas. Por essa razão, precisamos voltar ao básico e garantir que os testes que aplicamos à IA realmente meçam o que afirmam medir, em vez de confiar cegamente em instrumentos de pesquisa – desenvolvidos para características profundamente humanas – para testar sistemas de IA.”


Para desenvolver um método abrangente e preciso para avaliar e validar a personalidade em chatbots de IA, os pesquisadores testaram o quão bem o comportamento de vários modelos em tarefas do mundo real e em testes de validação se relacionava estatisticamente com suas pontuações nos cinco grandes traços de personalidade usados em testes psicométricos acadêmicos: abertura, conscienciosidade, extroversão, amabilidade e neuroticismo.

A equipe adaptou dois testes de personalidade bastante conhecidos – uma versão de código aberto com 300 questões do Inventário de Personalidade NEO Revisado e o Inventário dos Cinco Grandes Fatores, mais curto – e os aplicou a diversos profissionais de Direito com base em perguntas estruturadas.

Ao usar o mesmo conjunto de estímulos contextuais em todos os testes, a equipe conseguiu quantificar o quanto a pontuação de extroversão de um modelo em um teste de personalidade, por exemplo, se correlacionava mais fortemente com seus níveis de extroversão em um teste de personalidade separado e menos fortemente com todos os outros traços de personalidade do modelo dos Cinco Grandes Fatores nesse teste. Tentativas anteriores de avaliar a personalidade de chatbots alimentavam o modelo com questionários completos de uma só vez, o que distorcia os resultados, já que cada resposta se baseava na anterior.

Os pesquisadores descobriram que modelos maiores, ajustados às instruções, apresentavam perfis de testes de personalidade que eram confiáveis e preditivos de comportamento, enquanto modelos menores ou "base" forneciam respostas inconsistentes.

Os pesquisadores levaram seus testes adiante, demonstrando que podiam direcionar a personalidade de um modelo em nove níveis para cada traço, usando instruções cuidadosamente elaboradas. Por exemplo, eles conseguiam fazer um chatbot parecer mais extrovertido ou mais emocionalmente instável – e essas mudanças se refletiam em tarefas do mundo real, como escrever posts em redes sociais.

“Nosso método oferece uma estrutura para validar uma determinada avaliação de IA e testar sua capacidade de prever comportamentos no mundo real”, disse Serapio-García. “Nosso trabalho também mostra como os modelos de IA podem alterar de forma confiável a maneira como imitam a personalidade, dependendo do usuário, o que levanta grandes preocupações de segurança e regulamentação. Mas, se você não sabe o que está medindo ou aplicando, não faz sentido estabelecer regras.”

A pesquisa foi parcialmente financiada pelo Cambridge Research Computing Services (RCS), pelo Cambridge Service for Data Driven Discovery (CSD3), pelo Engineering and Physical Sciences Research Council (EPSRC) e pelo Science and Technologies Facilities Council (STFC), parte do UK Research and Innovation (UKRI). Gregory Serapio-García é membro do St John's College, Cambridge.

 
Referência:
Gregory Serapio-García et al. ' Uma estrutura psicométrica para avaliar e moldar traços de personalidade em grandes modelos de linguagem .' Nature Machine Intelligence (2025). DOI: 10.1038/s42256-025-01115-6

 

.
.

Leia mais a seguir