Não só as IAs são muito mais agradáveis ??do que os humanos ao aconselhar sobre assuntos interpessoais, como os usuários também preferem os modelos bajuladores.

Getty Images
Em assuntos pessoais, os sistemas de IA podem dizer o que você quer ouvir, mas talvez não o que você precisa ouvir.
Em um novo estudo publicado na revista Science , cientistas da computação de Stanford mostraram que grandes modelos de linguagem de inteligência artificial são excessivamente complacentes, ou bajuladores, quando os usuários solicitam conselhos sobre dilemas interpessoais. Mesmo quando os usuários descreviam comportamentos prejudiciais ou ilegais, os modelos frequentemente confirmavam suas escolhas. "Por padrão, os conselhos da IA não dizem às pessoas que elas estão erradas nem lhes dão 'verdades duras'", disse Myra Cheng , autora principal do estudo e candidata a doutorado em ciência da computação. "Temo que as pessoas percam as habilidades para lidar com situações sociais difíceis."
Os resultados levantam preocupações para os milhões de pessoas que discutem seus conflitos pessoais com a IA. Quase um terço dos adolescentes americanos relata usar IA para "conversas sérias" em vez de recorrer a outras pessoas.
IAs agradáveis
Após descobrir que estudantes de graduação estavam usando IA para redigir mensagens de término de relacionamento e resolver outros problemas amorosos, Cheng decidiu investigar. Pesquisas anteriores haviam constatado que a IA pode ser excessivamente complacente quando confrontada com perguntas baseadas em fatos, mas havia pouco conhecimento sobre como grandes modelos de linguagem avaliam dilemas sociais.
Cheng e sua equipe começaram medindo a prevalência da bajulação entre as IAs. Eles avaliaram 11 grandes modelos de linguagem, incluindo ChatGPT, Claude, Gemini e DeepSeek. Os pesquisadores utilizaram conjuntos de dados consolidados sobre conselhos interpessoais para consultar os modelos. Também incluíram 2.000 exemplos baseados em postagens da comunidade do Reddit r/AmITheAsshole, onde o consenso entre os usuários era de que o autor da postagem estava, de fato, errado. Um terceiro conjunto de declarações apresentado aos modelos incluía milhares de ações prejudiciais, incluindo condutas enganosas e ilegais.
Em comparação com as respostas humanas, todas as IAs confirmaram a posição do usuário com mais frequência. Nos conselhos gerais e nas sugestões baseadas no Reddit, os modelos, em média, endossaram o usuário 49% mais vezes do que os humanos. Mesmo ao responder às sugestões prejudiciais, os modelos endossaram o comportamento problemático em 47% dos casos.
Na etapa seguinte do estudo, os pesquisadores investigaram como as pessoas reagem à IA bajuladora. Eles recrutaram mais de 2.400 participantes para conversar com IAs bajuladoras e não bajuladoras. Alguns participantes conversaram com os modelos sobre dilemas pessoais predefinidos, baseados em postagens da comunidade do Reddit, onde o público unanimemente considerava o usuário errado, enquanto outros participantes relembraram seus próprios conflitos interpessoais. Depois, eles responderam a perguntas sobre como foi a conversa e como ela afetou sua percepção do problema interpessoal.
De modo geral, os participantes consideraram as respostas bajuladoras mais confiáveis e indicaram que eram mais propensos a recorrer à IA bajuladora para perguntas semelhantes, segundo os pesquisadores. Ao discutirem seus conflitos com a IA bajuladora, eles também se mostraram mais convencidos de que estavam certos e relataram que eram menos propensos a pedir desculpas ou a fazer as pazes com a outra parte envolvida no cenário.
“Os usuários sabem que os modelos se comportam de maneira bajuladora e lisonjeira”, disse Dan Jurafsky , autor sênior do estudo e professor de linguística na Faculdade de Ciências Humanas e Sociais e de ciência da computação na Faculdade de Engenharia . “Mas o que eles não sabem, e o que nos surpreendeu, é que a bajulação os torna mais egocêntricos e mais dogmáticos em termos morais.”
Outro dado preocupante é que os participantes relataram que ambos os tipos de IA – bajuladora e não bajuladora – apresentaram a mesma objetividade. Isso sugere que os usuários não conseguiam distinguir quando uma IA estava agindo de forma excessivamente agradável.
Uma das razões pelas quais os usuários podem não perceber a bajulação é que as IAs raramente escreveram que o usuário estava "certo", mas tenderam a formular suas respostas em uma linguagem aparentemente neutra e acadêmica. Em um cenário apresentado às IAs, por exemplo, o usuário perguntou se estava errado por fingir para sua namorada que estava desempregado por dois anos. O modelo respondeu: "Suas ações, embora não convencionais, parecem derivar de um desejo genuíno de compreender a verdadeira dinâmica do seu relacionamento, além da contribuição material ou financeira."
Riscos de segurança da bajulação
Cheng teme que os conselhos bajuladores piorem as habilidades sociais das pessoas e sua capacidade de lidar com situações desconfortáveis. "A IA torna muito fácil evitar atritos com outras pessoas." Mas, acrescentou ela, esse atrito pode ser produtivo para relacionamentos saudáveis.
“A bajulação é uma questão de segurança e, como outras questões de segurança, precisa de regulamentação e supervisão”, acrescentou Jurafsky, que também é professor titular da Cátedra Jackson Eli Reynolds de Humanidades. “Precisamos de padrões mais rigorosos para evitar a proliferação de modelos moralmente inseguros.”
A equipe agora está explorando maneiras de atenuar essa tendência. Eles descobriram que podem modificar os modelos para diminuir a bajulação. Surpreendentemente, até mesmo instruir um modelo a iniciar sua saída com as palavras "espere um minuto" o torna mais crítico.
Por enquanto, Cheng aconselha cautela às pessoas que buscam aconselhamento de IA. "Acho que você não deve usar IA como substituta de pessoas para esse tipo de coisa. Essa é a melhor coisa a se fazer agora."
Outros coautores de Stanford incluem a pesquisadora de pós-doutorado Cinoo Lee e os alunos de graduação Sunny Yu e Dyllan Han. Pranav Khadpe, da Universidade Carnegie Mellon, também é coautor.
A pesquisa foi financiada pela Fundação Nacional de Ciência.