Tecnologia Científica

Por que a IA não consegue entender uma flor da mesma forma que os humanos
Mesmo com todo o treinamento e poder computacional, uma ferramenta de inteligência artificial (IA) como o ChatGPT não consegue representar o conceito de uma flor da mesma forma que um humano, de acordo com um novo estudo.
Por Universidade Estadual de Ohio - 04/06/2025


Domínio público


Mesmo com todo o treinamento e poder computacional, uma ferramenta de inteligência artificial (IA) como o ChatGPT não consegue representar o conceito de uma flor da mesma forma que um humano, de acordo com um novo estudo.

Isso ocorre porque os grandes modelos de linguagem (LLMs) que alimentam os assistentes de IA geralmente são baseados apenas na linguagem e, às vezes, em imagens.

"Um grande modelo de linguagem não consegue cheirar uma rosa, tocar as pétalas de uma margarida ou caminhar por um campo de flores silvestres", disse Qihui Xu, principal autor do estudo e pesquisador de pós-doutorado em psicologia na Universidade Estadual de Ohio.

"Sem essas experiências sensoriais e motoras, não é possível representar verdadeiramente o que uma flor é em toda a sua riqueza. O mesmo se aplica a alguns outros conceitos humanos."


O estudo foi publicado na revista Nature Human Behavior .

Xu disse que as descobertas têm implicações na forma como a IA e os humanos se relacionam.

"Se a IA interpretar o mundo de uma maneira fundamentalmente diferente dos humanos, isso poderá afetar a maneira como ela interage conosco", disse ela.

Xu e seus colegas compararam humanos e LLMs em sua representação de conhecimento de 4.442 palavras — tudo, desde "flor" e "casco" até "humoroso" e "balanço".

Eles compararam a similaridade de representações entre humanos e duas famílias LLM de última geração da OpenAI (GPT-3.5 e GPT-4) e do Google (PaLM e Gemini).

Humanos e LLMs foram testados em duas medidas. Uma delas, chamada Normas de Glasgow, solicita avaliações de palavras em nove dimensões, como excitação, concretude e imaginabilidade. Por exemplo, a medida solicita avaliações de quão emocionalmente excitante uma flor é e o quanto uma pessoa consegue visualizar mentalmente uma flor (ou o quão imaginativa ela é).

A outra medida, chamada Normas de Lancaster, examinou como os conceitos de palavras estão relacionados às informações sensoriais (como tato, audição, olfato, visão) e às informações motoras, que estão envolvidas com ações — como o que os humanos fazem por meio do contato com a boca, a mão, o braço e o tronco.

Por exemplo, a medida pede classificações sobre o quanto uma pessoa experimenta flores ao cheirá-las e o quanto uma pessoa experimenta flores usando ações do tronco.

O objetivo era verificar como os LLMs e os humanos se alinhavam em suas avaliações das palavras. Em uma análise, os pesquisadores examinaram o grau de correlação entre humanos e IA em termos de conceitos. Por exemplo, os LLMs e os humanos concordam que alguns conceitos causam maior excitação emocional do que outros?

Em uma segunda análise, os pesquisadores investigaram como os humanos se comparam aos LLMs na decisão de como diferentes dimensões podem contribuir conjuntamente para a representação conceitual geral de uma palavra e como diferentes palavras são interconectadas.

Por exemplo, os conceitos de "massa" e "rosas" podem receber avaliações altas por envolverem o olfato. No entanto, a massa é considerada mais semelhante ao macarrão instantâneo do que às rosas — pelo menos para os humanos — não apenas pelo cheiro, mas também pela aparência e sabor.

No geral, os LLMs se saíram muito bem, em comparação com os humanos, na representação de palavras que não tinham nenhuma conexão com os sentidos e ações motoras. Mas quando se tratava de palavras que tinham conexões com coisas que vemos, saboreamos ou com as quais interagimos usando nosso corpo, foi aí que a IA falhou em capturar conceitos humanos.

"Do aroma intenso de uma flor, ao toque sedoso e vívido quando acariciamos as pétalas, à profunda alegria evocada, a representação humana de 'flor' une essas diversas experiências e interações em uma categoria coerente", dizem os pesquisadores no artigo.

O problema é que a maioria dos LLMs depende da linguagem, e "a linguagem por si só não consegue recuperar totalmente a representação conceitual em toda a sua riqueza", disse Xu.

Embora os LLMs possam aproximar alguns conceitos humanos, especialmente quando não envolvem sentidos ou ações motoras, esse tipo de aprendizado não é eficiente.

"Eles obtêm o que sabem consumindo grandes quantidades de texto — ordens de magnitude maiores do que aquelas às quais um ser humano é exposto durante toda a sua vida — e ainda assim não conseguem captar alguns conceitos da mesma forma que os humanos", disse Xu.

"A experiência humana é muito mais rica do que as palavras podem expressar."

Mas Xu observou que os LLMs estão em constante aprimoramento e é provável que melhorem na captura de conceitos humanos. O estudo constatou que os LLMs treinados com imagens e texto apresentaram melhor desempenho do que os modelos somente com texto na representação de conceitos relacionados à visão.

E quando os futuros LLMs forem ampliados com dados de sensores e robótica, eles poderão fazer inferências e agir ativamente sobre o mundo físico, disse ela.

Os coautores do estudo foram Yingying Peng, Ping Li e Minghua Wu, da Universidade Politécnica de Hong Kong; Samuel Nastase, da Universidade de Princeton; e Martin Chodorow, da Universidade da Cidade de Nova York.


Mais informações: Modelos de linguagem amplos sem aterramento recuperam características não sensório-motoras, mas não sensório-motoras, de conceitos humanos, Nature Human Behavior (2025). DOI: 10.1038/s41562-025-02203-8

Informações do periódico: Nature Human Behaviour 

 

.
.

Leia mais a seguir