Humanidades

Nem sempre é possível determinar a emoção a partir dos movimentos faciais de alguém, nem a IA
As pessoas podem arregalar os olhos porque estão com raiva ou porque estão surpresas, e o cérebro humano depende do contexto para resolver esse quebra-cabeça.
Por Molly Callahan - 20/08/2021


Uma nova pesquisa da neurocientista nordestina Lisa Feldman Barrett mostra que a interpretação da expressão facial de uma pessoa não pode ser feita no vácuo; depende do contexto. Crédito: Matthew Modoono / Northeastern University

Se você visse uma pessoa com a testa franzida, a boca voltada para baixo e os olhos semicerrados, você diria que ela está com raiva? E se você descobrisse que eles haviam esquecido os óculos de leitura e estavam decifrando o cardápio de um restaurante?

A interpretação dos movimentos faciais de uma pessoa não pode ser feita no vácuo; depende do contexto - algo que a neurocientista nordestina Lisa Feldman Barrett mostra em um novo estudo inovador publicado quinta-feira na revista científica Nature Communications .

Barrett, um distinto professor universitário de psicologia da Northeastern, e colegas de várias outras instituições ao redor do mundo usaram fotos de atores profissionais retratando cenários ricamente construídos para mostrar que as pessoas não apenas usam diferentes movimentos faciais para comunicar diferentes instâncias da mesma categoria de emoção (alguém podem franzir a testa, franzir a testa ou até mesmo rir quando estão retratando a raiva), eles também empregam configurações faciais semelhantes para comunicar uma série de instâncias de diferentes categorias de emoções (uma carranca às vezes pode expressar concentração, por exemplo) - descobertas que têm sérias implicações para tecnologia de reconhecimento de emoções que pretende "ler" emoções no rosto.

"A implicação deste estudo é que há muito mais variabilidade na maneira como as pessoas expressam diferentes instâncias de uma determinada categoria de emoção. E uma configuração facial pode expressar instâncias de raiva, felicidade ou outras categorias de emoção, dependendo do contexto". Barrett diz.

As pessoas podem arregalar os olhos porque estão com raiva ou porque estão surpresas, e o cérebro humano depende do contexto para resolver esse quebra-cabeça.

Estudos científicos anteriores de expressões emocionais contaram com pessoas comuns ou atores amadores para retratar uma única instância de cada categoria de emoção em um contexto empobrecido: "Seu primo acabou de morrer e você se sente muito triste. Que expressão você faria?"

Essas representações sugerem que as pessoas se apoiem em expressões estereotipadas de emoção (carrancudo de tristeza), em vez de expressões que refletem uma vida emocional mais rica, cheia de nuances e variações situadas, diz Barrett.

Portanto, para seu estudo, Barrett e seus coautores usaram fotos de atores profissionais - pessoas com "experiência em emoção" porque seus próprios meios de subsistência dependem de "seu retrato autêntico de experiências emocionais em filmes, televisão e teatro", de uma forma que transmite informações verossímeis, escrevem os pesquisadores.
 
Os atores receberam um cenário detalhado de evocação de emoção para atuar e, em seguida, fotografado por Howard Schatz (que também criou os cenários) para dois volumes publicados: Em personagem: Atores atuando e Pego no ato: Atores atuando.

Um exemplo dos livros de Schatz: "Ele é um cara da motocicleta saindo de um bar de motoqueiros assim como um cara em um Porsche volta para sua Harley reluzente", de acordo com o artigo dos pesquisadores.

"O importante é que esses atores famosos receberam um cenário sem palavras de emoção", diz Barrett, o que elimina a conexão imediata que se pode fazer entre, por exemplo, a palavra "triste" e a expressão facial "carranca".

Os pesquisadores usaram 604 das 731 fotografias dos livros de Schatz, eliminando apenas aquelas em que as poses faciais dos atores não puderam ser analisadas porque suas mãos cobriram o rosto ou porque suas cabeças estavam extremamente inclinadas.

Eles usaram essas fotos e cenários para executar dois estudos. No primeiro, os pesquisadores pediram a 839 voluntários que julgassem sozinhos os significados emocionais das descrições de cenários. Cada voluntário avaliou cerca de 30 cenários, usando uma escala de 1 a 4 para indicar até que ponto uma das 13 emoções foi evocada na descrição: diversão, raiva, temor, desprezo, repulsa, vergonha, medo, felicidade, interesse, orgulho, tristeza , vergonha e surpresa.

Eles usaram a avaliação mediana de cada cenário para classificá-lo em uma dessas 13 categorias de emoções. Os pesquisadores também convocaram três especialistas para codificar as 604 fotografias usando o Sistema de Codificação de Ação Facial, que especifica um conjunto de unidades de ação em que cada uma representa o movimento de um ou mais músculos faciais.

De acordo com uma hipótese antiga, certas categorias de emoções são expressas de forma consistente e específica com certos conjuntos de movimentos faciais. Se fosse esse o caso, todas as descrições de cenários classificadas como instâncias evocativas de uma determinada categoria de emoção deveriam corresponder a fotografias que retratam consistentemente um conjunto específico de movimentos faciais.

Ou, como diz Barrett, "Se as configurações faciais em questão - carrancudo, sorriso, carranca e assim por diante - são expressões que evoluíram para comunicar emoções específicas, você deve ver atores famosos fazendo carranca ao retratar instâncias de raiva e apenas raiva, posando franze a testa ao retratar a tristeza, e assim por diante. "

Os pesquisadores executaram análises de aprendizado de máquina, que revelaram que os atores retratavam instâncias das mesmas categorias de emoções contorcendo seus rostos de várias maneiras. Além disso, poses faciais semelhantes não expressavam de forma confiável a mesma categoria emocional.

Para testar se os movimentos faciais, por si só, carregam alguma informação emocional independente do contexto, os pesquisadores pediram a mais dois grupos de voluntários para julgar o significado emocional de cada pose facial, seja quando apresentada isoladamente ou com seu cenário correspondente.

O primeiro grupo, 842 pessoas, avaliou cerca de 30 rostos cada. O segundo grupo, 845 pessoas, avaliou cerca de 30 pares de rostos e cenários. Ambos os grupos foram solicitados a julgar até que ponto seus rostos ou pares de rosto e cenário pertenciam a cada uma das 13 categorias de emoções.

Se os movimentos faciais carregam informações emocionais independentemente do contexto, então as classificações dos rostos por si só deveriam ser muito semelhantes às classificações dos pares rosto-cenário. Se o significado emocional dos movimentos faciais vem principalmente do contexto ao qual eles estão associados, então as classificações iniciais dos cenários por si só seriam mais semelhantes às classificações dos cenários de rosto.

Os pesquisadores descobriram que os julgamentos das pessoas sobre as poses faciais por si só não correspondiam de forma confiável às avaliações dos rostos quando eram vistos com o cenário; eles também não correspondiam à categoria de emoção designada do cenário. Os significados emocionais das poses faciais vieram principalmente dos cenários com os quais eles foram pareados, ou seja, o contexto.

"As presentes descobertas se juntam a outros resumos recentes das evidências empíricas para sugerir que carrancas, sorrisos e outras configurações faciais pertencem a um repertório maior e mais variável das maneiras significativas pelas quais as pessoas movem seus rostos para expressar emoções", escreveram os pesquisadores.

Em outras palavras, diz Barrett, "as pessoas inferem o significado do seu sorriso e suas inferências são informadas pelo contexto. Quando se trata de expressar emoção, um rosto não fala por si".

As descobertas dos pesquisadores têm implicações para os tipos de sistemas artificialmente inteligentes que alguns engenheiros afirmam ser capazes de decifrar a emoção de alguém rastreando apenas seus movimentos faciais.

As empresas já estão usando sistemas movidos a IA para avaliar as emoções das crianças à medida que aprendem, fazem julgamentos sobre candidatos em potencial a empregos e adivinham as supostas intenções nefastas de um passageiro de avião.

"Nossa pesquisa vai contra a abordagem tradicional da IA ​​emocional", diz Barrett. "Certas empresas afirmam ter algoritmos que podem detectar raiva, por exemplo, quando o que realmente têm - em circunstâncias ideais - são algoritmos que provavelmente podem detectar carranca, que pode ou não ser uma expressão de raiva. É importante não confundir o descrição de uma configuração facial com inferências sobre seu significado emocional . "

 

.
.

Leia mais a seguir