Quando um ser humano vê um rosto familiar ou um veículo que se aproxima, o cérebro leva apenas 100 milissegundos (cerca de um décimo de segundo) para identificá-lo e, mais importante, colocá-lo no contexto certo para que possa ser entendido...

Seleção de imagens de objetos mostradas a observadores humanos e redes neurais profundas. Crédito: Marieke Mur
Quando um ser humano vê um rosto familiar ou um veículo que se aproxima, o cérebro leva apenas 100 milissegundos (cerca de um décimo de segundo) para identificá-lo e, mais importante, colocá-lo no contexto certo para que possa ser entendido, e o indivíduo pode reagir de acordo.
Sem surpresa, os computadores podem fazer isso mais rápido, mas eles são tão precisos quanto os humanos no mundo real ? Nem sempre, e isso é um problema, de acordo com um estudo liderado pela especialista em neuroimagem ocidental Marieke Mur.
Os computadores podem ser ensinados a processar dados recebidos, como observar rostos e carros, usando inteligência artificial conhecida como redes neurais profundas ou aprendizado profundo . Esse tipo de processo de aprendizado de máquina usa nós ou neurônios interconectados em uma estrutura em camadas que se assemelha ao cérebro humano .
A palavra-chave é 'semelhança', pois os computadores, apesar do poder e da promessa de aprendizado profundo, ainda precisam dominar os cálculos humanos e, crucialmente, a comunicação e a conexão encontrada entre o corpo e o cérebro, especificamente quando se trata de reconhecimento visual.
“Embora promissoras, as redes neurais profundas estão longe de serem modelos computacionais perfeitos da visão humana”, disse Mur, um professor ocidental nomeado conjuntamente nos departamentos de psicologia e ciência da computação.
Estudos anteriores mostraram que o aprendizado profundo não pode reproduzir perfeitamente o reconhecimento visual humano, mas poucos tentaram estabelecer quais aspectos do aprendizado profundo da visão humana falha em emular.
A equipe usou um teste médico não invasivo chamado magnetoencefalografia (MEG), que mede os campos magnéticos produzidos pelas correntes elétricas do cérebro. Usando dados MEG adquiridos de observadores humanos durante a visualização do objeto, Mur e seus colaboradores internacionais detectaram um ponto-chave de falha. Eles descobriram que partes facilmente nomeáveis ??de objetos, como "olho", "roda" e "rosto", podem explicar a variação na dinâmica neural humana além do que o aprendizado profundo pode oferecer.
“Essas descobertas sugerem que as redes neurais profundas e os humanos podem, em parte, confiar em diferentes recursos de objetos para reconhecimento visual e fornecer diretrizes para a melhoria do modelo”, disse Mur.
O estudo mostra que as redes neurais profundas não podem explicar totalmente as respostas neurais medidas em observadores humanos enquanto os indivíduos estão vendo fotos de objetos, incluindo rostos e animais, e tem grandes implicações para o uso de modelos de aprendizado profundo em configurações do mundo real, como auto-conhecimento. condução de veículos.
“Esta descoberta fornece pistas sobre o que as redes neurais não conseguem entender nas imagens, ou seja, características visuais que são indicativas de categorias de objetos ecologicamente relevantes, como rostos e animais”, disse Mur. “Sugerimos que as redes neurais podem ser melhoradas como modelos do cérebro, dando-lhes uma experiência de aprendizagem mais semelhante à humana, como um regime de treinamento que enfatiza mais fortemente as pressões comportamentais às quais os humanos são submetidos durante o desenvolvimento”.
Por exemplo, é importante para os humanos identificar rapidamente se um objeto é um animal que se aproxima ou não e, em caso afirmativo, prever seu próximo movimento consequente. A integração dessas pressões durante o treinamento pode beneficiar a capacidade das abordagens de aprendizado profundo para modelar a visão humana.
O trabalho foi publicado no The Journal of Neuroscience .
Mais informações: Kamila M. Jozwik et al, Deep Neural Networks and Visuo-Semantic Models Explain Complementary Components of Human Ventral-Stream Representational Dynamics, The Journal of Neuroscience (2023). DOI: 10.1523/JNEUROSCI.1424-22.2022
Informações do periódico: Journal of Neuroscience