Tecnologia Científica

Redes neurais jogando videogame nos ensinam sobre nossos próprios cérebros
Um novo estudo da Caltech compara varreduras cerebrais de humanos jogando videogames clássicos da Atari a redes sofisticadas de inteligência artificial (IA) que foram treinadas para jogar os mesmos jogos.
Por Lori Dajose - 11/01/2020


Reprodução

Quando você está dirigindo, seu cérebro recebe uma enorme quantidade de informações visuais e as usa para tomar decisões de direção, como quando frear ou mudar de faixa. O cérebro precisa determinar que tipo de informação em seu campo de visão é necessária para tomar essas decisões. Por exemplo, a posição de outro carro é muito importante, mas uma nuvem no céu ou a cor desse carro não tem realmente um impacto na maneira como você dirige.

Este é um exemplo diário de tomada de decisão em um ambiente natural complexo. O que o cérebro está fazendo nessas situações em que há um grande volume de dados sensoriais e a necessidade de tomar decisões rapidamente? Para estudar esta e outras questões relacionadas, os pesquisadores podem fazer experiências usando simulações da nossa vida cotidiana: videogames.

Um novo estudo da Caltech compara varreduras cerebrais de humanos jogando videogames clássicos da Atari a redes sofisticadas de inteligência artificial (IA) que foram treinadas para jogar os mesmos jogos. Liderados pelo estudante de graduação Logan Cross, os pesquisadores compararam o comportamento da IA ​​treinada com o dos humanos e descobriram que a atividade nos "neurônios" artificiais da IA ​​parecia bastante semelhante à atividade no cérebro humano. Isso implica que o agente de IA pode resolver essas tarefas de tomada de decisão de maneira semelhante ao cérebro humano, tornando-o um bom modelo para estudar como o cérebro humano mapeia a entrada visual de alta dimensão em ações em ambientes complexos.

O estudo foi realizado no laboratório do professor de psicologia John O'Doherty . Um artigo descrevendo a pesquisa apareceu na revista Neuron em 15 de dezembro. O'Doherty é um membro do corpo docente afiliado do Tianqiao e Chrissy Chen Institute for Neuroscience da Caltech .

"A interação entre IA e neurociência ocorre em ambos os sentidos", diz O'Doherty. "Se pudermos descobrir como os algoritmos de IA são semelhantes ao cérebro, isso nos ajudará a entender melhor como o cérebro resolve esses tipos de problemas difíceis, mas, inversamente, se pudermos entender por que e como o cérebro pode resolver esses jogos com muito mais eficiência em comparação com uma IA, isso pode ajudar a orientar o desenvolvimento de algoritmos de IA mais inteligentes e mais humanos no futuro. "

No campo da neurociência de decisão, que examina a maneira como a atividade neural no cérebro dá origem à tomada de decisões, muitos estudos usam tarefas simples para examinar como os humanos tomam decisões. Por exemplo, um participante do estudo pode ser solicitado a jogar em duas máquinas caça-níqueis com pagamentos diferentes. Ao longo do experimento, o participante aprenderá qual máquina caça-níqueis ganha mais dinheiro e ajustará seu comportamento de acordo. A estrutura geral de aprendizagem para resolver essas tarefas é chamada de aprendizagem por reforço porque o comportamento é reforçado pelos resultados gratificantes que resultam das decisões.

No entanto, a estrutura de aprendizado por reforço sozinha não descreve adequadamente a tomada de decisão em tarefas maiores e mais complicadas. Em 2015, a DeepMind, uma empresa de inteligência artificial de propriedade do Google, desenvolveu um algoritmo de inteligência artificial complexo, chamado Deep Q Network (DQN), que pode aprender a jogar dezenas de videogames Atari em níveis humanos ou sobre-humanos.

O DQN combina a estrutura clássica de aprendizagem por reforço com outro avanço recente chamado rede neural convolucional. A rede neural convolucional atua como um sistema perceptivo que aprende a detectar recursos visuais no espaço de pixels do Atari (a tela do jogo) que são preditivos de recompensa (pontos de pontuação). Isso permite que o DQN aprenda quais ações executar em uma determinada situação apenas observando os pixels no jogo. É importante ressaltar que as regras do jogo não são programadas no agente DQN; ele deve aprender por si mesmo como o jogo é jogado por tentativa e erro, já que boas decisões são positivamente reforçadas quando o agente marca pontos (junto com as ações que levaram à pontuação).

Neste estudo, o DQN foi treinado nos videogames Atari Pong , Space Invaders e Enduro (um jogo de corrida) e, em seguida, seus neurônios artificiais foram usados ​​para prever o comportamento e a atividade cerebral a partir de imagens de ressonância magnética funcional do cérebro de participantes humanos como eles jogaram os jogos. Em particular, os pesquisadores descobriram que a atividade cerebral em duas regiões cerebrais envolvidas na percepção e na visão, a via visual dorsal e o córtex parietal posterior, podem ser modeladas usando recursos DQN.

Em todos os jogos, o DQN deve aprender como escolher os recursos relevantes de um grande volume de entrada visual, assim como um humano faria. Ele deve formatar essas informações relevantes no que é chamado de espaço de estados, que é uma forma compacta de representar o que está acontecendo no estado atual do jogo. Por exemplo, em Pong , os pesquisadores descobriram que o espaço de estado nos códigos DQN para as posições espaciais da bola e das pás; ele ignora recursos como as cores do fundo e a pontuação do jogo na parte superior da tela. Isso é muito semelhante a como o cérebro humano representa o jogo na via visual dorsal - a parte do cérebro que reconhece onde os objetos estão no espaço para guiar as ações relacionadas a esses objetos.

No jogo Enduro , o jogador dirige o mais rápido possível e tenta evitar outros carros. Durante a viagem, o céu muda de cor do dia para a noite. É fácil para uma pessoa ignorar esses parâmetros, pois eles são irrelevantes para o jogo em si, da mesma forma que aprendemos a ignorar as nuvens no céu ao dirigir um carro. Mas uma rede de IA deve aprender que a mudança de cor do céu não tem impacto na direção.

Os pesquisadores descobriram que as características do DQN que ignoram essas características visuais irrelevantes explicam melhor os padrões de atividade cerebral vistos no córtex parietal posterior dos voluntários que jogam, a parte do cérebro que conecta a percepção ao movimento motor. Resultados semelhantes também foram encontrados em Space Invaders .

Embora os pesquisadores tenham encontrado semelhanças entre o DQN e o cérebro humano, os dois não são idênticos.

“Demora dias de jogo sem parar para DQN aprender a jogar esses jogos, mas os humanos podem aprender em minutos,” diz Cross. "Por que é fácil para o cérebro humano descobrir quais são as características relevantes ao dirigir um carro, mas difícil para uma inteligência artificial? Responder a essa pergunta é um grande desafio para os pesquisadores de IA. É difícil para a IA porque conforme as cores de fundo mudam, sua entrada visual muda drasticamente, pois ele apenas "vê" números no espaço do pixel. É preciso muito treinamento para DQN aprender que duas situações que são dramaticamente diferentes no espaço do pixel são na verdade conceitualmente semelhantes em termos do que você deve fazer. "

Por outro lado, acrescenta Cross, o cérebro humano é moldado ao longo de seu desenvolvimento para aprender a escolher as informações mais importantes para as tarefas diárias comuns. “A via visual dorsal em particular, que é nossa principal região de interesse, é capaz de localizar objetos rapidamente, independentemente de suas cores”, diz ele. "Além disso, o cérebro de alguma forma codifica noções de bom senso de física e como os objetos normalmente se movem, o que permite aos humanos realizar uma ampla variedade de tarefas com pouco treinamento. Tudo isso tem que ser aprendido do zero por DQN."

Nos últimos anos, outras pesquisas descobriram semelhanças entre o cérebro e as redes neurais profundas, mas a maioria desses estudos se concentrou no reconhecimento de objetos, e não na tomada de decisão ativa. Este estudo apresenta uma nova estrutura para estudar o comportamento e a atividade cerebral em tarefas complexas de tomada de decisão que podem ser mais representativas da vida diária do que as tarefas anteriormente usadas no campo.

O artigo é intitulado "Usando o aprendizado por reforço profundo para revelar como o cérebro codifica representações de espaço de estado abstrato em ambientes de alta dimensão." Além de Cross e O'Doherty, co-autores adicionais são Jeff Cockburn, pesquisador pós-doutorado associado em neurociência, e Yisong Yue , professor de computação e ciências matemáticas. O financiamento foi fornecido pelo Instituto Nacional de Abuso de Drogas e pelo Instituto Nacional de Saúde Mental e pelo Centro Caltech Conte para a Neurobiologia da Tomada de Decisão Social.

 

.
.

Leia mais a seguir