MaisConhecer - Garantir que a IA funcione com a dose certa de curiosidade

Garantir que a IA funcione com a dose certa de curiosidade

Pesquisadores avançam na solução de um problema de longa data de equilibrar “exploração” curiosa versus 'exploração' de caminhos conhecidos no aprendizado por reforço.

Pesquisadores desenvolveram um algoritmo que supera o problema da IA ??seguindo sua “curiosidade” até o ponto em que não consegue completar sua tarefa inicial. O algoritmo aumenta automaticamente a curiosidade quando necessário e a suprime se o agente receber supervisão de recompensa suficiente.

É um dilema tão antigo quanto o tempo. Sexta à noite chegou e você está tentando escolher um restaurante para jantar. Você deve visitar o seu bar mais amado ou experimentar um novo estabelecimento, na esperança de descobrir algo superior? Potencialmente, mas essa curiosidade vem com um risco: se você explorar a nova opção, a comida pode ser pior. Por outro lado, se você ficar com o que sabe que funciona bem, você não sairá do seu caminho estreito.

A curiosidade impulsiona a inteligência artificial para explorar o mundo, agora em casos de uso ilimitados – navegação autônoma, tomada de decisão robótica, otimização de resultados de saúde e muito mais. Máquinas, em alguns casos, usam “aprendizagem por reforço” para atingir um objetivo, onde um agente de IA aprende iterativamente sendo recompensado por bom comportamento e punido por mau. Assim como o dilema enfrentado pelos humanos na escolha de um restaurante, esses agentes também lutam para equilibrar o tempo gasto na descoberta de melhores ações (exploração) e o tempo gasto em ações que levaram a altas recompensas no passado (exploração). Muita curiosidade pode distrair o agente de tomar boas decisões, enquanto muito pouca significa que o agente nunca descobrirá boas decisões.

Na busca de criar agentes de IA com a dose certa de curiosidade, pesquisadores do Laboratório de IA Improvável do MIT e do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) criaram um algoritmo que supera o problema de a IA ser muito “curiosa” e se distrair com um dada tarefa. Seu algoritmo aumenta automaticamente a curiosidade quando necessário e a suprime se o agente obtiver supervisão suficiente do ambiente para saber o que fazer.

Quando testado em mais de 60 videogames, o algoritmo foi capaz de ter sucesso em tarefas de exploração difíceis e fáceis, onde os algoritmos anteriores só conseguiam lidar apenas com um domínio difícil ou fácil. Com esse método, os agentes de IA usam menos dados para aprender regras de tomada de decisão que maximizam os incentivos.

“Se você dominar bem o trade-off exploração-exploração, poderá aprender as regras corretas de tomada de decisão mais rapidamente – e qualquer coisa menos exigirá muitos dados, o que pode significar tratamentos médicos abaixo do ideal, lucros menores para sites e robôs que não “Aprender a fazer a coisa certa”, diz Pulkit Agrawal, professor assistente de engenharia elétrica e ciência da computação (EECS) no MIT, diretor do Improbable AI Lab e afiliado do CSAIL que supervisionou a pesquisa. “Imagine um site tentando descobrir o design ou layout de seu conteúdo que maximizará as vendas. Se alguém não realizar bem a exploração-exploração, convergir para o design correto do site ou para o layout correto do site levará muito tempo, o que significa perda de lucro. Ou em um ambiente de saúde, como no Covid-19, pode haver uma sequência de decisões que precisam ser tomadas para tratar um paciente, e se você quiser usar algoritmos de tomada de decisão, eles precisam aprender de forma rápida e eficiente - você não quer uma solução abaixo do ideal ao tratar um grande número de pacientes. pacientes. Esperamos que este trabalho se aplique a problemas do mundo real dessa natureza”.

É difícil abranger as nuances dos fundamentos psicológicos da curiosidade; os correlatos neurais subjacentes do comportamento de busca de desafios são um fenômeno pouco compreendido. As tentativas de categorizar o comportamento abrangeram estudos que mergulharam profundamente no estudo de nossos impulsos, sensibilidades à privação e tolerâncias sociais e ao estresse.

Com o aprendizado por reforço, esse processo é “podado” emocionalmente e reduzido ao mínimo, mas é complicado do lado técnico. Essencialmente, o agente só deve ser curioso quando não há supervisão suficiente disponível para experimentar coisas diferentes, e se houver supervisão, ele deve ajustar a curiosidade e reduzi-la.

Como um grande subconjunto de jogos são pequenos agentes correndo por ambientes fantásticos em busca de recompensas e realizando uma longa sequência de ações para atingir algum objetivo, parecia o banco de testes lógico para o algoritmo dos pesquisadores. Em experimentos, os pesquisadores dividiram jogos como “Mario Kart” e “Montezuma's Revenge” em dois baldes diferentes: um onde a supervisão era escassa, ou seja, o agente tinha menos orientação, que eram considerados jogos de exploração “difíceis”, e um segundo onde a supervisão era mais densos, ou os jogos de exploração “fáceis”.

Suponha que em “Mario Kart”, por exemplo, você apenas remova todas as recompensas para não saber quando um inimigo o elimina. Você não recebe nenhuma recompensa quando coleta uma moeda ou salta sobre canos. O agente só é informado no final como foi. Este seria um caso de supervisão esparsa. Algoritmos que incentivam a curiosidade se saem muito bem nesse cenário.

Mas agora, suponha que o agente receba supervisão densa – uma recompensa por pular canos, coletar moedas e eliminar inimigos. Aqui, um algoritmo sem curiosidade funciona muito bem porque é recompensado com frequência. Mas se você pegar o algoritmo que também usa curiosidade, ele aprende lentamente. Isso ocorre porque o agente curioso pode tentar correr rápido de maneiras diferentes, dançar, ir para todas as partes da tela do jogo – coisas que são interessantes, mas não ajudam o agente a ter sucesso no jogo. O algoritmo da equipe, no entanto, teve um bom desempenho consistente, independentemente do ambiente em que estava.

Trabalhos futuros podem envolver voltar à exploração que tem encantado e atormentado psicólogos por anos: uma métrica apropriada para curiosidade – ninguém sabe realmente o jeito certo de definir matematicamente a curiosidade.

“Obter um bom desempenho consistente em um problema novo é extremamente desafiador – então, ao melhorar os algoritmos de exploração, podemos economizar seu esforço em ajustar um algoritmo para seus problemas de interesse, diz Zhang-Wei Hong, estudante de doutorado do EECS, afiliado do CSAIL e co-autor principal junto com Eric Chen '20, MEng '21 em um novo artigo sobre o trabalho . “Precisamos de curiosidade para resolver problemas extremamente desafiadores, mas em alguns problemas isso pode prejudicar o desempenho. Propomos um algoritmo que elimina o ônus de ajustar o equilíbrio entre exploração e explotação. Anteriormente o que levava, por exemplo, uma semana para resolver o problema com sucesso, com este novo algoritmo, podemos obter resultados satisfatórios em poucas horas.”

“Um dos maiores desafios para a IA atual e a ciência cognitiva é como equilibrar exploração e exploração – a busca por informação versus a busca por recompensa. As crianças fazem isso sem problemas, mas é um desafio computacionalmente”, observa Alison Gopnik, professora de psicologia e professora afiliada de filosofia da Universidade da Califórnia em Berkeley, que não esteve envolvida no projeto. “Este artigo usa novas técnicas impressionantes para fazer isso automaticamente, projetando um agente que pode equilibrar sistematicamente a curiosidade sobre o mundo e o desejo de recompensa, [dando assim] mais um passo para tornar os agentes de IA (quase) tão inteligentes quanto as crianças.”

“Recompensas intrínsecas, como a curiosidade, são fundamentais para orientar os agentes a descobrir comportamentos diversos úteis, mas isso não deve custar o desempenho de uma determinada tarefa. Este é um problema importante na IA, e o artigo fornece uma maneira de equilibrar essa troca”, acrescenta Deepak Pathak, professor assistente da Carnegie Mellon University, que também não esteve envolvido no trabalho. “Seria interessante ver como esses métodos vão além dos jogos para agentes robóticos do mundo real.”

Chen, Hong e Agrawal escreveram o artigo ao lado de Joni Pajarinen, professor assistente da Universidade de Aalto e líder de pesquisa do Grupo de Sistemas Autônomos Inteligentes em TU Darmstadt. A pesquisa foi apoiada, em parte, pelo MIT-IBM Watson AI Lab, DARPA Machine Common Sense Program, pelo Army Research Office do United States Air Force Research Laboratory e pelo United States Air Force Artificial Intelligence Accelerator. O artigo será apresentado no Neural Information and Processing Systems (NeurIPS) 2022.

Tecnologia Científica