Pesquisadores do MIT desenvolvem uma maneira eficiente de treinar agentes de IA mais confiáveis
A técnica pode tornar os sistemas de IA melhores em tarefas complexas que envolvem variabilidade.

Pesquisadores do MIT desenvolvem uma abordagem eficiente para treinar modelos de aprendizagem por reforço mais confiáveis, com foco em tarefas complexas que envolvem variabilidade. Créditos: Imagem: MIT News; iStock
Campos que vão da robótica à medicina e à ciência política estão tentando treinar sistemas de IA para tomar decisões significativas de todos os tipos. Por exemplo, usar um sistema de IA para controlar o tráfego de forma inteligente em uma cidade congestionada pode ajudar os motoristas a chegarem aos seus destinos mais rapidamente, ao mesmo tempo em que melhora a segurança ou a sustentabilidade.
Infelizmente, ensinar um sistema de IA a tomar boas decisões não é uma tarefa fácil.
Modelos de aprendizado por reforço, que fundamentam esses sistemas de tomada de decisão de IA, ainda falham frequentemente quando confrontados com pequenas variações nas tarefas que são treinados para executar. No caso do tráfego, um modelo pode ter dificuldades para controlar um conjunto de cruzamentos com diferentes limites de velocidade, números de faixas ou padrões de tráfego.
Para aumentar a confiabilidade dos modelos de aprendizagem por reforço para tarefas complexas com variabilidade, pesquisadores do MIT introduziram um algoritmo mais eficiente para treiná-los.
O algoritmo seleciona estrategicamente as melhores tarefas para treinar um agente de IA para que ele possa efetivamente executar todas as tarefas em uma coleção de tarefas relacionadas. No caso do controle de semáforos, cada tarefa pode ser uma interseção em um espaço de tarefas que inclui todas as interseções da cidade.
Ao focar em um número menor de interseções que mais contribuem para a eficácia geral do algoritmo, esse método maximiza o desempenho enquanto mantém o custo de treinamento baixo.
Os pesquisadores descobriram que sua técnica era entre cinco e 50 vezes mais eficiente do que abordagens padrão em uma série de tarefas simuladas. Esse ganho em eficiência ajuda o algoritmo a aprender uma solução melhor de forma mais rápida, melhorando, em última análise, o desempenho do agente de IA.
“Conseguimos ver melhorias incríveis de desempenho, com um algoritmo muito simples, pensando fora da caixa. Um algoritmo que não é muito complicado tem mais chances de ser adotado pela comunidade porque é mais fácil de implementar e mais fácil para outros entenderem”, diz a autora sênior Cathy Wu, a Professora Associada de Desenvolvimento de Carreira Thomas D. e Virginia W. Cabot em Engenharia Civil e Ambiental (CEE) e no Institute for Data, Systems, and Society (IDSS), e membro do Laboratory for Information and Decision Systems (LIDS).
Ela é acompanhada no artigo pelo autor principal Jung-Hoon Cho, um estudante de pós-graduação da CEE; Vindula Jayawardana, uma estudante de pós-graduação no Departamento de Engenharia Elétrica e Ciência da Computação (EECS); e Sirui Li, uma estudante de pós-graduação do IDSS. A pesquisa será apresentada na Conferência sobre Sistemas de Processamento de Informações Neurais.
Encontrar um meio termo
Para treinar um algoritmo para controlar semáforos em muitos cruzamentos em uma cidade, um engenheiro normalmente escolheria entre duas abordagens principais. Ele pode treinar um algoritmo para cada cruzamento de forma independente, usando apenas os dados daquele cruzamento, ou treinar um algoritmo maior usando dados de todos os cruzamentos e então aplicá-lo a cada um.
Mas cada abordagem vem com sua parcela de desvantagens. Treinar um algoritmo separado para cada tarefa (como uma determinada interseção) é um processo demorado que requer uma quantidade enorme de dados e computação, enquanto treinar um algoritmo para todas as tarefas geralmente leva a um desempenho abaixo da média.
Wu e seus colaboradores buscaram um ponto ideal entre essas duas abordagens.
Para seu método, eles escolhem um subconjunto de tarefas e treinam um algoritmo para cada tarefa de forma independente. Mais importante, eles selecionam estrategicamente tarefas individuais que têm mais probabilidade de melhorar o desempenho geral do algoritmo em todas as tarefas.
Eles alavancam um truque comum do campo de aprendizado por reforço chamado aprendizado de transferência zero-shot, no qual um modelo já treinado é aplicado a uma nova tarefa sem ser treinado mais. Com o aprendizado por transferência, o modelo frequentemente tem um desempenho notavelmente bom na nova tarefa vizinha.
“Sabemos que seria ideal treinar em todas as tarefas, mas nos perguntamos se poderíamos treinar em um subconjunto dessas tarefas, aplicar o resultado a todas as tarefas e ainda ver um aumento no desempenho”, diz Wu.
Para identificar quais tarefas deveriam selecionar para maximizar o desempenho esperado, os pesquisadores desenvolveram um algoritmo chamado Model-Based Transfer Learning (MBTL).
O algoritmo MBTL tem duas partes. Primeiro, ele modela o quão bem cada algoritmo executaria se fosse treinado independentemente em uma tarefa. Então, ele modela o quanto o desempenho de cada algoritmo degradaria se fosse transferido para cada outra tarefa, um conceito conhecido como desempenho de generalização.
A modelagem explícita do desempenho de generalização permite que o MBTL estime o valor do treinamento em uma nova tarefa.
O MBTL faz isso sequencialmente, escolhendo primeiro a tarefa que leva ao maior ganho de desempenho e, em seguida, selecionando tarefas adicionais que fornecem as maiores melhorias marginais subsequentes no desempenho geral.
Como o MBTL se concentra apenas nas tarefas mais promissoras, ele pode melhorar drasticamente a eficiência do processo de treinamento.
Redução de custos de treinamento
Quando os pesquisadores testaram essa técnica em tarefas simuladas, incluindo controle de semáforos, gerenciamento de alertas de velocidade em tempo real e execução de diversas tarefas clássicas de controle, ela foi de cinco a 50 vezes mais eficiente do que outros métodos.
Isso significa que eles poderiam chegar à mesma solução treinando com muito menos dados. Por exemplo, com um aumento de eficiência de 50x, o algoritmo MBTL poderia treinar em apenas duas tarefas e atingir o mesmo desempenho de um método padrão que usa dados de 100 tarefas.
“Da perspectiva das duas abordagens principais, isso significa que os dados das outras 98 tarefas não eram necessários ou que o treinamento em todas as 100 tarefas é confuso para o algoritmo, então o desempenho acaba sendo pior que o nosso”, diz Wu.
Com o MBTL, adicionar até mesmo uma pequena quantidade de tempo adicional de treinamento pode levar a um desempenho muito melhor.
No futuro, os pesquisadores planejam projetar algoritmos MBTL que podem se estender a problemas mais complexos, como espaços de tarefas de alta dimensão. Eles também estão interessados em aplicar sua abordagem a problemas do mundo real, especialmente em sistemas de mobilidade de próxima geração.
A pesquisa é financiada, em parte, pelo Prêmio CAREER da National Science Foundation, pelo Programa de Bolsas de Doutorado da Kwanjeong Educational Foundation e pela Bolsa de Doutorado em Robótica da Amazon.