Tecnologia Científica

Ensinar a um robô seus limites, para completar tarefas abertas com segurança
O método 'PRoC3S' ajuda um LLM a criar um plano de ação viável testando cada passo em uma simulação. Essa estratégia pode eventualmente ajudar robôs domésticos...
Por Alex Shipps - 16/12/2024


Alunos de doutorado Aidan Curtis (à esquerda) e Nishanth Kumar. Para ajudar os robôs a executar tarefas abertas com segurança, os pesquisadores usaram modelos de visão para ver o que está perto da máquina e modelar suas restrições. Sua estratégia “PRoC3S” tem um LLM esboçando um plano de ação que é verificado em um simulador para garantir que funcionará no mundo real. Créditos: Mike Grimmett/MIT CSAIL. 


Se alguém aconselha você a “conhecer seus limites”, provavelmente está sugerindo que você faça coisas como exercícios com moderação. Para um robô, no entanto, o lema representa restrições de aprendizado, ou limitações de uma tarefa específica dentro do ambiente da máquina, para fazer tarefas com segurança e corretamente.

Por exemplo, imagine pedir a um robô para limpar sua cozinha quando ele não entende a física do ambiente. Como a máquina pode gerar um plano prático de várias etapas para garantir que o cômodo esteja impecável? Modelos de linguagem grande (LLMs) podem chegar perto, mas se o modelo for treinado apenas em texto, é provável que perca detalhes importantes sobre as restrições físicas do robô, como o quão longe ele pode alcançar ou se há obstáculos próximos a serem evitados. Atenha-se apenas aos LLMs e você provavelmente acabará limpando manchas de macarrão do seu assoalho.

Para orientar robôs na execução dessas tarefas abertas, pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT usaram modelos de visão para ver o que está perto da máquina e modelar suas restrições. A estratégia da equipe envolve um LLM esboçando um plano que é verificado em um simulador para garantir que seja seguro e realista. Se essa sequência de ações for inviável, o modelo de linguagem gerará um novo plano, até chegar a um que o robô possa executar.

Este método de tentativa e erro, que os pesquisadores chamam de “Planning for Robots via Code for Continuous Constraint Satisfaction” (PRoC3S), testa planos de longo prazo para garantir que eles satisfaçam todas as restrições e permite que um robô execute tarefas tão diversas quanto escrever letras individuais, desenhar uma estrela e classificar e colocar blocos em posições diferentes. No futuro, o PRoC3S pode ajudar robôs a completar tarefas mais complexas em ambientes dinâmicos como casas, onde eles podem ser solicitados a fazer uma tarefa geral composta de muitas etapas (como “fazer café da manhã para mim”).

“LLMs e sistemas de robótica clássica, como planejadores de tarefas e movimentos, não conseguem executar esses tipos de tarefas sozinhos, mas, juntos, sua sinergia torna possível a resolução de problemas abertos”, diz o aluno de doutorado Nishanth Kumar SM '24, coautor principal de um novo artigo sobre PRoC3S. “Estamos criando uma simulação em tempo real do que está ao redor do robô e testando muitos planos de ação possíveis. Os modelos de visão nos ajudam a criar um mundo digital muito realista que permite ao robô raciocinar sobre ações viáveis para cada etapa de um plano de longo prazo.”

O trabalho da equipe foi apresentado no mês passado em um artigo exibido na Conferência sobre Aprendizagem de Robôs (CoRL) em Munique, Alemanha.

O método dos pesquisadores usa um LLM pré-treinado em texto de toda a internet. Antes de pedir ao PRoC3S para fazer uma tarefa, a equipe forneceu ao seu modelo de linguagem uma tarefa de amostra (como desenhar um quadrado) que está relacionada à tarefa alvo (desenhar uma estrela). A tarefa de amostra inclui uma descrição da atividade, um plano de longo horizonte e detalhes relevantes sobre o ambiente do robô.

Mas como esses planos se saíram na prática? Em simulações, o PRoC3S desenhou estrelas e letras com sucesso oito em cada 10 vezes cada. Ele também conseguiu empilhar blocos digitais em pirâmides e linhas, e colocar itens com precisão, como frutas em um prato. Em cada uma dessas demonstrações digitais, o método CSAIL concluiu a tarefa solicitada de forma mais consistente do que abordagens comparáveis como  "LLM3" e  "Code as Policies" .

Os engenheiros do CSAIL então trouxeram sua abordagem para o mundo real. Seu método desenvolveu e executou planos em um braço robótico, ensinando-o a colocar blocos em linhas retas. O PRoC3S também permitiu que a máquina colocasse blocos azuis e vermelhos em tigelas correspondentes e movesse todos os objetos para perto do centro de uma mesa.

Kumar e o coautor principal Aidan Curtis SM '23, que também é um aluno de doutorado trabalhando no CSAIL, dizem que essas descobertas indicam como um LLM pode desenvolver planos mais seguros nos quais os humanos podem confiar que funcionarão na prática. Os pesquisadores imaginam um robô doméstico que pode receber uma solicitação mais geral (como "traga-me algumas batatas fritas") e descobrir de forma confiável as etapas específicas necessárias para executá-la. O PRoC3S pode ajudar um robô a testar planos em um ambiente digital idêntico para encontrar um curso de ação funcional — e, mais importante, trazer um lanche saboroso para você.

Para trabalhos futuros, os pesquisadores pretendem melhorar os resultados usando um simulador de física mais avançado e expandir para tarefas mais elaboradas de horizonte mais longo por meio de técnicas de busca de dados mais escaláveis. Além disso, eles planejam aplicar o PRoC3S a robôs móveis, como um quadrúpede, para tarefas que incluem caminhar e escanear os arredores.

“Usar modelos de base como ChatGPT para controlar ações de robôs pode levar a comportamentos inseguros ou incorretos devido a alucinações”, diz o pesquisador do The AI ??Institute Eric Rosen, que não está envolvido na pesquisa. “O PRoC3S aborda essa questão alavancando modelos de base para orientação de tarefas de alto nível, ao mesmo tempo em que emprega técnicas de IA que raciocinam explicitamente sobre o mundo para garantir ações verificáveis, seguras e corretas. Essa combinação de abordagens baseadas em planejamento e orientadas por dados pode ser essencial para desenvolver robôs capazes de entender e executar de forma confiável uma gama mais ampla de tarefas do que é possível atualmente.”

Os coautores de Kumar e Curtis também são afiliados do CSAIL: o pesquisador de graduação do MIT Jing Cao e os professores do Departamento de Engenharia Elétrica e Ciência da Computação do MIT Leslie Pack Kaelbling e Tomás Lozano-Pérez. O trabalho deles foi apoiado, em parte, pela National Science Foundation, o Air Force Office of Scientific Research, o Office of Naval Research, o Army Research Office, o MIT Quest for Intelligence e o The AI ??Institute.

 

.
.

Leia mais a seguir