Tecnologia Científica

Robô, conheça a si mesmo: novo sistema baseado em visão ensina máquinas a entender seus corpos
Os Campos Neural Jacobianos, desenvolvidos por pesquisadores do MIT CSAIL, podem aprender a controlar qualquer robô a partir de uma única câmera, sem nenhum outro sensor.
Por Rachel Gordon - 31/07/2025


Um braço robótico impresso em 3D segura um lápis enquanto treina usando movimentos aleatórios e uma única câmera — parte de um novo sistema de controle chamado Campos Jacobianos Neurais (NJF). Em vez de depender de sensores ou modelos codificados manualmente, o NJF permite que os robôs aprendam como seus corpos se movem em resposta a comandos motores puramente por meio da observação visual, abrindo caminho para robôs mais flexíveis, acessíveis e autoconscientes. Créditos: Imagem cortesia dos pesquisadores.


Em um escritório do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT, uma mão robótica macia curva cuidadosamente os dedos para agarrar um pequeno objeto. O interessante não é o design mecânico ou os sensores incorporados — na verdade, a mão não possui nenhum. Em vez disso, todo o sistema depende de uma única câmera que monitora os movimentos do robô e usa esses dados visuais para controlá-lo.

Essa capacidade vem de um novo sistema desenvolvido pelos cientistas do CSAIL, que oferece uma perspectiva diferente sobre o controle robótico. Em vez de usar modelos projetados manualmente ou conjuntos complexos de sensores, ele permite que os robôs aprendam como seus corpos respondem aos comandos de controle, exclusivamente por meio da visão. A abordagem, chamada Campos Jacobianos Neurais (NJF), proporciona aos robôs uma espécie de autoconsciência corporal. Um artigo de acesso aberto sobre o trabalho foi publicado na  Nature em 25 de junho.

“Este trabalho aponta para uma mudança da programação de robôs para o ensino de robôs”, afirma Sizhe Lester Li, doutoranda em engenharia elétrica e ciência da computação do MIT, afiliada ao CSAIL, e pesquisadora principal do trabalho. “Hoje, muitas tarefas de robótica exigem engenharia e codificação extensivas. No futuro, imaginamos mostrar a um robô o que fazer e deixá-lo aprender a atingir o objetivo de forma autônoma.”

A motivação advém de uma reformulação simples, mas poderosa: a principal barreira para uma robótica acessível e flexível não é o hardware — é o controle da capacidade, que pode ser alcançado de diversas maneiras. Robôs tradicionais são construídos para serem rígidos e ricos em sensores, facilitando a construção de um gêmeo digital, uma réplica matemática precisa usada para controle. Mas quando um robô é macio, deformável ou tem formato irregular, essas premissas se desfazem. Em vez de forçar os robôs a se adaptarem aos nossos modelos, a NJF inverte o roteiro — dando aos robôs a capacidade de aprender seu próprio modelo interno a partir da observação.

Olhe e aprenda

Essa dissociação entre modelagem e design de hardware pode expandir significativamente o escopo de design para robótica. Em robôs macios e bioinspirados, os projetistas frequentemente incorporam sensores ou reforçam partes da estrutura apenas para tornar a modelagem viável. A NJF elimina essa restrição. O sistema não precisa de sensores integrados ou ajustes de design para tornar o controle possível. Os projetistas têm mais liberdade para explorar morfologias não convencionais e sem restrições, sem se preocupar se serão capazes de modelá-las ou controlá-las posteriormente.

“Pense em como você aprende a controlar os dedos: você mexe, observa, se adapta”, diz Li. “É isso que o nosso sistema faz. Ele experimenta ações aleatórias e descobre quais controles movem quais partes do robô.”


O sistema provou ser robusto em diversos tipos de robôs. A equipe testou o NJF em uma mão robótica pneumática macia capaz de pinçar e agarrar, uma mão rígida Allegro, um braço robótico impresso em 3D e até mesmo uma plataforma giratória sem sensores incorporados. Em todos os casos, o sistema aprendeu tanto o formato do robô quanto como ele respondia aos sinais de controle, apenas com base na visão e no movimento aleatório.

Os pesquisadores veem potencial muito além do laboratório. Robôs equipados com NJF poderão um dia realizar tarefas agrícolas com precisão de localização centimétrica, operar em canteiros de obras sem conjuntos complexos de sensores ou navegar em ambientes dinâmicos onde os métodos tradicionais falham.

No cerne do NJF está uma rede neural que captura dois aspectos interligados da personificação de um robô: sua geometria tridimensional e sua sensibilidade a entradas de controle. O sistema se baseia em campos de radiância neural (NeRF), uma técnica que reconstrói cenas 3D a partir de imagens, mapeando coordenadas espaciais para valores de cor e densidade. O NJF estende essa abordagem aprendendo não apenas a forma do robô, mas também um campo jacobiano, uma função que prevê como qualquer ponto do corpo do robô se move em resposta a comandos motores.

Para treinar o modelo, o robô realiza movimentos aleatórios enquanto várias câmeras registram os resultados. Não é necessária supervisão humana nem conhecimento prévio da estrutura do robô — o sistema simplesmente infere a relação entre os sinais de controle e o movimento por meio da observação.

Após a conclusão do treinamento, o robô precisa apenas de uma única câmera monocular para controle em malha fechada em tempo real, operando a cerca de 12 Hertz. Isso permite que ele se observe, planeje e aja de forma responsiva continuamente. Essa velocidade torna o NJF mais viável do que muitos simuladores baseados em física para robôs soft, que costumam exigir muito esforço computacional para uso em tempo real.

Nas primeiras simulações, até mesmo dedos e controles deslizantes 2D simples conseguiam aprender esse mapeamento usando apenas alguns exemplos. Ao modelar como pontos específicos se deformam ou se deslocam em resposta à ação, o NJF constrói um mapa denso de controlabilidade. Esse modelo interno permite generalizar o movimento por todo o corpo do robô, mesmo quando os dados são ruidosos ou incompletos.

“O que é realmente interessante é que o sistema descobre sozinho quais motores controlam quais partes do robô”, diz Li. “Isso não é programado — surge naturalmente por meio do aprendizado, como uma pessoa descobrindo os botões de um novo dispositivo.”

O futuro é suave

Durante décadas, a robótica privilegiou máquinas rígidas e fáceis de modelar — como os braços industriais encontrados em fábricas — porque suas propriedades simplificam o controle. Mas o campo tem se voltado para robôs flexíveis e bioinspirados, que podem se adaptar ao mundo real com mais fluidez. A desvantagem? Esses robôs são mais difíceis de modelar.

“A robótica hoje em dia muitas vezes parece fora de alcance devido aos sensores caros e à programação complexa. Nosso objetivo com os Campos Jacobianos Neurais é reduzir essa barreira, tornando a robótica acessível, adaptável e acessível a mais pessoas. A visão é um sensor resiliente e confiável”, afirma o autor sênior e professor assistente do MIT, Vincent Sitzmann, que lidera o grupo de Representação de Cena. “Ela abre caminho para robôs que podem operar em ambientes desorganizados e desestruturados, de fazendas a canteiros de obras, sem infraestrutura cara.”

“A visão por si só pode fornecer as pistas necessárias para localização e controle — eliminando a necessidade de GPS, sistemas de rastreamento externos ou sensores complexos de bordo. Isso abre caminho para um comportamento robusto e adaptável em ambientes não estruturados, desde drones navegando em ambientes internos ou subterrâneos sem mapas até manipuladores móveis trabalhando em casas ou armazéns desorganizados, e até mesmo robôs com pernas atravessando terrenos irregulares”, afirma a coautora Daniela Rus, professora de engenharia elétrica e ciência da computação do MIT e diretora do CSAIL. “Ao aprender com o feedback visual, esses sistemas desenvolvem modelos internos de seu próprio movimento e dinâmica, permitindo uma operação flexível e autossupervisionada onde os métodos tradicionais de localização falhariam.”

Embora o treinamento do NJF atualmente exija múltiplas câmeras e precise ser refeito para cada robô, os pesquisadores já estão imaginando uma versão mais acessível. No futuro, amadores poderão gravar os movimentos aleatórios de um robô com seus celulares, assim como gravariam um vídeo de um carro alugado antes de partir, e usar essa filmagem para criar um modelo de controle, sem necessidade de conhecimento prévio ou equipamento especial.

O sistema ainda não se generaliza para diferentes robôs e carece de detecção de força ou tátil, o que limita sua eficácia em tarefas que exigem muito contato. Mas a equipe está explorando novas maneiras de lidar com essas limitações: aprimorando a generalização, lidando com oclusões e estendendo a capacidade de raciocínio do modelo para horizontes espaciais e temporais mais longos.

“Assim como os humanos desenvolvem uma compreensão intuitiva de como seus corpos se movem e respondem a comandos, a NJF proporciona aos robôs esse tipo de autoconsciência incorporada por meio da visão”, diz Li. “Essa compreensão é a base para a manipulação e o controle flexíveis em ambientes do mundo real. Nosso trabalho, essencialmente, reflete uma tendência mais ampla na robótica: deixar de lado a programação manual de modelos detalhados e passar a ensinar robôs por meio da observação e da interação.”

Este artigo reuniu o trabalho de visão computacional e aprendizado autosupervisionado do laboratório Sitzmann e a expertise em robôs soft do laboratório Rus. Li, Sitzmann e Rus foram coautores do artigo com os afiliados do CSAIL: Annan Zhang SM '22, doutorando em engenharia elétrica e ciência da computação (EECS); Boyuan Chen, doutorando em EECS; Hanna Matusik, pesquisadora de graduação em engenharia mecânica; e Chao Liu, pós-doutoranda no Senseable City Lab do MIT. 

A pesquisa foi apoiada pelo Fundo de Pesquisa Solomon Buchsbaum, por meio do Comitê de Apoio à Pesquisa do MIT, de uma Bolsa Presidencial do MIT, da Fundação Nacional de Ciências e do Instituto de Ciência e Tecnologia de Gwangju.

 

.
.

Leia mais a seguir