Tecnologia Científica

Um one-up na captura de movimento
uma equipe de pesquisadores do MIT e da IBM desenvolveu um pipeline de rede neural treinado que evita esse problema, com a capacidade de inferir o estado do ambiente e as ações que acontecem, as características físicas do objeto ou pessoa...
Por Lauren Hinkel - 29/04/2022


Os pesquisadores do MIT usaram o método RISP para prever a sequência de ação, rigidez articular ou movimento de uma mão articulada, como esta, a partir de uma imagem ou vídeo alvo. Imagem cortesia dos pesquisadores


De “Star Wars” a “Happy Feet”, muitos filmes amados contêm cenas que foram possibilitadas pela tecnologia de captura de movimento, que registra o movimento de objetos ou pessoas por meio de vídeo. Além disso, os aplicativos para esse rastreamento, que envolvem interações complicadas entre física, geometria e percepção, se estendem além de Hollywood para as forças armadas, treinamento esportivo, campos médicos e visão computacional e robótica, permitindo que os engenheiros entendam e simulem ações que acontecem no mundo real. ambientes.

Como esse pode ser um processo complexo e caro – muitas vezes exigindo marcadores colocados em objetos ou pessoas e gravando a sequência de ação – os pesquisadores estão trabalhando para transferir a carga para as redes neurais, que podem adquirir esses dados de um vídeo simples e reproduzi-los em um modelo . O trabalho em simulações físicas e renderização promete tornar isso mais amplamente utilizado, uma vez que pode caracterizar movimentos realistas, contínuos e dinâmicos de imagens e transformar entre uma renderização 2D e uma cena 3D no mundo. No entanto, para isso, as técnicas atuais exigem o conhecimento preciso das condições ambientais em que a ação está ocorrendo e a escolha do renderizador, ambos muitas vezes indisponíveis.

Agora, uma equipe de pesquisadores do MIT e da IBM desenvolveu um pipeline de rede neural treinado que evita esse problema, com a capacidade de inferir o estado do ambiente e as ações que acontecem, as características físicas do objeto ou pessoa de interesse (sistema) , e seus parâmetros de controle. Quando testada, a técnica pode superar outros métodos em simulações de quatro sistemas físicos de corpos rígidos e deformáveis, que ilustram diferentes tipos de dinâmicas e interações, sob diversas condições ambientais. Além disso, a metodologia permite o aprendizado por imitação – prevendo e reproduzindo a trajetória de um quadrotor voador do mundo real a partir de um vídeo.

“O problema de pesquisa de alto nível com o qual este artigo trata é como reconstruir um gêmeo digital a partir de um vídeo de um sistema dinâmico”, diz Tao Du PhD '21, pós-doc no Departamento de Engenharia Elétrica e Ciência da Computação (EECS), um membro do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL), e membro da equipe de pesquisa. Para fazer isso, diz Du, “precisamos ignorar as variações de renderização dos videoclipes e tentar entender as informações principais sobre o sistema dinâmico ou o movimento dinâmico”.

Os coautores de Du incluem o autor principal Pingchuan Ma, estudante de pós-graduação em EECS e membro do CSAIL; Josh Tenenbaum, Professor de Desenvolvimento de Carreira Paul E. Newton de Ciência Cognitiva e Computação no Departamento de Cérebro e Ciências Cognitivas e membro do CSAIL; Wojciech Matusik, professor de engenharia elétrica e ciência da computação e membro do CSAIL; e Chuang Gan, principal membro da equipe de pesquisa do MIT-IBM Watson AI Lab. Este trabalho foi apresentado esta semana na Conferência Internacional sobre Representações de Aprendizagem.

Embora a captura de vídeos de personagens, robôs ou sistemas dinâmicos para inferir movimentos dinâmicos torne essas informações mais acessíveis, também traz um novo desafio. “As imagens ou vídeos [e como eles são renderizados] dependem em grande parte das condições de iluminação, das informações de fundo, das informações de textura, das informações materiais do seu ambiente e não são necessariamente mensuráveis ​​em um mundo real. cenário”, diz Du. Sem essas informações de configuração de renderização ou conhecimento de qual renderizador é usado, atualmente é difícil coletar informações dinâmicas e prever o comportamento do assunto do vídeo. Mesmo que o renderizador seja conhecido, as abordagens atuais de rede neural ainda exigem grandes conjuntos de dados de treinamento. No entanto, com sua nova abordagem, isso pode se tornar um ponto discutível. “Se você gravar um vídeo de um leopardo correndo de manhã e à noite, é claro, você obterá videoclipes visualmente diferentes porque as condições de iluminação são bem diferentes. Mas o que realmente importa é o movimento dinâmico: os ângulos das articulações do leopardo – não se eles parecem claros ou escuros”, diz Du.

Para tirar os domínios de renderização e as diferenças de imagem do problema, a equipe desenvolveu um sistema de pipeline contendo uma rede neural, apelidada de rede “rendering invariant state-prediction (RISP)”. O RISP transforma diferenças de imagens (pixels) em diferenças de estados do sistema — ou seja, o ambiente de ação — tornando seu método generalizável e agnóstico às configurações de renderização. O RISP é treinado usando parâmetros e estados de renderização aleatórios, que são alimentados em um renderizador diferenciável, um tipo de renderizador que mede a sensibilidade dos pixels em relação às configurações de renderização, por exemplo, iluminação ou cores do material. Isso gera um conjunto de imagens e vídeos variados a partir de parâmetros conhecidos de verdade, que mais tarde permitirão ao RISP reverter esse processo, prevendo o estado do ambiente a partir do vídeo de entrada. A equipe também minimizou os gradientes de renderização do RISP, para que suas previsões fossem menos sensíveis a mudanças nas configurações de renderização, permitindo que ele aprendesse a esquecer as aparências visuais e se concentrar no aprendizado de estados dinâmicos. Isso é possível por um renderizador diferenciável.

O método então usa dois pipelines semelhantes, executados em paralelo. Um é para o domínio de origem, com variáveis ​​conhecidas. Aqui, os parâmetros e ações do sistema são inseridos em uma simulação diferenciável. Os estados da simulação gerada são combinados com diferentes configurações de renderização em um renderizador diferenciável para gerar imagens, que são alimentadas no RISP. O RISP então produz previsões sobre os estados ambientais. Ao mesmo tempo, um pipeline de domínio de destino semelhante é executado com variáveis ​​desconhecidas. O RISP neste pipeline é alimentado com essas imagens de saída, gerando um estado previsto. Quando os estados previstos dos domínios de origem e destino são comparados, uma nova perda é produzida; essa diferença é usada para ajustar e otimizar alguns dos parâmetros no pipeline do domínio de origem. Este processo pode então ser iterado,

Para determinar o sucesso de seu método, a equipe testou-o em quatro sistemas simulados: um quadrotor (um corpo rígido voador que não tem contato físico), um cubo (um corpo rígido que interage com seu ambiente, como um dado) , uma mão articulada e uma haste (corpo deformável que pode se mover como uma cobra). As tarefas incluíam estimar o estado de um sistema a partir de uma imagem, identificar os parâmetros do sistema e os sinais de controle de ação de um vídeo e descobrir os sinais de controle de uma imagem alvo que direcionam o sistema para o estado desejado. Além disso, eles criaram linhas de base e um oráculo, comparando o novo processo RISP nesses sistemas com métodos semelhantes que, por exemplo, não possuem a perda de gradiente de renderização, não treinam uma rede neural com qualquer perda ou não possuem a rede neural RISP completamente. A equipe também analisou como a perda de gradiente afetou o desempenho do modelo de previsão de estado ao longo do tempo. Finalmente, os pesquisadores implantaram seu sistema RISP para inferir o movimento de um quadrotor do mundo real, que possui dinâmica complexa, a partir de vídeo. Eles compararam o desempenho com outras técnicas que não tinham uma função de perda e usavam diferenças de pixel, ou uma que incluía ajuste manual da configuração de um renderizador.

Em quase todos os experimentos, o procedimento RISP superou os métodos semelhantes ou de última geração disponíveis, imitando ou reproduzindo os parâmetros ou movimentos desejados e provando ser um concorrente eficiente e generalizável de dados para as abordagens atuais de captura de movimento.

Para este trabalho, os pesquisadores fizeram duas suposições importantes: que as informações sobre a câmera sejam conhecidas, como sua posição e configurações, bem como a geometria e a física que governam o objeto ou pessoa que está sendo rastreada. Trabalhos futuros estão planejados para resolver isso.

“Acho que o maior problema que estamos resolvendo aqui é reconstruir as informações de um domínio para outro, sem equipamentos muito caros”, diz Ma. Essa abordagem deve ser "útil para [aplicativos como o] metaverso, que visa reconstruir o mundo físico em um ambiente virtual", acrescenta Gan. reconstrução ou o problema da dinâmica inversa”, diz Ma.

Esta pesquisa foi apoiada, em parte, pelo MIT-IBM Watson AI Lab, Nexplore, programa DARPA Machine Common Sense, Office of Naval Research (ONR), ONR MURI e Mitsubishi Electric.

 

.
.

Leia mais a seguir