Tecnologia Científica

Um one-up na captura de movimento
uma equipe de pesquisadores do MIT e da IBM desenvolveu um pipeline de rede neural treinado que evita esse problema, com a capacidade de inferir o estado do ambiente e as aa§aµes que acontecem, as caracteri­sticas físicas do objeto ou pessoa...
Por Lauren Hinkel - 29/04/2022


Os pesquisadores do MIT usaram o manãtodo RISP para prever a sequaªncia de ação, rigidez articular ou movimento de uma ma£o articulada, como esta, a partir de uma imagem ou va­deo alvo. Imagem cortesia dos pesquisadores


De “Star Wars” a “Happy Feet”, muitos filmes amados contem cenas que foram possibilitadas pela tecnologia de captura de movimento, que registra o movimento de objetos ou pessoas por meio de va­deo. Além disso, os aplicativos para esse rastreamento, que envolvem interações complicadas entre física, geometria e percepção, se estendem além de Hollywood para as forças armadas, treinamento esportivo, campos médicos e visão computacional e roba³tica, permitindo que os engenheiros entendam e simulem ações que acontecem no mundo real. ambientes.

Como esse pode ser um processo complexo e caro osmuitas vezes exigindo marcadores colocados em objetos ou pessoas e gravando a sequaªncia de ação osos pesquisadores estãotrabalhando para transferir a carga para as redes neurais, que podem adquirir esses dados de um va­deo simples e reproduzi-los em um modelo . O trabalho em simulações físicas e renderização promete tornar isso mais amplamente utilizado, uma vez que pode caracterizar movimentos realistas, conta­nuos e dina¢micos de imagens e transformar entre uma renderização 2D e uma cena 3D no mundo. No entanto, para isso, as técnicas atuais exigem o conhecimento preciso das condições ambientais em que a ação estãoocorrendo e a escolha do renderizador, ambos muitas vezes indispona­veis.

Agora, uma equipe de pesquisadores do MIT e da IBM desenvolveu um pipeline de rede neural treinado que evita esse problema, com a capacidade de inferir o estado do ambiente e as ações que acontecem, as caracteri­sticas físicas do objeto ou pessoa de interesse (sistema) , e seus parametros de controle. Quando testada, a técnica pode superar outros manãtodos em simulações de quatro sistemas fa­sicos de corpos ra­gidos e deforma¡veis, que ilustram diferentes tipos de dina¢micas e interações, sob diversas condições ambientais. Além disso, a metodologia permite o aprendizado por imitação osprevendo e reproduzindo a trajeta³ria de um quadrotor voador do mundo real a partir de um va­deo.

“O problema de pesquisa de altonívelcom o qual este artigo trata écomo reconstruir um gaªmeo digital a partir de um va­deo de um sistema dina¢mico”, diz Tao Du PhD '21, pa³s-doc no Departamento de Engenharia Elanãtrica e Ciência da Computação (EECS), um membro do Laborata³rio de Ciência da Computação e Inteligaªncia Artificial (CSAIL), e membro da equipe de pesquisa. Para fazer isso, diz Du, “precisamos ignorar as variações de renderização dos videoclipes e tentar entender as informações principais sobre o sistema dina¢mico ou o movimento dina¢mico”.

Os coautores de Du incluem o autor principal Pingchuan Ma, estudante de pós-graduação em EECS e membro do CSAIL; Josh Tenenbaum, Professor de Desenvolvimento de Carreira Paul E. Newton de Ciência Cognitiva e Computação no Departamento de Canãrebro e Ciências Cognitivas e membro do CSAIL; Wojciech Matusik, professor de engenharia elanãtrica e ciência da computação e membro do CSAIL; e Chuang Gan, principal membro da equipe de pesquisa do MIT-IBM Watson AI Lab. Este trabalho foi apresentado esta semana na Conferência Internacional sobre Representações de Aprendizagem.

Embora a captura de va­deos de personagens, robôs ou sistemas dina¢micos para inferir movimentos dina¢micos torne essas informações mais acessa­veis, também traz um novo desafio. “As imagens ou va­deos [e como eles são renderizados] dependem em grande parte das condições de iluminação, das informações de fundo, das informações de textura, das informações materiais do seu ambiente e não são necessariamente mensura¡veis ​​em um mundo real. cena¡rio”, diz Du. Sem essas informações de configuração de renderização ou conhecimento de qual renderizador éusado, atualmente édifa­cil coletar informações dina¢micas e prever o comportamento do assunto do va­deo. Mesmo que o renderizador seja conhecido, as abordagens atuais de rede neural ainda exigem grandes conjuntos de dados de treinamento. No entanto, com sua nova abordagem, isso pode se tornar um ponto discuta­vel. “Se vocêgravar um va­deo de um leopardo correndo de manha£ e a  noite, éclaro, vocêobtera¡ videoclipes visualmente diferentes porque as condições de iluminação são bem diferentes. Mas o que realmente importa éo movimento dina¢mico: os a¢ngulos das articulações do leopardo osnão se eles parecem claros ou escuros”, diz Du.

Para tirar os doma­nios de renderização e as diferenças de imagem do problema, a equipe desenvolveu um sistema de pipeline contendo uma rede neural, apelidada de rede “rendering invariant state-prediction (RISP)”. O RISP transforma diferenças de imagens (pixels) em diferenças de estados do sistema — ou seja, o ambiente de ação — tornando seu manãtodo generaliza¡vel e agnóstico a s configurações de renderização. O RISP étreinado usando parametros e estados de renderização aleata³rios, que são alimentados em um renderizador diferencia¡vel, um tipo de renderizador que mede a sensibilidade dos pixels em relação a s configurações de renderização, por exemplo, iluminação ou cores do material. Isso gera um conjunto de imagens e va­deos variados a partir de parametros conhecidos de verdade, que mais tarde permitira£o ao RISP reverter esse processo, prevendo o estado do ambiente a partir do va­deo de entrada. A equipe também minimizou os gradientes de renderização do RISP, para que suas previsaµes fossem menos sensa­veis amudanças nas configurações de renderização, permitindo que ele aprendesse a esquecer as aparaªncias visuais e se concentrar no aprendizado de estados dina¢micos. Isso épossí­vel por um renderizador diferencia¡vel.

O manãtodo então usa dois pipelines semelhantes, executados em paralelo. Um épara o doma­nio de origem, com varia¡veis ​​conhecidas. Aqui, os parametros e ações do sistema são inseridos em uma simulação diferencia¡vel. Os estados da simulação gerada são combinados com diferentes configurações de renderização em um renderizador diferencia¡vel para gerar imagens, que são alimentadas no RISP. O RISP então produz previsaµes sobre os estados ambientais. Ao mesmo tempo, um pipeline de doma­nio de destino semelhante éexecutado com varia¡veis ​​desconhecidas. O RISP neste pipeline éalimentado com essas imagens de saa­da, gerando um estado previsto. Quando os estados previstos dos doma­nios de origem e destino são comparados, uma nova perda éproduzida; essa diferença éusada para ajustar e otimizar alguns dos parametros no pipeline do doma­nio de origem. Este processo pode então ser iterado,

Para determinar o sucesso de seu manãtodo, a equipe testou-o em quatro sistemas simulados: um quadrotor (um corpo ra­gido voador que não tem contato fa­sico), um cubo (um corpo ra­gido que interage com seu ambiente, como um dado) , uma ma£o articulada e uma haste (corpo deforma¡vel que pode se mover como uma cobra). As tarefas inclua­am estimar o estado de um sistema a partir de uma imagem, identificar os parametros do sistema e os sinais de controle de ação de um va­deo e descobrir os sinais de controle de uma imagem alvo que direcionam o sistema para o estado desejado. Além disso, eles criaram linhas de base e um ora¡culo, comparando o novo processo RISP nesses sistemas com manãtodos semelhantes que, por exemplo, não possuem a perda de gradiente de renderização, não treinam uma rede neural com qualquer perda ou não possuem a rede neural RISP completamente. A equipe também analisou como a perda de gradiente afetou o desempenho do modelo de previsão de estado ao longo do tempo. Finalmente, os pesquisadores implantaram seu sistema RISP para inferir o movimento de um quadrotor do mundo real, que possui dina¢mica complexa, a partir de va­deo. Eles compararam o desempenho com outras técnicas que não tinham uma função de perda e usavam diferenças de pixel, ou uma que inclua­a ajuste manual da configuração de um renderizador.

Em quase todos os experimentos, o procedimento RISP superou os manãtodos semelhantes ou de última geração dispona­veis, imitando ou reproduzindo os parametros ou movimentos desejados e provando ser um concorrente eficiente e generaliza¡vel de dados para as abordagens atuais de captura de movimento.

Para este trabalho, os pesquisadores fizeram duas suposições importantes: que as informações sobre a ca¢mera sejam conhecidas, como sua posição e configurações, bem como a geometria e a física que governam o objeto ou pessoa que estãosendo rastreada. Trabalhos futuros estãoplanejados para resolver isso.

“Acho que o maior problema que estamos resolvendo aqui éreconstruir as informações de um doma­nio para outro, sem equipamentos muito caros”, diz Ma. Essa abordagem deve ser "útil para [aplicativos como o] metaverso, que visa reconstruir o mundo fa­sico em um ambiente virtual", acrescenta Gan. reconstrução ou o problema da dina¢mica inversa”, diz Ma.

Esta pesquisa foi apoiada, em parte, pelo MIT-IBM Watson AI Lab, Nexplore, programa DARPA Machine Common Sense, Office of Naval Research (ONR), ONR MURI e Mitsubishi Electric.

 

.
.

Leia mais a seguir