Tecnologia Científica

Modelo baseado em dados gera movimentos humanos naturais para avatares virtuais
Os humanos podem realizar inatamente uma ampla gama de movimentos, pois isso lhes permite realizar melhor várias tarefas em sua vida cotidiana. A reprodução automática desses movimentos em avatares virtuais e personagens semelhantes a humanos...
Por Ingrid Fadell - 31/05/2024


O WANDR parte de uma pose corporal arbitrária e gera movimentos humanos precisos e realistas que atingem um objetivo 3D específico (representado como uma esfera vermelha). Empregando uma abordagem puramente baseada em dados, o WANDR é um Autoencoder Variacional condicional guiado por recursos de intenção (setas representadas) que orientam a orientação (amarelo), a posição (ciano) e o pulso (rosa) do ser humano em direção ao objetivo. O WANDR pode atingir uma ampla gama de objetivos, mesmo que se desviem significativamente dos dados de treinamento. Crédito: Diomataris et al.

Os humanos podem realizar inatamente uma ampla gama de movimentos, pois isso lhes permite realizar melhor várias tarefas em sua vida cotidiana. A reprodução automática desses movimentos em avatares virtuais e personagens semelhantes a humanos animados em 3D pode ser altamente vantajosa para muitas aplicações, desde espaços de metaverso até entretenimento digital, interfaces de IA e robótica.

Pesquisadores do Instituto Max Planck de Sistemas Inteligentes e da ETH Zurich desenvolveram recentemente o WANDR, um novo modelo que pode gerar movimentos humanos naturais para avatares. Este modelo, a ser apresentado em um artigo apresentado na Conferência sobre Visão Computacional e Reconhecimento de Padrões (CVPR 2024 ) em junho, unifica diferentes fontes de dados sob um único modelo para obter movimentos mais realistas em personagens humanoides 3D. O artigo também é postado no servidor de pré-impressão arXiv.

“Em alto nível, nossa pesquisa visa descobrir o que é necessário para criar humanos virtuais capazes de se comportar como nós”, disse Markos Diomataris, primeiro autor do artigo, ao Tech Xplore. “Isso significa essencialmente aprender a raciocinar sobre o mundo, como se mover nele, estabelecendo metas e tentando alcançá-las.

"Mas por que ir atrás desse problema de pesquisa? Fundamentalmente, queremos entender melhor os humanos, assim como um neurocientista faria, e estamos tentando isso seguindo uma filosofia de 'tente construir o que você quer entender'."

O objetivo principal do estudo recente de Diomataris e seus colegas era criar um modelo que gerasse movimentos realistas para avatares 3D. Esses movimentos gerados permitiriam que os avatares eventualmente interagissem com seu ambiente virtual , por exemplo, alcançando objetos.

“Considere pegar uma xícara de café – pode ser tão simples quanto estender o braço ou pode envolver a ação coordenada de todo o nosso corpo”, disse Diomataris. “Ações como abaixar-se, estender o braço e caminhar devem ser combinadas para atingir o objetivo. Em um nível granular, fazemos continuamente ajustes sutis para manter o equilíbrio e permanecer no caminho em direção ao nosso objetivo.”

Ao fazer esses ajustes sutis, os humanos podem produzir movimentos fluidos, integrando numerosos movimentos menores que convergem para um objetivo simples (por exemplo, colocar a mão em uma xícara). Diomataris e seus colegas decidiram ensinar as mesmas habilidades a um avatar humano.

Uma abordagem para ensinar novas habilidades aos agentes virtuais é o aprendizado por reforço (RL), enquanto outra é compilar um conjunto de dados contendo demonstrações humanas e depois usá-lo para treinar um modelo de aprendizado de máquina. Essas duas abordagens têm pontos fortes e limitações diferentes.

“RL, em termos muito simples, é aprender habilidades por meio da experiência adquirida por tentativa e erro”, explicou Diomataris. “Para a nossa tarefa, o agente teria que tentar todos os tipos de movimentos aleatórios no início do seu treinamento até conseguir primeiro ficar em pé corretamente, depois andar, orientar-se em direção ao objetivo, navegar em direção a ele e finalmente alcançá-lo com a mão.

"Esta abordagem não precisa necessariamente de um conjunto de dados, mas pode exigir grandes quantidades de computação, bem como um design tedioso de recompensas para o agente evitar comportamentos de aparência não natural (por exemplo, preferir rastejar em vez de andar quando se move)."

Em contraste com a RL, os modelos de treinamento que usam conjuntos de dados fornecem ao agente virtual informações mais ricas sobre uma habilidade, em vez de permitir que ele descubra essas informações sozinho. Embora existam agora vários grandes conjuntos de dados contendo demonstrações de movimentos humanos, muito poucos incluem movimentos de alcance, que a equipe também desejava replicar em avatares.

“Priorizando o realismo do movimento, optamos por aprender essa habilidade a partir dos dados”, disse Diomataris. "Apresentamos um método que é capaz de aproveitar grandes conjuntos de dados com vários movimentos gerais e conjuntos de dados menores especializados em humanos alcançando objetivos."

Diomataris e seus colegas projetaram primeiro um objetivo de treinamento que é independente da existência de rótulos de metas. Este passo fundamental permitiu ao WANDR aprender habilidades gerais de navegação a partir de conjuntos de dados maiores, ao mesmo tempo que utilizava os dados rotulados obtidos a partir de conjuntos de dados menores.

“WANDR é o primeiro modelo de geração de movimento humano impulsionado por um ciclo de feedback ativo aprendido puramente a partir de dados, sem quaisquer etapas extras de aprendizagem por reforço (RL)”, disse Diomataris. "O que é um ciclo de feedback ativo? WANDR gera movimento autoregressivamente (quadro a quadro). A cada passo, ele prevê uma ação que fará o humano progredir para seu próximo estado."

As previsões do WANDR sobre as ações do avatar são condicionadas por características dependentes do tempo e do objetivo, que os pesquisadores definem como “intenção”. Esses recursos são recalculados a cada quadro, agindo como um ciclo de feedback que orienta um avatar a alcançar um determinado objetivo usando seu pulso.

“Isso significa que, assim como um ser humano, nosso método ajusta constantemente as ações realizadas tentando orientar o avatar em direção ao objetivo e alcançá-lo”, disse Diomataris. “Como resultado, nosso avatar é capaz de se aproximar e alcançar objetivos móveis ou sequenciais, mesmo que nunca tenha sido treinado para algo assim.”

Os conjuntos de dados existentes contendo movimentos humanos de alcance orientado a objetivos, como CIRCLE, são escassos e não contêm dados suficientes para permitir que os modelos generalizem entre diferentes tarefas. É por isso que a RL tem sido até agora a abordagem mais comum para treinar modelos para reproduzir movimentos humanos em avatares.

“Inspirados no paradigma da clonagem comportamental em robótica, propomos uma abordagem puramente baseada em dados, onde durante o treinamento uma posição futura da mão do avatar escolhida aleatoriamente é considerada como o objetivo”, disse Diomataris.

"Ao alucinar metas desta forma, somos capazes de combinar conjuntos de dados menores com anotações de metas, como CIRCLE, bem como conjuntos de dados de grande escala, como AMASS, que não possuem rótulos de metas, mas são essenciais para aprender habilidades gerais de navegação, como caminhar, virar, etc."

WANDR, o modelo desenvolvido por Diomataris e seus colegas, foi treinado em dados de diferentes conjuntos de dados e fontes. Ao misturar adequadamente os dados dessas fontes, o modelo produz movimentos mais naturais, permitindo que um avatar atinja objetivos arbitrários em seu ambiente.

“Até agora, os trabalhos que estudam a geração de movimento usam RL ou carecem completamente do elemento de adaptação online do movimento”, disse Diomataris. "WANDR demonstra uma maneira de aprender comportamentos adaptativos de avatares a partir de dados. A parte da 'adaptação online' é necessária para qualquer aplicação em tempo real onde avatares interagem com humanos e com o mundo real, como por exemplo, em um videogame de realidade virtual ou em humano- interação de avatar."

No futuro, o novo modelo apresentado por esta equipe de pesquisadores poderá auxiliar na geração de novos conteúdos para videogames, aplicativos de RV, filmes de animação e entretenimento, permitindo que personagens semelhantes a humanos realizem movimentos corporais mais realistas. Como o WANDR depende de várias fontes de dados e os conjuntos de dados com movimentos humanos provavelmente crescerão nas próximas décadas, seu desempenho poderá melhorar ainda mais em breve.

“No momento, faltam duas peças principais que planejamos pesquisar no futuro”, acrescentou Diomataris. "Em primeiro lugar, os avatares precisam de ser capazes de aproveitar conjuntos de dados grandes e sem curadoria de vídeos para aprenderem a mover-se e a interagir com o seu mundo virtual e, além disso, precisam de ter a capacidade de explorar o seu mundo virtual e aprender com as suas próprias experiências.

“Estas duas direções representam os meios fundamentais pelos quais os humanos também adquirem experiência: agindo e aprendendo com as suas consequências, mas também observando os outros e aprendendo com a sua experiência.”


Mais informações: Markos Diomataris et al, WANDR: Geração de movimento humano guiado por intenção, arXiv (2024). DOI: 10.48550/arxiv.2404.15383

Informações do diário: arXiv 

 

.
.

Leia mais a seguir