MaisConhecer - Modelo simples de IA prevê movimentos humanos com precisão inédita, dizem pesquisadores

Modelo simples de IA prevê movimentos humanos com precisão inédita, dizem pesquisadores

Estudo da Universidade de Illinois propõe arquitetura baseada em transformers capaz de antecipar trajetórias e posturas corporais em um único sistema, superando modelos especializados em múltiplos testes

Imagem: IA por Alexandre Borges

Um novo modelo de inteligência artificial capaz de prever como o corpo humano se moverá nos próximos segundos — desde a trajetória de caminhada até a posição exata dos membros — pode simplificar um dos desafios mais complexos da computação moderna.

Pesquisadores da University of Illinois Urbana-Champaign apresentaram um sistema chamado SimpliHuMoN, que utiliza uma arquitetura de transformadores para antecipar movimentos humanos em três dimensões com alto grau de precisão. O estudo, divulgado como preprint científico nesta quarta-feira (4), indica que o método alcança ou supera o desempenho de modelos especializados em diversos conjuntos de dados de referência.

Segundo os autores, a proposta resolve um problema persistente no campo da visão computacional: a separação histórica entre modelos que preveem trajetórias de deslocamento e aqueles que estimam posturas corporais.

“Essas tarefas são fundamentalmente interligadas, mas têm sido tratadas por arquiteturas distintas”, escreveram os pesquisadores Aadya Agrawal e Alexander Schwing no estudo. “Mostramos que um modelo simples baseado em atenção pode capturar ambas simultaneamente e alcançar resultados competitivos.”

Um único modelo para diferentes tipos de movimento

A previsão de movimento humano — estimar como uma pessoa se moverá no futuro a partir de observações passadas — tem aplicações em áreas tão diversas quanto veículos autônomos, robótica, realidade virtual e análise esportiva.

Mas essa tarefa é notoriamente difícil. Movimentos humanos são multidimensionais, não lineares e altamente imprevisíveis, o que levou a comunidade científica a desenvolver sistemas especializados para cada subtarefa.

O SimpliHuMoN tenta contornar essa fragmentação. Em vez de múltiplos módulos ou pipelines complexos, o modelo usa uma pilha de mecanismos de autoatenção (self-attention) — a mesma tecnologia central por trás de modelos modernos de linguagem — para analisar simultaneamente: a trajetória do corpo no espaço, normalmente representada pelo movimento do quadril; a configuração das articulações, incluindo braços, pernas e tronco; e as relações temporais ao longo da sequência de movimento.

Esse design permite que o sistema receba como entrada movimentos passados e produza múltiplas previsões plausíveis para o futuro.

Superando modelos especializados

Nos experimentos, o SimpliHuMoN foi testado em diversos bancos de dados amplamente utilizados pela comunidade científica, incluindo Human3.6M, AMASS, ETH-UCY, Stanford Drone Dataset e 3DPW.

Os resultados indicam desempenho competitivo ou superior ao de métodos considerados estado da arte em três categorias: previsão de postura corporal, previsão de trajetória e previsão combinada de postura e deslocamento.

No conjunto MOCAP-UMPM, por exemplo, o modelo reduziu erros de previsão de posição das articulações em até 15% em comparação com métodos anteriores.

Além da precisão, os pesquisadores destacam ganhos computacionais. O sistema alcançou taxas de processamento superiores a modelos concorrentes, executando milhares de previsões por segundo em uma única GPU.

Movimentos realistas e múltiplos futuros possíveis

Uma característica central do modelo é sua capacidade de gerar múltiplos cenários futuros. Em vez de prever um único resultado, o sistema produz várias hipóteses plausíveis — como continuar andando, parar ou virar — refletindo a natureza incerta do comportamento humano.

Nos testes qualitativos apresentados pelos autores, as sequências previstas exibiram movimentos considerados “fluidos e fisicamente plausíveis”, inclusive em situações com múltiplas pessoas interagindo.

Impacto potencial

Para os pesquisadores, o principal avanço não está apenas nos resultados numéricos, mas na simplicidade da arquitetura.

“Um modelo unificado pode capturar a dinâmica acoplada entre articulação do corpo e deslocamento global”, afirmam Agrawal e Schwing, argumentando que isso abre caminho para sistemas mais robustos e versáteis.

Se confirmado em aplicações práticas, o método poderá melhorar a capacidade de máquinas de antecipar o comportamento humano — uma habilidade crucial para carros autônomos que precisam prever o movimento de pedestres, robôs que interagem com pessoas e ambientes virtuais que reproduzem movimentos naturais.

Referência

SimpliHuMoN: Simplificando a previsão do movimento humano. Aadya Agrawal, Alexander Schwing. https://doi.org/10.48550/arXiv.2603.04399

Tecnologia Científica

Um único modelo para diferentes tipos de movimento

Superando modelos especializados

Movimentos realistas e múltiplos futuros possíveis

Impacto potencial