Tecnologia Científica

Modelo simples de IA prevê movimentos humanos com precisão inédita, dizem pesquisadores
Estudo da Universidade de Illinois propõe arquitetura baseada em transformers capaz de antecipar trajetórias e posturas corporais em um único sistema, superando modelos especializados em múltiplos testes
Por Laercio Damasceno - 05/03/2026


Imagem: IA por Alexandre Borges


Um novo modelo de inteligência artificial capaz de prever como o corpo humano se moverá nos próximos segundos — desde a trajetória de caminhada até a posição exata dos membros — pode simplificar um dos desafios mais complexos da computação moderna.

Pesquisadores da University of Illinois Urbana-Champaign apresentaram um sistema chamado SimpliHuMoN, que utiliza uma arquitetura de transformadores para antecipar movimentos humanos em três dimensões com alto grau de precisão. O estudo, divulgado como preprint científico nesta quarta-feira (4), indica que o método alcança ou supera o desempenho de modelos especializados em diversos conjuntos de dados de referência. 

Segundo os autores, a proposta resolve um problema persistente no campo da visão computacional: a separação histórica entre modelos que preveem trajetórias de deslocamento e aqueles que estimam posturas corporais.

“Essas tarefas são fundamentalmente interligadas, mas têm sido tratadas por arquiteturas distintas”, escreveram os pesquisadores Aadya Agrawal e Alexander Schwing no estudo. “Mostramos que um modelo simples baseado em atenção pode capturar ambas simultaneamente e alcançar resultados competitivos.” 

Um único modelo para diferentes tipos de movimento

A previsão de movimento humano — estimar como uma pessoa se moverá no futuro a partir de observações passadas — tem aplicações em áreas tão diversas quanto veículos autônomos, robótica, realidade virtual e análise esportiva. 

Mas essa tarefa é notoriamente difícil. Movimentos humanos são multidimensionais, não lineares e altamente imprevisíveis, o que levou a comunidade científica a desenvolver sistemas especializados para cada subtarefa. 

O SimpliHuMoN tenta contornar essa fragmentação. Em vez de múltiplos módulos ou pipelines complexos, o modelo usa uma pilha de mecanismos de autoatenção (self-attention) — a mesma tecnologia central por trás de modelos modernos de linguagem — para analisar simultaneamente: a trajetória do corpo no espaço, normalmente representada pelo movimento do quadril; a configuração das articulações, incluindo braços, pernas e tronco; e as relações temporais ao longo da sequência de movimento. 

Esse design permite que o sistema receba como entrada movimentos passados e produza múltiplas previsões plausíveis para o futuro.

Superando modelos especializados

Nos experimentos, o SimpliHuMoN foi testado em diversos bancos de dados amplamente utilizados pela comunidade científica, incluindo Human3.6M, AMASS, ETH-UCY, Stanford Drone Dataset e 3DPW. 

Os resultados indicam desempenho competitivo ou superior ao de métodos considerados estado da arte em três categorias: previsão de postura corporal, previsão de trajetória e previsão combinada de postura e deslocamento. 

No conjunto MOCAP-UMPM, por exemplo, o modelo reduziu erros de previsão de posição das articulações em até 15% em comparação com métodos anteriores. 

Além da precisão, os pesquisadores destacam ganhos computacionais. O sistema alcançou taxas de processamento superiores a modelos concorrentes, executando milhares de previsões por segundo em uma única GPU. 

Movimentos realistas e múltiplos futuros possíveis

Uma característica central do modelo é sua capacidade de gerar múltiplos cenários futuros. Em vez de prever um único resultado, o sistema produz várias hipóteses plausíveis — como continuar andando, parar ou virar — refletindo a natureza incerta do comportamento humano. 

Nos testes qualitativos apresentados pelos autores, as sequências previstas exibiram movimentos considerados “fluidos e fisicamente plausíveis”, inclusive em situações com múltiplas pessoas interagindo. 

Impacto potencial

Para os pesquisadores, o principal avanço não está apenas nos resultados numéricos, mas na simplicidade da arquitetura.

“Um modelo unificado pode capturar a dinâmica acoplada entre articulação do corpo e deslocamento global”, afirmam Agrawal e Schwing, argumentando que isso abre caminho para sistemas mais robustos e versáteis. 

Se confirmado em aplicações práticas, o método poderá melhorar a capacidade de máquinas de antecipar o comportamento humano — uma habilidade crucial para carros autônomos que precisam prever o movimento de pedestres, robôs que interagem com pessoas e ambientes virtuais que reproduzem movimentos naturais.


Referência
SimpliHuMoN: Simplificando a previsão do movimento humano. Aadya Agrawal, Alexander Schwing.  https://doi.org/10.48550/arXiv.2603.04399

 

.
.

Leia mais a seguir