MaisConhecer - IA que aprende sozinha: novo sistema evolui sem dados rotulados e melhora compreensão e geração de imagens

IA que aprende sozinha: novo sistema evolui sem dados rotulados e melhora compreensão e geração de imagens

Pesquisadores demonstram que modelos multimodais podem se autoaperfeiçoar utilizando apenas imagens não rotuladas, eliminando a dependência de supervisão humana e abrindo uma nova fronteira para a inteligência artificial autônoma.

Imagem: Reprodução

Uma equipe internacional de cientistas apresentou uma nova abordagem que pode redefinir a forma como os modelos de inteligência artificial multimodal são treinados. O estudo, intitulado "Ask, Solve, Generate: Self-Evolving Unified Multimodal Understanding and Generation via Self-Consistency Rewards", propõe um sistema capaz de melhorar simultaneamente sua capacidade de compreender imagens e de gerar novas imagens sem recorrer a anotações humanas, rótulos ou modelos externos de recompensa.

O trabalho foi conduzido por pesquisadores da Mohamed bin Zayed University of Artificial Intelligence, em colaboração com a Aalto University, a Australian National University e a Linköping University. Entre os autores estão Ritesh Thawkar, Shravan Venkatraman, Fahad Shahbaz Khan, Salman Khan e Rao Muhammad Anwer.

Um modelo que faz perguntas para aprender

A inovação central do estudo é um mecanismo de autoaprendizagem baseado em três "papéis" internos desempenhados pela própria IA:

- Proposer (Propositor): cria perguntas sobre uma imagem;

- Solver (Resolvedor): responde às perguntas e avalia a qualidade das respostas;

- Generator (Gerador): produz novas imagens.

Segundo os autores, esses três componentes trabalham de maneira colaborativa em um ciclo de retroalimentação que permite ao sistema evoluir sem qualquer intervenção humana.

"O objetivo era descobrir se um modelo multimodal unificado poderia melhorar suas capacidades utilizando apenas imagens não rotuladas", escrevem os pesquisadores no artigo.

Ganhos expressivos em desempenho

Os resultados experimentais foram obtidos utilizando apenas um conjunto de 10 mil imagens sem rótulos, extraídas de bases abertas como COCO, SA-1B, TextVQA, GQA e LAION-COCO. Nenhuma anotação ou legenda foi utilizada durante o treinamento.

Mesmo assim, os ganhos foram significativos.

No benchmark de raciocínio multimodal MMMU, o modelo baseado na arquitetura BAGEL passou de 55,3% para 58,8% de precisão, um avanço absoluto de 3,5 pontos percentuais. Já o BLIP3o-8B aumentou seu desempenho de 50,6% para 52,8%, enquanto o VARGPT-v1.1 avançou de 48,6% para 51,6%.

Em tarefas de geração de imagens, o método elevou a pontuação no benchmark GenEval:

- BLIP3o-8B: de 84% para 87%;

- BAGEL: de 82% para 85%;

- VARGPT-v1.1: de 53% para 56%.

Os avanços foram particularmente fortes em tarefas de composição visual complexa, como contagem de objetos e posicionamento espacial.

Uma solução para um problema crescente

Os grandes modelos multimodais atuais dependem de enormes quantidades de dados anotados manualmente, um processo caro e difícil de escalar. Além disso, sistemas de recompensa utilizados para aperfeiçoar modelos geralmente requerem supervisão humana intensiva.

A nova abordagem elimina essas limitações.

"Nosso framework melhora tanto a compreensão visual quanto a geração de imagens sem necessidade de anotações humanas, supervisão curada ou modelos externos de avaliação", afirmam os autores.

Para isso, os pesquisadores introduziram um novo mecanismo chamado Solver Token Entropy (STE), que mede a incerteza do modelo em nível de token. O método permite identificar perguntas suficientemente difíceis para promover aprendizado contínuo, evitando que o sistema fique preso em tarefas triviais.

Generalização entre diferentes arquiteturas

Um dos aspectos mais notáveis do estudo é sua capacidade de funcionar em arquiteturas de IA profundamente distintas.

O mesmo algoritmo foi aplicado com sucesso a modelos baseados em difusão, como o BLIP3o; modelos de fluxo retificado, como o BAGEL e

modelos autorregressivos, como o VARGPT-v1.1.

Segundo os autores, esta é a primeira demonstração de um método totalmente auto-supervisionado capaz de melhorar simultaneamente compreensão e geração de imagens em diferentes paradigmas de modelos multimodais.

Rumo à IA verdadeiramente autônoma

Embora os pesquisadores reconheçam limitações — entre elas a dependência da qualidade inicial do componente Solver e a menor estabilidade do ajuste de parâmetros completos —, os resultados sugerem uma nova direção para a inteligência artificial.

No futuro, o grupo pretende ampliar o método para conjuntos de dados maiores e explorar aplicações em vídeo e ambientes tridimensionais.

A pesquisa representa um passo importante rumo a sistemas de IA capazes de aprender e evoluir por conta própria, aproximando o campo de uma inteligência artificial mais adaptativa, escalável e menos dependente de intervenção humana. Em um cenário no qual a produção de dados anotados se torna um gargalo crescente, a capacidade de aprender apenas observando o mundo pode ser uma das características mais transformadoras da próxima geração de modelos inteligentes.

Referência

Perguntar, Resolver, Gerar: Compreensão e Geração Multimodal Unificada e Autoevolutiva por meio de Recompensas de Autoconsistência

Ritesh Thawkar , Shravan Venkatraman , Omkar Thawakar , Abdelrahman Shaker , Fahad Khan , Hisham Cholakkal , Salman Khan , Rao Muhammad Anwer. https://doi.org/10.48550/arXiv.2606.27376