MaisConhecer - Ferramenta de IA gera imagens de alta qualidade mais rápido do que abordagens de última geração

Ferramenta de IA gera imagens de alta qualidade mais rápido do que abordagens de última geração

Pesquisadores unem o melhor de dois métodos populares para criar um gerador de imagens que usa menos energia e pode ser executado localmente em um laptop ou smartphone.

Os pesquisadores combinaram dois tipos de modelos de IA generativos, um modelo autorregressivo e um modelo de difusão, para criar uma ferramenta que aproveita o melhor de cada modelo para gerar rapidamente imagens de alta qualidade. Crédito: Christine Daniloff, MIT; imagem do astronauta a cavalo cortesia dos pesquisadores

A capacidade de gerar imagens de alta qualidade rapidamente é crucial para produzir ambientes simulados realistas que podem ser usados para treinar carros autônomos para evitar perigos imprevisíveis, tornando-os mais seguros em ruas reais.

Mas as técnicas de inteligência artificial generativa cada vez mais usadas para produzir tais imagens têm desvantagens. Um tipo popular de modelo, chamado modelo de difusão, pode criar imagens incrivelmente realistas, mas é muito lento e computacionalmente intensivo para muitas aplicações. Por outro lado, os modelos autorregressivos que alimentam LLMs como ChatGPT são muito mais rápidos, mas produzem imagens de qualidade inferior que geralmente são cheias de erros.

Pesquisadores do MIT e da NVIDIA desenvolveram uma nova abordagem que reúne o melhor dos dois métodos. Sua ferramenta híbrida de geração de imagens usa um modelo autorregressivo para capturar rapidamente o panorama geral e, em seguida, um pequeno modelo de difusão para refinar os detalhes da imagem.

A ferramenta deles, conhecida como HART (abreviação de transformador autorregressivo híbrido), pode gerar imagens que correspondem ou excedem a qualidade dos modelos de difusão de última geração, mas fazem isso cerca de nove vezes mais rápido.

O processo de geração consome menos recursos computacionais do que modelos de difusão típicos, permitindo que o HART rode localmente em um laptop ou smartphone comercial. Um usuário só precisa digitar um prompt de linguagem natural na interface HART para gerar uma imagem.

O HART pode ter uma ampla gama de aplicações, como ajudar pesquisadores a treinar robôs para completar tarefas complexas do mundo real e auxiliar designers a produzir cenas marcantes para videogames.

“Se você estiver pintando uma paisagem e pintar a tela inteira de uma vez, pode não ficar muito bom. Mas se você pintar o quadro geral e depois refinar a imagem com pinceladas menores, sua pintura pode ficar muito melhor. Essa é a ideia básica com HART”, diz Haotian Tang SM '22, PhD '25, coautor principal de um novo artigo sobre HART .

Ele é acompanhado pelo coautor principal Yecheng Wu, um estudante de graduação na Universidade Tsinghua; autor sênior Song Han, professor associado no Departamento de Engenharia Elétrica e Ciência da Computação (EECS) do MIT, membro do MIT-IBM Watson AI Lab e cientista distinto da NVIDIA; assim como outros no MIT, Universidade Tsinghua e NVIDIA. A pesquisa será apresentada na Conferência Internacional sobre Representações de Aprendizagem.

O melhor dos dois mundos

Modelos de difusão populares, como Stable Diffusion e DALL-E, são conhecidos por produzir imagens altamente detalhadas. Esses modelos geram imagens por meio de um processo iterativo em que preveem uma certa quantidade de ruído aleatório em cada pixel, subtraem o ruído e, em seguida, repetem o processo de predição e “redução de ruído” várias vezes até gerarem uma nova imagem completamente livre de ruído.

Como o modelo de difusão elimina o ruído de todos os pixels em uma imagem a cada passo, e pode haver 30 ou mais passos, o processo é lento e computacionalmente caro. Mas como o modelo tem várias chances de corrigir detalhes que ele errou, as imagens são de alta qualidade.

Modelos autorregressivos, comumente usados para prever texto, podem gerar imagens prevendo manchas de uma imagem sequencialmente, alguns pixels por vez. Eles não podem voltar e corrigir seus erros, mas o processo de previsão sequencial é muito mais rápido do que a difusão.

Esses modelos usam representações conhecidas como tokens para fazer previsões. Um modelo autorregressivo utiliza um autocodificador para compactar pixels de imagem bruta em tokens discretos, bem como reconstruir a imagem a partir de tokens previstos. Embora isso aumente a velocidade do modelo, a perda de informações que ocorre durante a compactação causa erros quando o modelo gera uma nova imagem.

Com o HART, os pesquisadores desenvolveram uma abordagem híbrida que usa um modelo autorregressivo para prever tokens de imagem discretos e comprimidos, e então um pequeno modelo de difusão para prever tokens residuais. Os tokens residuais compensam a perda de informações do modelo capturando detalhes deixados de fora por tokens discretos.

“Podemos obter um grande impulso em termos de qualidade de reconstrução. Nossos tokens residuais aprendem detalhes de alta frequência, como bordas de um objeto, ou o cabelo, os olhos ou a boca de uma pessoa. Esses são lugares onde tokens discretos podem cometer erros”, diz Tang.

Como o modelo de difusão só prevê os detalhes restantes depois que o modelo autorregressivo fez seu trabalho, ele pode realizar a tarefa em oito etapas, em vez das 30 ou mais usuais que um modelo de difusão padrão requer para gerar uma imagem inteira. Essa sobrecarga mínima do modelo de difusão adicional permite que o HART retenha a vantagem de velocidade do modelo autorregressivo, ao mesmo tempo em que melhora significativamente sua capacidade de gerar detalhes intrincados da imagem.

“O modelo de difusão tem uma tarefa mais fácil de realizar, o que leva a mais eficiência”, acrescenta.

Superando modelos maiores

Durante o desenvolvimento do HART, os pesquisadores encontraram desafios na integração efetiva do modelo de difusão para aprimorar o modelo autorregressivo. Eles descobriram que incorporar o modelo de difusão nos estágios iniciais do processo autorregressivo resultou em um acúmulo de erros. Em vez disso, seu design final de aplicar o modelo de difusão para prever apenas tokens residuais como a etapa final melhorou significativamente a qualidade da geração.

O método deles, que usa uma combinação de um modelo de transformador autorregressivo com 700 milhões de parâmetros e um modelo de difusão leve com 37 milhões de parâmetros, pode gerar imagens da mesma qualidade que aquelas criadas por um modelo de difusão com 2 bilhões de parâmetros, mas faz isso cerca de nove vezes mais rápido. Ele usa cerca de 31 por cento menos computação do que modelos de última geração.

Além disso, como o HART usa um modelo autorregressivo para fazer a maior parte do trabalho — o mesmo tipo de modelo que alimenta os LLMs — ele é mais compatível para integração com a nova classe de modelos generativos de visão-linguagem unificados. No futuro, pode-se interagir com um modelo generativo de visão-linguagem unificado, talvez pedindo que ele mostre as etapas intermediárias necessárias para montar uma peça de mobiliário.

“LLMs são uma boa interface para todos os tipos de modelos, como modelos multimodais e modelos que podem raciocinar. Esta é uma maneira de levar a inteligência a uma nova fronteira. Um modelo eficiente de geração de imagens desbloquearia muitas possibilidades”, ele diz.

No futuro, os pesquisadores querem seguir esse caminho e construir modelos de visão-linguagem sobre a arquitetura HART. Como o HART é escalável e generalizável para múltiplas modalidades, eles também querem aplicá-lo para geração de vídeo e tarefas de predição de áudio.

Esta pesquisa foi financiada, em parte, pelo MIT-IBM Watson AI Lab, o MIT e o Amazon Science Hub, o MIT AI Hardware Program e a US National Science Foundation. A infraestrutura de GPU para treinar este modelo foi doada pela NVIDIA.

Tecnologia Científica

O melhor dos dois mundos

Superando modelos maiores

“LLMs são uma boa interface para todos os tipos de modelos, como modelos multimodais e modelos que podem raciocinar. Esta é uma maneira de levar a inteligência a uma nova fronteira. Um modelo eficiente de geração de imagens desbloquearia muitas possibilidades”, ele diz.