IA generativa Pesquisadores propõem uma solução simples para uma técnica existente que pode ajudar artistas, designers e engenheiros a criar melhores modelos 3D.

A nova técnica permite a geração de formas 3D mais nítidas e realistas — como essas abelhas robóticas — sem a necessidade de retreinar ou ajustar um modelo de IA generativo. Imagem: Cortesia dos pesquisadores; MIT News
Criar modelos 3D realistas para aplicações como realidade virtual, produção cinematográfica e design de engenharia pode ser um processo trabalhoso que exige muitas tentativas e erros manuais.
Embora modelos de inteligência artificial generativa para imagens possam agilizar processos artísticos ao permitir que criadores produzam imagens 2D realistas a partir de prompts de texto, esses modelos não são projetados para gerar formas 3D. Para preencher a lacuna, uma técnica desenvolvida recentemente chamada Score Distillation alavanca modelos de geração de imagens 2D para criar formas 3D, mas sua saída geralmente acaba borrada ou caricatural.
Pesquisadores do MIT exploraram as relações e diferenças entre os algoritmos usados para gerar imagens 2D e formas 3D, identificando a causa raiz de modelos 3D de qualidade inferior. A partir daí, eles criaram uma correção simples para o Score Distillation, que permite a geração de formas 3D nítidas e de alta qualidade que são mais próximas em qualidade das melhores imagens 2D geradas por modelos.
Alguns outros métodos tentam corrigir esse problema por meio do retreinamento ou ajuste fino do modelo de IA generativa, o que pode ser caro e demorado.
Em contraste, a técnica dos pesquisadores do MIT alcança qualidade de forma 3D igual ou melhor do que essas abordagens sem treinamento adicional ou pós-processamento complexo.
Além disso, ao identificar a causa do problema, os pesquisadores melhoraram a compreensão matemática da Score Distillation e técnicas relacionadas, permitindo que trabalhos futuros melhorem ainda mais o desempenho.
“Agora sabemos para onde devemos ir, o que nos permite encontrar soluções mais eficientes, mais rápidas e de maior qualidade”, diz Artem Lukoianov, um estudante de pós-graduação em engenharia elétrica e ciência da computação (EECS) que é o autor principal de um artigo sobre essa técnica. “A longo prazo, nosso trabalho pode ajudar a facilitar o processo de ser um copiloto para designers, tornando mais fácil criar formas 3D mais realistas.”
Os coautores de Lukoianov são Haitz Sáez de Ocáriz Borde, um estudante de pós-graduação na Universidade de Oxford; Kristjan Greenewald, um cientista pesquisador no MIT-IBM Watson AI Lab; Vitor Campagnolo Guizilini, um cientista no Toyota Research Institute; Timur Bagautdinov, um cientista pesquisador na Meta; e os autores seniores Vincent Sitzmann, um professor assistente de EECS no MIT que lidera o Scene Representation Group no Computer Science and Artificial Intelligence Laboratory (CSAIL) e Justin Solomon, um professor associado de EECS e líder do CSAIL Geometric Data Processing Group. A pesquisa será apresentada na Conference on Neural Information Processing Systems.
De imagens 2D a formas 3D
Modelos de difusão, como DALL-E, são um tipo de modelo de IA generativo que pode produzir imagens realistas a partir de ruído aleatório. Para treinar esses modelos, os pesquisadores adicionam ruído às imagens e, em seguida, ensinam o modelo a reverter o processo e remover o ruído. Os modelos usam esse processo aprendido de “redução de ruído” para criar imagens com base nos prompts de texto de um usuário.
Mas os modelos de difusão têm desempenho inferior na geração direta de formas 3D realistas porque não há dados 3D suficientes para treiná-los. Para contornar esse problema, os pesquisadores desenvolveram uma técnica chamada Score Distillation Sampling (SDS) em 2022, que usa um modelo de difusão pré-treinado para combinar imagens 2D em uma representação 3D.
A técnica envolve começar com uma representação 3D aleatória, renderizar uma visão 2D de um objeto desejado de um ângulo de câmera aleatório, adicionar ruído a essa imagem, denoising-la com um modelo de difusão e, em seguida, otimizar a representação 3D aleatória para que ela corresponda à imagem denoising. Essas etapas são repetidas até que o objeto 3D desejado seja gerado.
No entanto, formas 3D produzidas dessa maneira tendem a parecer borradas ou supersaturadas.
“Isso tem sido um gargalo por um tempo. Sabemos que o modelo subjacente é capaz de fazer melhor, mas as pessoas não sabiam por que isso está acontecendo com formas 3D”, diz Lukoianov.
Os pesquisadores do MIT exploraram as etapas do SDS e identificaram uma incompatibilidade entre uma fórmula que forma uma parte essencial do processo e sua contraparte em modelos de difusão 2D. A fórmula diz ao modelo como atualizar a representação aleatória adicionando e removendo ruído, uma etapa de cada vez, para fazer com que pareça mais com a imagem desejada.
Como parte dessa fórmula envolve uma equação que é muito complexa para ser resolvida eficientemente, o SDS a substitui por ruído amostrado aleatoriamente em cada etapa. Os pesquisadores do MIT descobriram que esse ruído leva a formas 3D borradas ou de desenho animado.
Uma resposta aproximada
Em vez de tentar resolver essa fórmula incômoda precisamente, os pesquisadores testaram técnicas de aproximação até identificarem a melhor. Em vez de amostrar aleatoriamente o termo de ruído, sua técnica de aproximação infere o termo ausente da renderização atual da forma 3D.
“Ao fazer isso, como prevê a análise no artigo, ele gera formas 3D que parecem nítidas e realistas”, diz ele.
Além disso, os pesquisadores aumentaram a resolução da renderização da imagem e ajustaram alguns parâmetros do modelo para melhorar ainda mais a qualidade da forma 3D.
No final, eles conseguiram usar um modelo de difusão de imagem pré-treinado e pronto para uso para criar formas 3D suaves e realistas sem a necessidade de um retreinamento dispendioso. Os objetos 3D são similarmente nítidos aos produzidos usando outros métodos que dependem de soluções ad hoc.
“Tentar experimentar cegamente com parâmetros diferentes, às vezes funciona e às vezes não, mas você não sabe o porquê. Sabemos que essa é a equação que precisamos resolver. Agora, isso nos permite pensar em maneiras mais eficientes de resolvê-la”, ele diz.
Como seu método depende de um modelo de difusão pré-treinado, ele herda os vieses e deficiências desse modelo, tornando-o propenso a alucinações e outras falhas. Melhorar o modelo de difusão subjacente aprimoraria seu processo.
Além de estudar a fórmula para ver como poderiam resolvê-lo de forma mais eficaz, os pesquisadores estão interessados em explorar como esses insights poderiam melhorar as técnicas de edição de imagens.
O trabalho de Artem Lukoianov é financiado pelo Toyota–CSAIL Joint Research Center. A pesquisa de Vincent Sitzmann é apoiada pela US National Science Foundation, Singapore Defense Science and Technology Agency, Department of Interior/Interior Business Center e IBM. A pesquisa de Justin Solomon é financiada, em parte, pelo US Army Research Office, National Science Foundation, o programa CSAIL Future of Data, MIT–IBM Watson AI Lab, Wistron Corporation e o Toyota–CSAIL Joint Research Center.