Tecnologia Científica

Criação de colagens artísticas usando aprendizagem por reforço
Pesquisadores da Universidade Nacional de Seul tentaram recentemente treinar um agente de inteligência artificial (IA) para criar colagens (ou seja, obras de arte criadas colando vários pedaços de materiais), reproduzindo obras de arte famosas...
Por Ingrid Fadelli - 27/11/2023


O "Color Face" feito de jornais, imagem fonte de pixabay.com/photos/girl-face-colorful-colors-artistic-2696947. Crédito: Dai et al.

Pesquisadores da Universidade Nacional de Seul tentaram recentemente treinar um agente de inteligência artificial (IA) para criar colagens (ou seja, obras de arte criadas colando vários pedaços de materiais), reproduzindo obras de arte famosas e outras imagens. O modelo proposto foi apresentado em um artigo pré-impresso no arXiv e apresentado no ICCV 2023 em outubro .

"A arte da colagem requer alto talento artístico humano, e nos perguntamos como seriam as obras de arte da colagem criadas pela IA", disseram os autores, "As ferramentas existentes de geração de imagens de IA, como DALL-E ou StableDiffusion, já podem gerar imagens de colagem, mas elas são apenas 'imitações de colagens' de pixels, não a colagem real da execução das etapas reais da arte da colagem. O que queríamos fazer era treinar a IA para criar 'colagens reais'."

Num estudo anterior centrado na geração de pinturas, os investigadores usaram a aprendizagem por reforço (RL) para ensinar a IA a pintar seguindo passos semelhantes aos seguidos pelos humanos. Eles então começaram a se perguntar se isso também poderia ser alcançado para a criação de colagens e começaram a trabalhar em seu gerador de arte de colagem autônomo baseado em aprendizagem por reforço.

O objetivo principal de seu artigo recente foi, portanto, treinar um agente de IA para criar colagens que sejam tão semelhantes quanto possível às imagens alvo (por exemplo, pinturas, fotografias, etc.), rasgando e colando vários materiais, usando aprendizagem por reforço . Essas colagens seriam criadas a partir de um conjunto de materiais fornecidos por usuários humanos.

“Nosso modelo RL precisa fazer com que o agente entenda o que é uma colagem e como fazê-la bem”, explicaram os autores. "Como a RL requer basicamente muitas tentativas e erros, o modelo precisa ganhar experiência interagindo com uma tela e produzindo uma colagem real."

Como as colagens são feitas de vários restos de materiais, para criar efetivamente essas obras de arte, um agente primeiro precisa testar diversas opções de recortar e colar para determinar quais materiais produzem uma colagem que melhor se assemelha às imagens alvo. Os pesquisadores descobriram que inicialmente seu modelo teve um desempenho muito ruim, mas com o tempo suas habilidades melhoraram significativamente.

“O agente RL aprende a aumentar a recompensa, onde a recompensa é definida como uma melhoria na semelhança entre sua tela e uma imagem alvo”, disseram os autores. “A função de recompensa também continua evoluindo ao longo do tempo, aprendendo a avaliar melhor a semelhança entre a colagem feita pelo agente e a imagem alvo.”

Durante o treinamento, o modelo dos pesquisadores foi alimentado com uma imagem aleatória atribuída aleatoriamente e tentou criar uma colagem reproduzindo essa imagem em uma tela branca. A cada etapa da colagem, o agente seleciona um material aleatório entre as opções disponíveis e escolhe como recortá-lo, sucateá-lo e colá-lo na tela.

“Como as imagens e materiais alvo são dados aleatoriamente no treinamento, o agente torna-se capaz de lidar com quaisquer alvos e materiais numa fase posterior”, disseram os autores. "Todo esse processo é um pouco complicado para o uso de RL sem modelo existente, por isso desenvolvemos um ambiente de colagem diferenciável para permitir que o agente rastreie facilmente a dinâmica da colagem. Isso nos permitiu aplicar RL baseado em modelo e melhorar o desempenho."

O esquema de treinamento RL baseado em modelo desenvolvido pelos pesquisadores inspira-se em trabalhos anteriores sobre pinturas baseadas em RL. No entanto, a equipe desenvolveu seu próprio algoritmo RL baseado em modelo que abordou a dinâmica associada à criação de colagens, que são mais complexas do que as que sustentam a pintura.

O "Pássaro" feito de jornais, imagem alvo de pixabay.com/photos/kingfisher-bird-close-
up-perched-2046453. Crédito: Dai et al.

“Enquanto a pintura usa uma pincelada predefinida, uma colagem precisa observar a aparência de determinado material e descobrir como manipulá-lo para fazer um fragmento de imagem adequado para a colagem total, compreendendo forma, textura, cores e coordenadas”, disseram os autores. . “Como o SAC permite que um agente experimente diversas ações de forma mais eficaz no espaço de ação contínua do que o DDPG, que foi usado em pinturas, o SAC corresponde ao nosso caso.”

Para gerar colagens de forma eficaz, os autores usaram seu modelo treinado como uma unidade geradora de colagem parcial. Descobriu-se que esta unidade produz colagens de alta resolução que se assemelham muito a várias imagens alvo.

“Também desenvolvemos um módulo para analisar a complexidade da imagem alvo para atribuir mais carga de trabalho ao gerador de colagem parcial ao local onde a complexidade é alta”, explicou Lee. "Este módulo pode melhorar a qualidade estética das colagens."

Uma vantagem crucial da arquitetura da equipe é que ela não requer nenhuma colagem de amostras e dados de demonstração, pois foi simplesmente treinada usando exemplos de materiais e imagens alvo. Notavelmente, esses materiais e imagens são muito mais fáceis de coletar do que obras de arte originais.

“Sem dados ou conhecimentos artísticos, o agente aprendeu de forma independente como fazer uma colagem”, disseram os autores. "A capacidade final de colagem foi feita pela exploração do próprio agente, que é a descoberta notável deste trabalho; mostra a poderosa capacidade da RL como um domínio de aprendizagem livre de dados."

À medida que o modelo treinado da equipe compreendeu gradualmente o processo de criação de colagens, ele pôde generalizar bem uma ampla gama de imagens e cenários. Até agora, ele só foi testado em simulações. No entanto, se aplicado a um robô humanoide ou a uma mão robótica, o modelo também poderia fornecer “projetos” para a criação de colagens físicas.

“Construir um ambiente no qual o agente RL possa aprender adequadamente foi muito desafiador”, disseram os autores. "Passamos muito tempo desenvolvendo e definindo dinâmicas e ações de colagem que são legítimas para RL. Além disso, para economizar tempo de treinamento, devemos mantê-las o mais compactas e eficientes possível. Ainda mais, tivemos que manter a dinâmica diferenciável para o nosso esquema RL baseado em modelo também."

Como a arte é altamente subjetiva, avaliar a qualidade das colagens produzidas pela modelo é um desafio. Os pesquisadores realizaram inicialmente um estudo com usuários, pedindo a vários participantes humanos que compartilhassem suas opiniões e feedback sobre as colagens criadas por IA.

“Realizamos um estudo com usuários, mas isso pode não ser suficiente”, disseram os autores. "Depois de muita consideração para uma avaliação mais objetiva, decidimos usar o CLIP, um grande modelo pré-treinado de linguagem de visão. Como o CLIP é treinado com cerca de 400 milhões de pares de texto-imagem, acreditamos que ele tem a capacidade de avaliar de forma mais objetiva do que o estudo do usuário . Com o estudo do usuário e o CLIP, comparamos nosso modelo com outros modelos de geração baseados em pixels, avaliando a colagem e a consistência do conteúdo das imagens geradas."

O estudo do usuário e a avaliação baseada no CLIP realizada pelos pesquisadores produziram resultados semelhantes. Em ambos os testes, descobriu-se que o novo modelo superou outros modelos na geração de colagens.

A "Moça com Brinco de Pérola" feita de jornais.
Crédito: Dai et al.

O modelo apresentado neste artigo recente poderá em breve ser desenvolvido e testado para permitir estilos personalizados usando uma gama mais ampla de imagens e materiais. Além disso, o trabalho da equipe poderia inspirar o desenvolvimento de ferramentas adicionais de IA para gerar vários tipos de obras de arte.

“Estamos agora interessados em desenvolver estratégias que permitam aos nossos modelos lidar com diversas preferências de estilo”, acrescentaram os autores. “Como trabalho futuro, consideramos o desenvolvimento de uma interface interativa com o usuário, que possa refletir a preferência do usuário durante a criação de colagens do nosso modelo.”


Mais informações: Ganghun Lee et al, Transferência de colagem neural: reconstrução artística via manipulação de materiais, arXiv (2023). DOI: 10.48550/arxiv.2311.02202

Ganghun Lee et al, Do zero ao esboço: aprendizado de reforço hierárquico desacoplado profundo para agente de esboço robótico, 2022 Conferência Internacional sobre Robótica e Automação (ICRA) (2022). DOI: 10.1109/ICRA46639.2022.9811858

Informações do diário: arXiv 

 

.
.

Leia mais a seguir