O MAGE combina as duas tarefas principais de geração e reconhecimento de imagens, normalmente treinadas separadamente, em um único sistema.

Um sistema de visão unificada conhecido como MAsked Generative Encoder (MAGE), desenvolvido por pesquisadores do MIT e do Google, pode ser útil para muitas coisas, como encontrar e classificar objetos em uma imagem, aprender com apenas alguns exemplos, gerar imagens com condições específicas, como como texto ou classe, edição de imagens existentes e muito mais. Créditos: Imagem: Alex Shipps/MIT CSAIL via Midjourney
Os computadores possuem duas capacidades notáveis ??no que diz respeito às imagens: eles podem identificá-las e gerá-las novamente. Historicamente, essas funções permaneceram separadas, semelhantes aos atos díspares de um chef que é bom em criar pratos (geração) e um conhecedor que é bom em degustar pratos (reconhecimento).
No entanto, não podemos deixar de nos perguntar: o que seria necessário para orquestrar uma união harmoniosa entre essas duas capacidades distintas? Tanto o chef quanto o conhecedor compartilham um entendimento comum no sabor da comida. Da mesma forma, um sistema de visão unificada requer uma compreensão profunda do mundo visual.
Agora, pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT treinaram um sistema para inferir as partes que faltam em uma imagem, uma tarefa que requer compreensão profunda do conteúdo da imagem. Ao preencher com sucesso os espaços em branco, o sistema, conhecido como Masked Generative Encoder (MAGE), atinge dois objetivos ao mesmo tempo: identificar imagens com precisão e criar novas imagens com notável semelhança com a realidade.
Este sistema de dupla finalidade permite inúmeras aplicações potenciais, como identificação e classificação de objetos em imagens, aprendizado rápido a partir de exemplos mínimos, criação de imagens sob condições específicas, como texto ou classe, e aprimoramento de imagens existentes.
Ao contrário de outras técnicas, o MAGE não funciona com pixels brutos. Em vez disso, ele converte imagens no que é chamado de “tokens semânticos”, que são versões compactas, porém abstratas, de uma seção de imagem. Pense nesses tokens como pequenas peças de quebra-cabeça, cada uma representando um pedaço de 16x16 da imagem original. Assim como as palavras formam frases, esses tokens criam uma versão abstrata de uma imagem que pode ser usada para tarefas complexas de processamento, preservando as informações da imagem original. Essa etapa de tokenização pode ser treinada em uma estrutura auto-supervisionada, permitindo o pré-treinamento em grandes conjuntos de dados de imagem sem rótulos.
Agora, a mágica começa quando o MAGE usa “modelagem de token mascarado”. Ele esconde aleatoriamente alguns desses tokens, criando um quebra-cabeça incompleto e, em seguida, treina uma rede neural para preencher as lacunas. Dessa forma, ele aprende a entender os padrões de uma imagem (reconhecimento de imagem) e a gerar novos padrões (geração de imagem).
“Uma parte notável do MAGE é sua estratégia de mascaramento variável durante o pré-treinamento, permitindo treinar para qualquer tarefa, geração de imagem ou reconhecimento, dentro do mesmo sistema”, diz Tianhong Li, estudante de doutorado em engenharia elétrica e ciência da computação no MIT , uma afiliada da CSAIL e principal autora de um artigo sobre a pesquisa . “A capacidade do MAGE de trabalhar no 'espaço de token' em vez do 'espaço de pixel' resulta em geração de imagens claras, detalhadas e de alta qualidade, bem como representações de imagens semanticamente ricas. Esperançosamente, isso pode abrir caminho para modelos de visão computacional avançados e integrados”.
Além de sua capacidade de gerar imagens realistas a partir do zero, o MAGE também permite a geração de imagens condicionais. Os usuários podem especificar certos critérios para as imagens que desejam que o MAGE gere, e a ferramenta criará a imagem apropriada. Ele também é capaz de realizar tarefas de edição de imagens, como remover elementos de uma imagem enquanto mantém uma aparência realista.
Tarefas de reconhecimento são outro ponto forte do MAGE. Com sua capacidade de pré-treinar em grandes conjuntos de dados não rotulados, ele pode classificar imagens usando apenas as representações aprendidas. Além disso, ele se destaca no aprendizado de poucos disparos, alcançando resultados impressionantes em grandes conjuntos de dados de imagem, como o ImageNet, com apenas alguns exemplos rotulados.
A validação do desempenho do MAGE foi impressionante. Por um lado, estabeleceu novos recordes na geração de novas imagens, superando os modelos anteriores com uma melhoria significativa. Por outro lado, o MAGE superou as tarefas de reconhecimento, alcançando 80,9% de precisão na sondagem linear e 71,9% de precisão de 10 disparos no ImageNet (isso significa que ele identificou corretamente as imagens em 71,9% dos casos em que tinha apenas 10 exemplos rotulados de cada aula).
Apesar de seus pontos fortes, a equipe de pesquisa reconhece que o MAGE é um trabalho em andamento. O processo de conversão de imagens em tokens inevitavelmente leva a alguma perda de informação. Eles estão ansiosos para explorar maneiras de comprimir imagens sem perder detalhes importantes em trabalhos futuros. A equipe também pretende testar o MAGE em conjuntos de dados maiores. A exploração futura pode incluir o treinamento do MAGE em conjuntos de dados não rotulados maiores, potencialmente levando a um desempenho ainda melhor.
“Tem sido um longo sonho alcançar a geração e o reconhecimento de imagens em um único sistema. O MAGE é uma pesquisa inovadora que aproveita com sucesso a sinergia dessas duas tarefas e atinge o estado da arte delas em um único sistema”, diz Huisheng Wang, engenheiro de software sênior de humanos e interações no Research and Machine Intelligence divisão do Google, que não participou do trabalho. “Este sistema inovador tem aplicações abrangentes e tem o potencial de inspirar muitos trabalhos futuros no campo da visão computacional.”
Li escreveu o artigo junto com Dina Katabi, professora de Thuan e Nicole Pham no Departamento de Engenharia Elétrica e Ciência da Computação do MIT e investigadora principal do CSAIL; Huiwen Chang, pesquisador sênior do Google; Shlok Kumar Mishra, aluno de doutorado da Universidade de Maryland e estagiário de pesquisa do Google; Han Zhang, pesquisador sênior do Google; e Dilip Krishnan, cientista de pesquisa da equipe do Google. Os recursos computacionais foram fornecidos pelo Google Cloud Platform e pelo MIT-IBM Watson AI Lab. A pesquisa da equipe foi apresentada na Conferência de 2023 sobre Visão Computacional e Reconhecimento de Padrões.