Tecnologia Científica

Gerando novas moléculas com gramática de grafos
Um método eficiente de aprendizado de máquina usa conhecimento químico para criar uma gramática que pode ser aprendida com regras de produção para construir monômeros e polímeros sintetizáveis.
Por Lauren Hinkel - 03/04/2022


Pesquisadores do MIT e da IBM usaram um modelo generativo com uma gramática de grafos para criar novas moléculas pertencentes à mesma classe de compostos do conjunto de treinamento.

Engenheiros químicos e cientistas de materiais estão constantemente procurando o próximo material revolucionário, produto químico e medicamento. A ascensão das abordagens de aprendizado de máquina está acelerando o processo de descoberta, que poderia levar anos. “Idealmente, o objetivo é treinar um modelo de aprendizado de máquina em algumas amostras químicas existentes e permitir que ele produza o maior número possível de moléculas fabricáveis ​​da mesma classe, com propriedades físicas previsíveis”, diz Wojciech Matusik, professor de engenharia elétrica. e ciência da computação no MIT. “Se você tem todos esses componentes, pode construir novas moléculas com propriedades ideais e também sabe como sintetizá-las. Essa é a visão geral que as pessoas naquele espaço querem alcançar”

No entanto, as técnicas atuais, principalmente o aprendizado profundo, exigem extensos conjuntos de dados para modelos de treinamento, e muitos conjuntos de dados químicos específicos de classe contêm um punhado de compostos de exemplo, limitando sua capacidade de generalizar e gerar moléculas físicas que podem ser criadas no mundo real.

Agora, um novo artigo de pesquisadores do MIT e da IBM aborda esse problema usando um modelo de gráfico generativo para construir novas moléculas sintetizáveis ​​dentro da mesma classe química que seus dados de treinamento. Para fazer isso, eles tratam a formação de átomos e ligações químicas como um gráfico e desenvolvem uma gramática gráfica – uma analogia linguística de sistemas e estruturas para ordenação de palavras – que contém uma sequência de regras para construir moléculas, como monômeros e polímeros. Usando as regras gramaticais e de produção que foram inferidas do conjunto de treinamento, o modelo pode não apenas fazer engenharia reversa de seus exemplos, mas também criar novos compostos de maneira sistemática e com eficiência de dados. “Basicamente construímos uma linguagem para criar moléculas”, diz Matusik “Essa gramática é essencialmente o modelo generativo”.

Os coautores de Matusik incluem os estudantes de pós-graduação do MIT Minghao Guo, que é o autor principal, e Beichen Li, bem como Veronika Thost, Payal Das e Jie Chen, membros da equipe de pesquisa da IBM Research. Matusik, Thost e Chen são afiliados ao MIT-IBM Watson AI Lab. Seu método, que eles chamaram de gramática gráfica eficiente de dados (DEG), será apresentado na Conferência Internacional sobre Representações de Aprendizagem.

“Queremos usar essa representação gramatical para geração de monômeros e polímeros, porque essa gramática é explicável e expressiva”, diz Guo. “Com apenas algumas regras de produção, podemos gerar muitos tipos de estruturas.”

Uma estrutura molecular pode ser pensada como uma representação simbólica em um gráfico – uma sequência de átomos (nós) unidos por ligações químicas (bordas). Nesse método, os pesquisadores permitem que o modelo pegue a estrutura química e colapse uma subestrutura da molécula até um nó; podem ser dois átomos ligados por uma ligação, uma sequência curta de átomos ligados ou um anel de átomos. Isso é feito repetidamente, criando as regras de produção à medida que avança, até que um único nó permaneça. As regras e gramática poderiam então ser aplicadas na ordem inversa para recriar o conjunto de treinamento do zero ou combinados em diferentes combinações para produzir novas moléculas da mesma classe química.

“Os métodos de geração de grafos existentes produziriam um nó ou uma aresta sequencialmente por vez, mas estamos analisando estruturas de nível superior e, especificamente, explorando o conhecimento de química, para que não tratemos os átomos e ligações individuais como a unidade. Isso simplifica o processo de geração e também torna o aprendizado mais eficiente em dados”, diz Chen.

Além disso, os pesquisadores otimizaram a técnica para que a gramática de baixo para cima fosse relativamente simples e direta, de modo que fabricasse moléculas que pudessem ser feitas.

“Se mudarmos a ordem de aplicação dessas regras de produção, obteríamos outra molécula; além disso, podemos enumerar todas as possibilidades e gerar toneladas delas”, diz Chen. “Algumas dessas moléculas são válidas e outras não, então o aprendizado da gramática em si é realmente descobrir uma coleção mínima de regras de produção, de modo que a porcentagem de moléculas que podem realmente ser sintetizadas seja maximizada”. Enquanto os pesquisadores se concentraram em três conjuntos de treinamento com menos de 33 amostras cada – acrilatos, extensores de cadeia e isocianatos – eles observam que o processo pode ser aplicado a qualquer classe química.

Para ver como seu método funcionava, os pesquisadores testaram o DEG contra outros modelos e técnicas de última geração, analisando porcentagens de moléculas quimicamente válidas e únicas, diversidade daquelas criadas, taxa de sucesso de retrossíntese e porcentagem de moléculas pertencentes a a classe de monômero dos dados de treinamento.

“Mostramos claramente que, em termos de capacidade de síntese e associação, nosso algoritmo supera todos os métodos existentes por uma margem muito grande, enquanto é comparável a algumas outras métricas amplamente utilizadas”, diz Guo. Além disso, “o que é incrível em nosso algoritmo é que precisamos apenas de cerca de 0,15% do conjunto de dados original para obter resultados muito semelhantes em comparação com abordagens de última geração que treinam em dezenas de milhares de amostras. Nosso algoritmo pode lidar especificamente com o problema da escassez de dados.”

No futuro imediato, a equipe planeja ampliar esse processo de aprendizado gramatical para poder gerar gráficos grandes, bem como produzir e identificar produtos químicos com propriedades desejadas.

No futuro, os pesquisadores veem muitas aplicações para o método DEG, pois é adaptável além de gerar novas estruturas químicas, aponta a equipe. Um gráfico é uma representação muito flexível, e muitas entidades podem ser simbolizadas dessa forma – robôs, veículos, edifícios e circuitos eletrônicos, por exemplo. “Essencialmente, nosso objetivo é construir nossa gramática, para que nossa representação gráfica possa ser amplamente usada em muitos domínios diferentes”, diz Guo, pois “o DEG pode automatizar o design de novas entidades e estruturas”, diz Chen.

Esta pesquisa foi apoiada, em parte, pelo MIT-IBM Watson AI Lab e pela Evonik.

 

.
.

Leia mais a seguir