O sistema desenvolvido no MIT pode fornecer previsões realistas para uma ampla variedade de reações, mantendo as restrições físicas do mundo real.

O sistema FlowER (Flow matching for Electron Redistribution) permite que um pesquisador monitore explicitamente todos os elétrons em uma reação para garantir que nenhum seja adicionado ou excluído falsamente no processo de previsão do resultado de uma reação química. Créditos: Imagem cortesia dos pesquisadores.
Muitas tentativas foram feitas para aproveitar o poder da nova inteligência artificial e dos grandes modelos de linguagem (LLMs) para tentar prever os resultados de novas reações químicas. Essas tentativas tiveram sucesso limitado, em parte porque, até agora, não se baseavam na compreensão de princípios físicos fundamentais, como as leis de conservação de massa. Agora, uma equipe de pesquisadores do MIT desenvolveu uma maneira de incorporar essas restrições físicas em um modelo de previsão de reações, melhorando significativamente a precisão e a confiabilidade de seus resultados.
O novo trabalho foi relatado em 20 de agosto no periódico Nature , em um artigo do recente pós-doutorado Joonyoung Joung (agora professor assistente na Universidade Kookmin, Coreia do Sul); do ex-engenheiro de software Mun Hong Fong (agora na Universidade Duke); do estudante de graduação em engenharia química Nicholas Casetti; do pós-doutorado Jordan Liles; do estudante de graduação em física Ne Dassanayake; e do autor sênior Connor Coley, que é professor de desenvolvimento de carreira da turma de 1957 nos departamentos de Engenharia Química, Engenharia Elétrica e Ciência da Computação do MIT.
“A previsão dos resultados das reações é uma tarefa muito importante”, explica Joung. Por exemplo, se você quer fabricar um novo medicamento, “precisa saber como fazê-lo. Portanto, isso exige que saibamos qual produto provavelmente” resultará de um determinado conjunto de entradas químicas em uma reação. Mas a maioria dos esforços anteriores para realizar tais previsões considera apenas um conjunto de entradas e um conjunto de saídas, sem considerar as etapas intermediárias ou as restrições de garantir que nenhuma massa seja ganha ou perdida no processo, o que não é possível em reações reais.
Joung ressalta que, embora modelos de linguagem de grande porte como o ChatGPT tenham sido muito bem-sucedidos em muitas áreas de pesquisa, esses modelos não oferecem uma maneira de limitar seus resultados a possibilidades fisicamente realistas, como exigir que sigam a conservação de massa. Esses modelos usam "tokens" computacionais, que neste caso representam átomos individuais, mas "se você não conservar os tokens, o modelo LLM começa a criar novos átomos ou a excluir átomos na reação". Em vez de se basear em uma compreensão científica real, "isso é como uma espécie de alquimia", diz ele. Embora muitas tentativas de previsão de reações considerem apenas os produtos finais, "queremos rastrear todos os produtos químicos e como eles são transformados" ao longo do processo de reação, do início ao fim, diz ele.
Para resolver o problema, a equipe utilizou um método desenvolvido na década de 1970 pelo químico Ivar Ugi, que utiliza uma matriz de elétrons de ligação para representar os elétrons em uma reação. Eles usaram esse sistema como base para seu novo programa, chamado FlowER (Flow Matching for Electron Redistribution), que permite rastrear explicitamente todos os elétrons na reação para garantir que nenhum seja adicionado ou excluído falsamente no processo.
O sistema utiliza uma matriz para representar os elétrons em uma reação, valores diferentes de zero para representar ligações ou pares de elétrons isolados e zeros para representar a ausência deles. "Isso nos ajuda a conservar átomos e elétrons simultaneamente", diz Fong. Essa representação, segundo ele, foi um dos elementos-chave para incluir a conservação de massa em seu sistema de previsão.
O sistema que desenvolveram ainda está em estágio inicial, afirma Coley. "O sistema, como está, é uma demonstração — uma prova de conceito de que essa abordagem generativa de correspondência de fluxo é muito adequada à tarefa de previsão de reações químicas." Embora a equipe esteja entusiasmada com essa abordagem promissora, ele afirma: "Estamos cientes de que ela tem limitações específicas quanto à amplitude de diferentes químicas observadas". Embora o modelo tenha sido treinado com dados de mais de um milhão de reações químicas, obtidos de um banco de dados do Escritório de Patentes dos EUA, esses dados não incluem certos metais e alguns tipos de reações catalíticas, afirma.
“Estamos extremamente entusiasmados com o fato de podermos obter previsões tão confiáveis de mecanismos químicos” a partir do sistema existente, diz ele. “Ele conserva massa, conserva elétrons, mas certamente reconhecemos que há muito mais expansão e robustez para trabalhar nos próximos anos também.”
Mas mesmo em sua forma atual, que está sendo disponibilizada gratuitamente pela plataforma online GitHub, "acreditamos que ela fará previsões precisas e será útil como ferramenta para avaliar a reatividade e mapear as vias de reação", diz Coley. "Se estivermos olhando para o futuro, realmente avançando o estado da arte da compreensão mecanicista e ajudando a inventar novas reações, ainda não chegamos lá. Mas esperamos que este seja um trampolim para isso."
"É tudo de código aberto", diz Fong. "Os modelos, os dados, tudo está lá", incluindo um conjunto de dados anterior desenvolvido por Joung que lista exaustivamente as etapas mecanicistas das reações conhecidas. "Acredito que somos um dos grupos pioneiros a criar esse conjunto de dados, disponibilizá-lo em código aberto e torná-lo utilizável por todos", afirma.
O modelo FlowER iguala ou supera as abordagens existentes na busca por vias mecanísticas padrão, afirma a equipe, e possibilita a generalização para tipos de reações nunca antes vistos. Eles afirmam que o modelo pode ser potencialmente relevante para a previsão de reações em química medicinal, descoberta de materiais, combustão, química atmosférica e sistemas eletroquímicos.
Em suas comparações com sistemas de previsão de reações existentes, Coley diz: “usando as escolhas de arquitetura que fizemos, obtemos esse aumento enorme na validade e conservação, e obtemos uma precisão igual ou um pouco melhor em termos de desempenho”.
Ele acrescenta que "o que torna nossa abordagem única é que, embora utilizemos esses conhecimentos teóricos sobre mecanismos para gerar esse conjunto de dados, estamos ancorando os reagentes e produtos da reação geral em dados validados experimentalmente da literatura de patentes". Eles estão inferindo os mecanismos subjacentes, diz ele, em vez de simplesmente inventá-los. "Estamos imputando-os a partir de dados experimentais, e isso não é algo que já tenha sido feito e compartilhado nessa escala antes."
O próximo passo, diz ele, é "estamos bastante interessados em expandir a compreensão do modelo sobre metais e ciclos catalíticos. Estamos apenas arranhando a superfície neste primeiro artigo", e a maioria das reações incluídas até agora não inclui metais ou catalisadores, "então essa é uma direção na qual estamos bastante interessados".
A longo prazo, ele afirma, "grande parte do entusiasmo está em usar esse tipo de sistema para ajudar a descobrir novas reações complexas e elucidar novos mecanismos. Acredito que o impacto potencial a longo prazo seja grande, mas este é, obviamente, apenas um primeiro passo."
O trabalho foi apoiado pelo consórcio Machine Learning for Pharmaceutical Discovery and Synthesis e pela National Science Foundation.