Um novo kit de ferramentas de código aberto automatiza o processo de computação de propriedades moleculares na fase de solução, abrindo novos caminhos para o design e a descoberta de inteligência artificial na química e além.

“Libertamos os pesquisadores da maioria das tediosas tarefas manuais de entrada de dados”, diz o químico teórico de Emory, Fang Liu (centro). Os membros de sua equipe que desenvolveram o kit de ferramentas incluem o estudante de pós-graduação da Emory, Ariel Gale (à esquerda) e o colega de pós-doutorado Eugen Husk (à direita). Não é mostrado Xiao Huang, que trabalhou no projeto como estudante de graduação. Crédito: Universidade Emory
Um novo kit de ferramentas de código aberto automatiza o processo de computação de propriedades moleculares na fase de solução, abrindo novos caminhos para o design e a descoberta de inteligência artificial na química e além. O Journal of Chemical Physics publicou o kit de ferramentas gratuito e de código aberto desenvolvido por químicos teóricos da Emory University.
Conhecido como AutoSolvate, o kit de ferramentas pode acelerar a criação de grandes conjuntos de dados de alta qualidade necessários para fazer avanços em tudo, desde energia renovável até saúde humana.
“Ao usar nosso fluxo de trabalho automatizado, os pesquisadores podem gerar rapidamente 10 ou até 100 vezes mais dados em comparação com a abordagem tradicional”, diz Fang Liu, professor assistente de química da Emory e autor correspondente do artigo. “Esperamos que muitos pesquisadores acessem nosso kit de ferramentas para realizar simulação de alto rendimento e curadoria de dados para moléculas em solução”.
Esses conjuntos de dados, acrescenta Liu, fornecerão uma base para a aplicação de técnicas de aprendizado de máquina de última geração para impulsionar a inovação em uma ampla gama de empreendimentos científicos.
O primeiro autor do artigo é Eugen Hruska, um pós-doutorando no laboratório Liu. Os coautores incluem Emory Ph.D. candidato Ariel Gale e Xiao Huang, que trabalhou no papel como um estudante de graduação Emory e agora é um estudante de pós-graduação em química na Duke University.
Explorando o mundo quântico
Um químico teórico, Liu lidera uma equipe especializada em química quântica computacional, incluindo modelagem e decifração de propriedades moleculares e reações na fase de solução.
O mundo se torna muito mais complexo à medida que se reduz à escala de átomos e pequenas moléculas , onde a mecânica quântica descreve a dualidade onda-partícula de energia e matéria.
Químicos teóricos usam supercomputadores para simular as estruturas das moléculas e a vasta gama de interações que podem ocorrer durante uma reação para que possam fazer previsões sobre como uma molécula se comportará sob certas condições. Entender essas dinâmicas é fundamental para identificar moléculas promissoras para várias aplicações e para conduzir reações de forma eficiente.
Os pesquisadores já geraram conjuntos de dados para as propriedades de muitas moléculas na fase gasosa. As propriedades moleculares na fase de solução, no entanto, permanecem relativamente inexploradas no contexto de big data e aprendizado de máquina, apesar do fato de que a maioria das reações ocorre em solução.
O problema é que estudar uma molécula em solução requer muito mais tempo e esforço.
Um processo complicado
"Na fase gasosa, as moléculas estão distantes umas das outras", explica Liu, "portanto, quando estudamos uma molécula de interesse, não precisamos considerar seus vizinhos".
Na fase de solução, no entanto, uma molécula está intimamente imersa em muitas outras moléculas, tornando o sistema muito maior. "Imagine uma molécula de solvente cercada por camadas e camadas de moléculas de água", diz Liu. "Dependendo de seu tamanho e estrutura, uma molécula pode ser coberta por dezenas, ou mesmo centenas, de moléculas de água. Em sistemas de tamanho tão grande, a computação será lenta e pode até não ser viável."
Antes de executar um programa de química quântica para uma molécula na fase de solução, é necessário primeiro determinar a geometria da molécula e a localização e orientação das moléculas de solvente circundantes.
"Este processo é difícil de fazer", diz Liu. "É preciso muito tempo e esforço, e é tão complicado, que um pesquisador só pode realizar esse cálculo para alguns sistemas com os quais se preocupa em um artigo", diz Liu.
Problemas técnicos também podem surgir durante cada etapa do processo, acrescenta ela, levando a erros nos resultados.
Uma solução simplificada
Liu e seus colegas substituíram as complicadas etapas necessárias para realizar esses cálculos com seu sistema automatizado AutoSolvate.
Anteriormente, um químico computacional poderia ter que digitar centenas de linhas de código em um supercomputador para executar uma simulação. A interface de linha de comando do AutoSolvate, no entanto, requer apenas algumas linhas de código para realizar centenas de cálculos automaticamente.
"O tempo para executar as simulações pode ser longo, mas isso é trabalho para o computador", diz Liu. "Libertamos os pesquisadores da maioria das tediosas tarefas manuais de entrada de dados para que eles possam se concentrar na análise de seus resultados e em outros trabalhos criativos".
Além da interface de linha de comando voltada para químicos teóricos mais experientes, o AutoSolvate inclui uma interface gráfica intuitiva adequada para estudantes de pós-graduação que estão aprendendo a executar simulações.
Os laboratórios agora podem gerar com eficiência muitos pontos de dados para moléculas solvatadas e, em seguida, usar o conjunto de dados para criar modelos de aprendizado de máquina para design e descoberta química. O AutoSolvate também facilita a criação e o compartilhamento de conjuntos de dados entre diferentes grupos de pesquisa.
Preparando o cenário para o aprendizado de máquina
“Durante os últimos 10 anos, o aprendizado de máquina se tornou uma ferramenta popular para a química, mas a falta de conjuntos de dados computacionais tem sido um gargalo”, diz Liu. "O AutoSolvate permitirá que a comunidade de pesquisa selecione um grande número de conjuntos de dados para propriedades moleculares na fase de solução."
Determinar o potencial redox de uma molécula de solvente, ou a probabilidade de ocorrer uma oxidação, é apenas um exemplo de uma área de pesquisa chave que o AutoSolvate pode ajudar a desenvolver. Moléculas redox-ativas têm potencial para aplicações no desenvolvimento de drogas anticancerígenas e baterias químicas para armazenamento de energia renovável.
“A construção de conjuntos de dados de potencial redox nos permitirá usar o aprendizado de máquina para examinar milhões de compostos diferentes para encontrar rapidamente aqueles com potencial redox dentro do intervalo desejado”, diz Liu.
Em vez de um resultado de caixa preta, essas análises de grandes conjuntos de dados podem produzir inteligência artificial interpretável ou regras básicas para modelos moleculares.
"O objetivo final é identificar regras que possam ser aplicadas para resolver uma ampla gama de problemas científicos fundamentais", diz Liu.
Mais informações: Eugen Hruska et al, AutoSolvate: um kit de ferramentas para automatizar o design de química quântica e a descoberta de moléculas solvatadas, The Journal of Chemical Physics (2022). DOI: 10.1063/5.0084833
Informações do periódico: Journal of Chemical Physics