O método, que combina um grande modelo de linguagem semelhante ao ChatGPT com informações sobre o formato 3D de uma proteína, pode tornar mais fácil e rápido o desenvolvimento de melhores medicamentos

Domínio público
As proteínas evoluíram para se destacar em tudo, desde contrair músculos até digerir alimentos e reconhecer vírus. Para projetar proteínas melhores, incluindo anticorpos, os cientistas frequentemente mutam iterativamente os aminoácidos – as unidades que são organizadas em uma sequência para formar proteínas – em diferentes posições até que a proteína resultante tenha uma função melhorada, como provocar uma resposta imunológica mais forte ou capturar dióxido de carbono da atmosfera de forma mais eficiente.
Mas há mais sequências de aminoácidos possíveis do que grãos de areia no mundo. E encontrar a melhor proteína e, portanto, o melhor medicamento potencial, é frequentemente caro ou impossível.
Cientistas de Stanford desenvolveram um novo método baseado em aprendizado de máquina para prever de forma mais rápida e precisa as mudanças moleculares que levarão a melhores medicamentos de anticorpos. Publicado na Science em 4 de julho, a abordagem combina a estrutura 3D da estrutura da proteína com grandes modelos de linguagem baseados na sequência de aminoácidos e permite que os pesquisadores encontrem, em minutos, mutações raras e desejáveis que, de outra forma, só seriam encontradas com experimentos exaustivos.
Liderada por Peter S. Kim , professor de bioquímica e pesquisador do instituto Sarafan ChEM-H , e Brian Hie , professor assistente de engenharia química e docente da Stanford Data Science, a equipe mostrou que poderia melhorar um anticorpo SARS-CoV-2 aprovado pela FDA que havia sido descontinuado devido à sua ineficácia contra uma nova cepa em novembro de 2022. Sua abordagem resultou em uma melhora de 25 vezes contra o vírus.
“Muito esforço em IA e desenvolvimento de medicamentos é centrado em acumular toneladas de dados sobre o quão bem uma certa molécula executa uma certa tarefa para que um computador possa aprender o suficiente para projetar uma versão melhor”, disse Kim. “O que é notável é que mostramos que a estrutura pode ser usada no lugar de muitos desses dados, e o computador ainda aprenderá.”
“Agora, mais anticorpos realmente têm a chance de serem otimizados”, disse Hie, que também é pesquisador de inovação no Arc In
Dobrado em forma
Quando confrontados com o desafio de encontrar a melhor sequência de aminoácidos, os cientistas frequentemente ganham milhões e os testam em versões miniaturizadas e simplificadas de sistemas biológicos. Eles esperam que a melhor droga em um prato também seja a melhor droga em humanos.
“É muita adivinhação e verificação”, disse Hie. “O objetivo de muitos algoritmos inteligentes é remover a adivinhação disto.”
Para acelerar o processo, os cientistas desenvolveram algoritmos de aprendizado de máquina semelhantes ao ChatGPT, que são treinados nas sequências de aminoácidos de milhões de proteínas para prever mutações desejáveis.
Esses modelos, no entanto, muitas vezes apontam os cientistas para sequências que, uma vez produzidas em laboratório, são instáveis ou piores do que quando começaram.
Isso ocorre em parte porque a função da proteína depende não apenas da sequência de aminoácidos, mas também da estrutura 3D dessa sequência. Por exemplo, para desencadear uma resposta imune, os anticorpos devem ter o formato certo para se ligarem a moléculas que ficam no topo da superfície dos vírus.
A chave, pensou a equipe, para desenvolver um algoritmo de predição melhor era a estrutura. Então, eles restringiram a longa lista de possíveis mutações benéficas – conforme determinado pelo modelo de linguagem grande baseado em sequência – apenas àquelas que preservariam o formato 3D da proteína inicial.
Campo de testes
Em dezembro de 2022, a equipe testou o medicamento em uma terapia de anticorpos contra SARS-CoV-2 recentemente descontinuada.
“A teoria predominante era que tentar melhorar esse anticorpo falharia”, disse Varun Shanker, um estudante de medicina, aluno de pós-graduação em biofísica e autor principal do estudo. “O vírus era muito inteligente. Ele evoluiu conforme se espalhava por milhões de pessoas para saber exatamente como sofrer mutação para evitar esses anticorpos.”
Usar modelos puramente baseados em sequência para otimizar a proteína resultou em um modesto aumento de duas vezes na eficácia. Mas com sua abordagem guiada por estrutura, a equipe viu um aumento de 25 vezes.
“Estávamos finalmente alcançando o vírus”, disse Shanker, que também é membro do Programa de Treinamento de Interface Química/Biologia da Sarafan ChEM-H.
Ensinando novos truques a um modelo antigo
A maioria dos esforços no uso de IA para construir melhores medicamentos depende do “treinamento” ou “supervisão” do modelo, o que envolve gerar enormes quantidades de dados sobre a função e o desempenho de sequências de proteínas únicas. Essa abordagem leva muito tempo e resulta em um modelo adaptado para uma proteína específica que executa uma tarefa específica.
Este modelo não requer nenhuma entrada sobre o que a proteína faz, quão bem ela faz isso ou quaisquer experimentos de laboratório. Como a estrutura está tão intimamente ligada à função, as coordenadas da proteína se tornam um proxy para o desempenho. Para o trabalho do anticorpo COVID, eles restringiram a estrutura não apenas ao anticorpo em si, mas ao anticorpo quando ele está ligado ao vírus. A partir daí, seu modelo “aprendeu” algumas regras de ligação de anticorpos sem nunca precisar ser ensinado.
Os primeiros experimentos mostram que a abordagem é generalizável para outros tipos de proteínas, como enzimas, que ajudam a catalisar reações químicas em nossos corpos. Até agora, os pesquisadores descobriram que o modelo aponta os cientistas para dezenas de proteínas e, em média, metade é melhor do que o ponto inicial.
Esta ferramenta pode ser útil para responder rapidamente a doenças emergentes ou em evolução. Ela também reduz a barreira para fazer medicamentos mais eficazes. Medicamentos mais fortes significam que doses menores são necessárias, o que significa que uma determinada quantidade pode beneficiar mais pacientes. Para doenças infecciosas como o HIV, onde estudos mostraram que doses grandes, mas pouco frequentes, de um anticorpo podem proteger os pacientes da infecção, isso pode ser transformador.
A equipe está disponibilizando seu modelo e código gratuitamente para qualquer pessoa.
“Este é um exemplo emocionante do poder do aprendizado profundo para democratizar o processo de construção de proteínas melhores”, disse Shanker. “Isso não só permite que as pessoas desenvolvam novos medicamentos, mas também abre novas áreas de exploração científica que eram inacessíveis.”