Um novo modelo computacional pode prever estruturas de anticorpos com mais precisão
Usando esse modelo, os pesquisadores podem identificar medicamentos com anticorpos que podem ter como alvo uma variedade de doenças infecciosas.

Uma nova técnica computacional permite que grandes modelos de linguagem prevejam estruturas de anticorpos com mais precisão. Créditos: Imagem: MIT News; iStock
Ao adaptar modelos de inteligência artificial conhecidos como modelos de linguagem grande, os pesquisadores fizeram grande progresso em sua capacidade de prever a estrutura de uma proteína a partir de sua sequência. No entanto, essa abordagem não foi tão bem-sucedida para anticorpos, em parte por causa da hipervariabilidade vista nesse tipo de proteína.
Para superar essa limitação, pesquisadores do MIT desenvolveram uma técnica computacional que permite que grandes modelos de linguagem prevejam estruturas de anticorpos com mais precisão. O trabalho deles pode permitir que pesquisadores peneirem milhões de possíveis anticorpos para identificar aqueles que podem ser usados para tratar SARS-CoV-2 e outras doenças infecciosas.
“Nosso método nos permite escalar, enquanto outros não, a ponto de realmente encontrarmos algumas agulhas no palheiro”, diz Bonnie Berger, professora de matemática da Simons, chefe do grupo de Computação e Biologia no Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT e uma das autoras seniores do novo estudo. “Se pudéssemos ajudar a impedir que as empresas farmacêuticas entrassem em testes clínicos com a coisa errada, isso realmente economizaria muito dinheiro.”
A técnica, que foca na modelagem de regiões hipervariáveis de anticorpos, também tem potencial para analisar repertórios inteiros de anticorpos de pessoas individuais. Isso pode ser útil para estudar a resposta imune de pessoas que são super respondedoras a doenças como o HIV, para ajudar a descobrir por que seus anticorpos se defendem do vírus de forma tão eficaz.
Bryan Bryson, professor associado de engenharia biológica no MIT e membro do Ragon Institute of MGH, MIT e Harvard, também é autor sênior do artigo, que aparece esta semana no Proceedings of the National Academy of Sciences . Rohit Singh, ex-cientista pesquisador do CSAIL que agora é professor assistente de bioestatística e bioinformática e biologia celular na Duke University, e Chiho Im '22 são os principais autores do artigo. Pesquisadores da Sanofi e ETH Zurich também contribuíram para a pesquisa.
Modelagem de hipervariabilidade
As proteínas consistem em longas cadeias de aminoácidos, que podem se dobrar em um número enorme de estruturas possíveis. Nos últimos anos, prever essas estruturas se tornou muito mais fácil de fazer, usando programas de inteligência artificial como o AlphaFold. Muitos desses programas, como o ESMFold e o OmegaFold, são baseados em grandes modelos de linguagem, que foram originalmente desenvolvidos para analisar grandes quantidades de texto, permitindo que eles aprendam a prever a próxima palavra em uma sequência. Essa mesma abordagem pode funcionar para sequências de proteínas — aprendendo quais estruturas de proteínas têm mais probabilidade de serem formadas a partir de diferentes padrões de aminoácidos.
No entanto, essa técnica nem sempre funciona em anticorpos, especialmente em um segmento do anticorpo conhecido como região hipervariável. Os anticorpos geralmente têm uma estrutura em forma de Y, e essas regiões hipervariáveis estão localizadas nas pontas do Y, onde detectam e se ligam a proteínas estranhas, também conhecidas como antígenos. A parte inferior do Y fornece suporte estrutural e ajuda os anticorpos a interagir com as células imunes.
Regiões hipervariáveis variam em comprimento, mas geralmente contêm menos de 40 aminoácidos. Foi estimado que o sistema imunológico humano pode produzir até 1 quintilhão de anticorpos diferentes alterando a sequência desses aminoácidos, ajudando a garantir que o corpo possa responder a uma enorme variedade de antígenos potenciais. Essas sequências não são evolutivamente restritas da mesma forma que outras sequências de proteínas, então é difícil para grandes modelos de linguagem aprenderem a prever suas estruturas com precisão.
“Parte da razão pela qual os modelos de linguagem podem prever bem a estrutura da proteína é que a evolução restringe essas sequências de maneiras nas quais o modelo pode decifrar o que essas restrições significariam”, diz Singh. “É semelhante a aprender as regras da gramática observando o contexto das palavras em uma frase, permitindo que você descubra o que isso significa.”
Para modelar essas regiões hipervariáveis, os pesquisadores criaram dois módulos que se baseiam em modelos de linguagem de proteínas existentes. Um desses módulos foi treinado em sequências hipervariáveis de cerca de 3.000 estruturas de anticorpos encontradas no Protein Data Bank (PDB), permitindo que ele aprendesse quais sequências tendem a gerar estruturas semelhantes. O outro módulo foi treinado em dados que correlacionam cerca de 3.700 sequências de anticorpos com a força com que se ligam a três antígenos diferentes.
O modelo computacional resultante, conhecido como AbMap, pode prever estruturas de anticorpos e força de ligação com base em suas sequências de aminoácidos. Para demonstrar a utilidade deste modelo, os pesquisadores o usaram para prever estruturas de anticorpos que neutralizariam fortemente a proteína spike do vírus SARS-CoV-2.
Os pesquisadores começaram com um conjunto de anticorpos que tinham sido previstos para se ligar a esse alvo, então geraram milhões de variantes alterando as regiões hipervariáveis. O modelo deles foi capaz de identificar estruturas de anticorpos que seriam as mais bem-sucedidas, com muito mais precisão do que os modelos tradicionais de estrutura de proteína baseados em grandes modelos de linguagem.
Então, os pesquisadores deram o passo adicional de agrupar os anticorpos em grupos que tinham estruturas semelhantes. Eles escolheram anticorpos de cada um desses grupos para testar experimentalmente, trabalhando com pesquisadores da Sanofi. Esses experimentos descobriram que 82% desses anticorpos tinham melhor força de ligação do que os anticorpos originais que foram para o modelo.
Identificar uma variedade de bons candidatos no início do processo de desenvolvimento pode ajudar as empresas farmacêuticas a evitar gastar muito dinheiro em testes de candidatos que acabam falhando mais tarde, dizem os pesquisadores.
“Eles não querem colocar todos os ovos na mesma cesta”, diz Singh. “Eles não querem dizer, vou pegar esse anticorpo e passar por testes pré-clínicos, e então ele acaba sendo tóxico. Eles preferem ter um conjunto de boas possibilidades e mover todas elas, para que tenham algumas escolhas se uma der errado.”
Comparando anticorpos
Usando essa técnica, os pesquisadores também poderiam tentar responder a algumas perguntas antigas sobre por que pessoas diferentes respondem à infecção de forma diferente. Por exemplo, por que algumas pessoas desenvolvem formas muito mais graves de Covid, e por que algumas pessoas que são expostas ao HIV nunca são infectadas?
Cientistas têm tentado responder a essas perguntas realizando sequenciamento de RNA de célula única de células imunes de indivíduos e comparando-as — um processo conhecido como análise de repertório de anticorpos. Trabalhos anteriores mostraram que repertórios de anticorpos de duas pessoas diferentes podem se sobrepor em até 10%. No entanto, o sequenciamento não oferece uma imagem tão abrangente do desempenho do anticorpo quanto as informações estruturais, porque dois anticorpos que têm sequências diferentes podem ter estruturas e funções semelhantes.
O novo modelo pode ajudar a resolver esse problema gerando rapidamente estruturas para todos os anticorpos encontrados em um indivíduo. Neste estudo, os pesquisadores mostraram que quando a estrutura é levada em consideração, há muito mais sobreposição entre indivíduos do que os 10 por cento vistos em comparações de sequências. Eles agora planejam investigar mais a fundo como essas estruturas podem contribuir para a resposta imunológica geral do corpo contra um patógeno específico.
“É aqui que um modelo de linguagem se encaixa muito bem porque tem a escalabilidade da análise baseada em sequência, mas se aproxima da precisão da análise baseada em estrutura”, diz Singh.
A pesquisa foi financiada pela Sanofi e pela Clínica Abdul Latif Jameel de Aprendizado de Máquina em Saúde.