Tecnologia Científica

Com a IA, os pesquisadores preveem a localização de praticamente qualquer proteína dentro de uma célula humana
Treinado com uma compreensão conjunta do comportamento de proteínas e células, o modelo pode ajudar no diagnóstico de doenças e no desenvolvimento de novos medicamentos.
Por Adam Zewe - 21/05/2025


Pesquisadores realizaram experimentos de validação para testar seu novo modelo. A linha superior mostra a previsão do modelo de linhagens celulares e proteínas inéditas, enquanto a linha inferior mostra a validação experimental. Créditos: Imagem: Cortesia dos pesquisadores; MIT News


Uma proteína localizada na parte errada de uma célula pode contribuir para diversas doenças, como Alzheimer, fibrose cística e câncer. Mas existem cerca de 70.000 proteínas e variantes proteicas diferentes em uma única célula humana e, como os cientistas normalmente só conseguem testar algumas delas em um único experimento, identificar manualmente a localização das proteínas é extremamente custoso e demorado.

Uma nova geração de técnicas computacionais busca agilizar o processo usando modelos de aprendizado de máquina que frequentemente utilizam conjuntos de dados contendo milhares de proteínas e suas localizações, medidas em múltiplas linhagens celulares. Um dos maiores conjuntos de dados é o Atlas de Proteínas Humanas, que cataloga o comportamento subcelular de mais de 13.000 proteínas em mais de 40 linhagens celulares . No entanto, por maior que seja, o Atlas de Proteínas Humanas explorou apenas cerca de 0,25% de todos os pares possíveis de todas as proteínas e linhagens celulares do banco de dados.

Agora, pesquisadores do MIT, da Universidade Harvard e do Instituto Broad do MIT e Harvard desenvolveram uma nova abordagem computacional que pode explorar com eficiência o espaço inexplorado restante. Seu método pode prever a localização de qualquer proteína em qualquer linhagem celular humana, mesmo quando tanto a proteína quanto a célula nunca foram testadas antes.

A técnica deles vai um passo além de muitos métodos baseados em IA, localizando uma proteína no nível de uma única célula, em vez de uma estimativa média entre todas as células de um tipo específico. Essa localização em uma única célula poderia, por exemplo, identificar a localização de uma proteína em uma célula cancerosa específica após o tratamento.

Os pesquisadores combinaram um modelo de linguagem proteica com um tipo especial de modelo de visão computacional para capturar detalhes detalhados sobre uma proteína e uma célula. Ao final, o usuário recebe uma imagem de uma célula com uma parte destacada indicando a previsão do modelo sobre a localização da proteína. Como a localização de uma proteína é indicativa de seu estado funcional, essa técnica pode ajudar pesquisadores e clínicos a diagnosticar doenças ou identificar alvos de medicamentos com mais eficiência, além de permitir que biólogos entendam melhor como processos biológicos complexos estão relacionados à localização de proteínas.

"Você poderia realizar esses experimentos de localização de proteínas em um computador sem precisar tocar em nenhuma bancada de laboratório, o que, com sorte, economizaria meses de esforço. Embora ainda seja necessário verificar a previsão, essa técnica poderia funcionar como uma triagem inicial do que testar experimentalmente", diz Yitong Tseo, aluno de pós-graduação do programa de Biologia Computacional e de Sistemas do MIT e coautor principal de um artigo sobre esta pesquisa.

Tseo conta com a colaboração da coautora principal Xinyi Zhang, estudante de pós-graduação do Departamento de Engenharia Elétrica e Ciência da Computação (EECS) e do Centro Eric e Wendy Schmidt do Broad Institute; Yunhao Bai, do Broad Institute; e dos autores seniores Fei Chen, professor assistente em Harvard e membro do Broad Institute, e Caroline Uhler, professora de Engenharia Andrew e Erna Viterbi no EECS e no Instituto de Dados, Sistemas e Sociedade do MIT (IDSS), que também é diretora do Centro Eric e Wendy Schmidt e pesquisadora do Laboratório de Sistemas de Informação e Decisão (LIDS) do MIT. A pesquisa foi publicada hoje na Nature Methods .

Modelos de colaboração

Muitos modelos de previsão de proteínas existentes só conseguem fazer previsões com base nos dados de proteínas e células com os quais foram treinados ou não conseguem identificar a localização de uma proteína dentro de uma única célula.

Para superar essas limitações, os pesquisadores criaram um método de duas partes para prever a localização subcelular de proteínas invisíveis, chamado PUPS.

A primeira parte utiliza um modelo de sequência de proteínas para capturar as propriedades determinantes da localização de uma proteína e sua estrutura 3D com base na cadeia de aminoácidos que a forma.

A segunda parte incorpora um modelo de pintura de imagem, projetado para preencher partes ausentes de uma imagem. Este modelo de visão computacional analisa três imagens coradas de uma célula para coletar informações sobre o estado dessa célula, como seu tipo, características individuais e se está sob estresse.

O PUPS une as representações criadas por cada modelo para prever onde a proteína está localizada dentro de uma única célula, usando um decodificador de imagem para gerar uma imagem destacada que mostra a localização prevista.

“Células diferentes dentro de uma linhagem celular exibem características diferentes, e nosso modelo é capaz de entender essa nuance”, diz Tseo.

O usuário insere a sequência de aminoácidos que forma a proteína e três imagens de coloração celular — uma para o núcleo, uma para os microtúbulos e uma para o retículo endoplasmático. Em seguida, o PUPS faz o resto.

Uma compreensão mais profunda

Os pesquisadores empregaram alguns truques durante o processo de treinamento para ensinar os PUPS a combinar informações de cada modelo de forma que pudessem fazer uma estimativa fundamentada da localização da proteína, mesmo que nunca a tenham visto antes.

Por exemplo, eles atribuem ao modelo uma tarefa secundária durante o treinamento: nomear explicitamente o compartimento de localização, como o núcleo da célula. Isso é feito em paralelo à tarefa principal de pintura interna para ajudar o modelo a aprender com mais eficácia.

Uma boa analogia pode ser um professor que pede aos alunos que desenhem todas as partes de uma flor, além de escreverem seus nomes. Descobriu-se que essa etapa extra ajudou o modelo a melhorar sua compreensão geral dos possíveis compartimentos celulares.

Além disso, o fato de o PUPS ser treinado em proteínas e linhas celulares ao mesmo tempo ajuda a desenvolver uma compreensão mais profunda de onde as proteínas tendem a se localizar em uma imagem celular.

As PUPS podem até mesmo entender, por si só, como diferentes partes da sequência de uma proteína contribuem separadamente para sua localização geral.

"A maioria dos outros métodos geralmente exige que você tenha uma coloração da proteína primeiro, para que você já a tenha visto nos seus dados de treinamento. Nossa abordagem é única, pois permite generalizações entre proteínas e linhagens celulares simultaneamente", diz Zhang.

Como o PUPS pode ser generalizado para proteínas invisíveis, ele pode capturar mudanças na localização causadas por mutações proteicas exclusivas que não estão incluídas no Atlas de Proteínas Humanas.

Os pesquisadores verificaram que o PUPS conseguiu prever a localização subcelular de novas proteínas em linhagens celulares inéditas, conduzindo experimentos em laboratório e comparando os resultados. Além disso, quando comparado a um método de IA de base, o PUPS apresentou, em média, menos erro de predição nas proteínas testadas.

No futuro, os pesquisadores pretendem aprimorar o PUPS para que o modelo possa compreender as interações proteína-proteína e fazer previsões de localização para múltiplas proteínas dentro de uma célula. A longo prazo, eles pretendem permitir que o PUPS faça previsões em termos de tecido humano vivo, em vez de células cultivadas.

Esta pesquisa é financiada pelo Eric and Wendy Schmidt Center no Broad Institute, pelos National Institutes of Health, pela National Science Foundation, pelo Burroughs Welcome Fund, pela Searle Scholars Foundation, pelo Harvard Stem Cell Institute, pelo Merkin Institute, pelo Office of Naval Research e pelo Departamento de Energia.

 

.
.

Leia mais a seguir