Tecnologia Científica

Aprendizagem profunda envolve biologia sintanãtica
Algoritmos computacionais permitem a identificaça£o e otimizaa§a£o de ferramentas baseadas em RNA para inaºmeras aplicações
Por Lindsay Brownell - 07/10/2020


Renderização.
O trabalho do membro do corpo docente principal de Wyss, Peng Yin, em colaboração com Collins e outros, demonstrou que diferentes interruptores de apoio podem ser combinados para calcular a presença de vários "gatilhos", semelhantes a  placa lógica de um computador. Crédito: Wyss Institute da Harvard University

DNA e RNA foram comparados a “manuais de instrução” contendo as informações necessa¡rias para o funcionamento de “ma¡quinas” vivas. Mas enquanto as ma¡quinas eletra´nicas como computadores e robôs são projetadas desde o ini­cio para servir a um propa³sito especa­fico, os organismos biola³gicos são governados por um conjunto de funções muito mais confuso e complexo que carece da previsibilidade do ca³digo bina¡rio. Inventar novas soluções para problemas biola³gicos requer separar varia¡veis ​​aparentemente intrata¡veis ​​- uma tarefa que éassustadora atémesmo para os cérebros humanos mais intranãpidos.

Duas equipes de cientistas do Wyss Institute da Harvard University e do Massachusetts Institute of Technology criaram caminhos para contornar esse obsta¡culo indo além do cérebro humano; eles desenvolveram um conjunto de algoritmos de aprendizado de ma¡quina que podem analisar resmas de sequaªncias de "apoio" baseadas em RNA e prever quais sera£o mais eficazes em detectar e responder a uma sequaªncia alvo desejada. Conforme relatado em dois artigos publicados simultaneamente hoje na Nature Communications, os algoritmos podem ser generaliza¡veis ​​para outros problemas na biologia sintanãtica e podem acelerar o desenvolvimento de ferramentas de biotecnologia para melhorar a ciência e a medicina e ajudar a salvar vidas. 

“Essas conquistas são empolgantes porque marcam o ponto de partida de nossa capacidade de fazer perguntas melhores sobre os princa­pios fundamentais do dobramento de RNA, que precisamos saber para alcana§ar descobertas significativas e construir tecnologias biológicas aºteis”, disse Luis Soenksen , um pa³s-doutorado bolsista do Wyss Institute e Venture Builder da Jameel Clinic do MIT, co-autor do primeiro dos dois artigos. 

 Obtendo interruptores de apoio

A colaboração entre cientistas de dados da Predictive BioAnalytics Initiative do Wyss Institute e bia³logos sintanãticos no laboratório do membro do corpo docente do Wyss Jim Collins no MIT foi criada para aplicar o poder computacional do aprendizado de ma¡quina, redes neurais e outras arquiteturas algora­tmicas a problemas complexos em biologia que atéagora desafiaram a resolução. 

Como campo de prova para sua abordagem, as duas equipes se concentraram em uma classe especa­fica de moléculas de RNA projetadas: chaves de apoio , que são dobradas em forma de grampo em seu estado "desligado". Quando uma fita de RNA complementar se liga a uma sequaªncia de "gatilho" que segue de uma extremidade do grampo de cabelo, a chave de apoio se desdobra em seu estado "ligado" e expaµe as sequaªncias que estavam anteriormente ocultas dentro do grampo de cabelo, permitindo que os ribossomos se liguem e traduzam um fluxo gene em moléculas de protea­na. Esse controle preciso sobre a expressão de genes em resposta a  presença de uma determinada molanãcula torna os interruptores do pémuito poderosos para detectar substâncias no ambiente, detectar doenças e outros propósitos.

No entanto, muitos toehold switches não funcionam muito bem quando testados experimentalmente, embora tenham sido projetados para produzir uma saa­da desejada em resposta a uma determinada entrada com base em regras de dobramento de RNA conhecidas. Reconhecendo esse problema, as equipes decidiram usar o aprendizado de ma¡quina para analisar um grande volume de sequaªncias de chave de apoio e usar os insights dessa análise para prever com mais precisão quais apoios de péexecutam de forma confia¡vel suas tarefas pretendidas, o que permitiria aos pesquisadores identificar rapidamente apoios de alta qualidade para vários experimentos.

 O primeiro obsta¡culo que eles enfrentaram foi que não havia um conjunto de dados de sequaªncias de interruptores grandes o suficiente para que as técnicas de aprendizado profundo analisassem com efica¡cia. Os autores se encarregaram de gerar um conjunto de dados que seria útil para treinar tais modelos. 

“Projetamos e sintetizamos uma enorme biblioteca de chaves de apoio, quase 100.000 no total, por amostragem sistema¡tica de regiaµes de gatilho curtas ao longo de todo o genoma de 23 va­rus e 906 fatores de transcrição humanos”, disse Alex Garruss, estudante de graduação em Harvard que trabalha no Wyss Institute quem éco-primeiro autor do primeiro artigo. “A escala sem precedentes deste conjunto de dados permite o uso de técnicas avana§adas de aprendizado de ma¡quina para identificar e compreender switches aºteis para aplicativos downstream imediatos e projetos futuros.”

Armadas com dados suficientes, as equipes primeiro empregaram ferramentas tradicionalmente usadas para analisar moléculas de RNA sintanãtico para ver se podiam prever com precisão o comportamento de chaves de apoio, agora que havia muitos outros exemplos dispona­veis. No entanto, nenhum dos manãtodos que eles tentaram - incluindo modelagem mecana­stica baseada em termodina¢mica e caracteri­sticas físicas - foram capazes de prever com precisão suficiente quais apoios de péfuncionavam melhor. 

Uma imagem vale mil pares de bases

Os pesquisadores então exploraram várias técnicas de aprendizado de ma¡quina para ver se eles poderiam criar modelos com melhores habilidades de previsão. Os autores do primeiro artigo decidiram analisar toehold switches não como sequaªncias de bases, mas sim como “imagens” bidimensionais de possibilidades de pares de bases. 

“Conhecemos as regras ba¡sicas de como os pares de bases de uma molanãcula de RNA se ligam, mas as moléculas são tortuosas - nunca tem uma única forma perfeita, mas sim uma probabilidade de diferentes formas em que poderiam ter”, disse Nicolaas Angenent-Mari, um estudante de pós-graduação do MIT trabalhando no Wyss Institute e co-autor do primeiro artigo. “Algoritmos de visão computacional se tornaram muito bons na análise de imagens, então criamos uma representação semelhante a uma imagem de todos os possa­veis estados de dobramento de cada chave de pée treinamos um algoritmo de aprendizado de ma¡quina nessas imagens para que pudesse reconhecer os padraµes sutis que indicam se um dada foto seria um bom ou um panãssimo apoio. ”

Ao usar ambos os modelos sequencialmente, os pesquisadores foram capazes de prever
quais sequaªncias de apoio produziriam sensores de alta qualidade.
Crédito: Wyss Institute da Harvard University

Outro benefa­cio de sua abordagem com base visual éque a equipe foi capaz de "ver" em quais partes de uma sequaªncia de chave de apoio o algoritmo "prestou atenção" mais ao determinar se uma determinada sequaªncia era "boa" ou "ruim". Eles chamaram essa abordagem de interpretação de Mapas de Saliaªncia de Estrutura Secunda¡ria, ou VIS4Map, e a aplicaram a todo o conjunto de dados de chave de apoio. VIS4Map identificou com sucesso os elementos fa­sicos das chaves de apoio do péque influenciaram seu desempenho e permitiu aos pesquisadores concluir que os apoios do pécom mais estruturas internas potencialmente concorrentes eram "mais vazados" e, portanto, de qualidade inferior do que aqueles com menos estruturas, fornecendo uma visão sobre os mecanismos de dobramento de RNA que não foram descobertos usando técnicas de análise tradicionais.

“Ser capaz de entender e explicar por que certas ferramentas funcionam ou não funcionam tem sido um objetivo secunda¡rio dentro da comunidade de inteligaªncia artificial por algum tempo, mas a interpretabilidade precisa estar na vanguarda de nossas preocupações ao estudar biologia, porque as razões subjacentes para aqueles os comportamentos dos sistemas muitas vezes não podem ser intua­dos ”, disse Jim Collins , o autor saªnior do primeiro artigo. “Descobertas e interrupções significativas são o resultado de uma compreensão profunda de como a natureza funciona, e este projeto demonstra que o aprendizado de ma¡quina, quando projetado e aplicado de maneira adequada, pode aumentar muito nossa capacidade de obter insights importantes sobre os sistemas biola³gicos.” Collins também éProfessor Termeer de Engenharia Manãdica e Ciência no MIT.

Agora vocêesta falando minha la­ngua

Enquanto a primeira equipe analisou as sequaªncias de switch toehold como imagens 2D para prever sua qualidade, a segunda equipe criou duas arquiteturas de aprendizado profundo diferentes que abordaram o desafio usando técnicas ortogonais. Em seguida, eles foram além de prever a qualidade dos suportes de apoio e usaram seus modelos para otimizar e redesenhar interruptores de suporte de baixo desempenho para diferentes fins, que relatam no segundo artigo.

O primeiro modelo, baseado em uma rede neural convolucional (CNN) e perceptron multicamadas (MLP), trata sequaªncias de retenção como imagens 1D, ou linhas de bases de nucleota­deos, e identifica padraµes de bases e potenciais interações entre essas bases para prever o bem e panãs ruins. A equipe usou este modelo para criar um manãtodo de otimização denominado STORM (modelo de otimização e redesenho baseado em sequaªncia), que permite o redesenho completo de uma sequaªncia de toehold a partir do zero. Essa ferramenta de “quadro em branco” éideal para gerar novos interruptores de apoio para executar uma função especa­fica como parte de um circuito genanãtico sintanãtico, permitindo a criação de ferramentas biológicas complexas. 

 “A parte realmente legal sobre o STORM e o modelo subjacente éque, após semea¡-lo com os dados de entrada do primeiro artigo, pudemos ajustar o modelo com apenas 168 amostras e usar o modelo aprimorado para otimizar as chaves de apoio. Isso questiona a suposição predominante de que vocêprecisa gerar enormes conjuntos de dados toda vez que quiser aplicar um algoritmo de aprendizado de ma¡quina a um novo problema e sugere que o aprendizado profundo épotencialmente mais aplica¡vel para bia³logos sintanãticos do que pensa¡vamos ”, disse o co-primeiro a autora Jackie Valeri, uma estudante de graduação do MIT e do Wyss Institute. 

O segundo modelo ébaseado no processamento de linguagem natural (PNL) e trata cada sequaªncia de pegada como uma “frase” que consiste em padraµes de “palavras”, eventualmente aprendendo como certas palavras são colocadas juntas para formar uma frase coerente. “Gosto de pensar em cada botão de apoio como um poema de haicai: como um haicai, éum arranjo muito especa­fico de frases dentro de sua la­ngua ma£e - neste caso, RNA. Estamos essencialmente treinando este modelo para aprender a escrever um bom haicai, alimentando-o com muitos e muitos exemplos ”, disse o co-primeiro autor Pradeep Ramesh, um pa³s-doutorando visitante no Instituto Wyss e Cientista em Aprendizado de Ma¡quina da Sherlock Biosciences. 

Ramesh e seus co-autores integraram este modelo baseado em PNL com o modelo baseado em CNN para criar NuSpeak (Nucleic Acid Speech), uma abordagem de otimização que lhes permitiu redesenhar os últimos 9 nucleota­deos de um determinado toehold switch, mantendo os 21 nucleota­deos restantes intacta. Essa técnica permite a criação de apoios para os panãs que são projetados para detectar a presença de sequaªncias de RNA patogaªnicas especa­ficas e podem ser usados ​​para desenvolver novos testes diagnósticos.

 A equipe validou experimentalmente ambas as plataformas, otimizando interruptores de suporte projetados para detectar fragmentos do genoma viral SARS-CoV-2. O NuSpeak melhorou o desempenho dos sensores em uma média de 160 por cento, enquanto o STORM criou versaµes melhores de quatro sensores de RNA viral SARS-CoV-2 “ruins”, cujo desempenho melhorou em até28 vezes.

“Um benefa­cio real das plataformas STORM e NuSpeak éque elas permitem que vocêprojete e otimize rapidamente componentes de biologia sintanãtica, como mostramos com o desenvolvimento de sensores de suporte para um diagnóstico COVID-19”, disse a co-autora Katie Collins, aluno de graduação do MIT no Wyss Institute que trabalhou com o professor associado do MIT Timothy Lu, autor correspondente do segundo artigo. 

“As abordagens baseadas em dados possibilitadas pelo aprendizado de ma¡quina abrem a porta para sinergias realmente valiosas entre ciência da computação e biologia sintanãtica, e estamos apenas comea§ando a arranhar asuperfÍcie”, disse Diogo Camacho , autor correspondente do segundo artigo que éum Cientista saªnior de bioinforma¡tica e co-lider da Predictive BioAnalytics Initiative no Wyss Institute. “Talvez o aspecto mais importante das ferramentas que desenvolvemos nestes artigos éque elas são generaliza¡veis ​​para outros tipos de sequaªncias baseadas em RNA, como promotores induta­veis e riboswitches de ocorraªncia natural e, portanto, podem ser aplicadas a uma ampla gama de problemas e oportunidades em biotecnologia e medicina.

Os autores adicionais dos artigos incluem o membro do corpo docente principal de Wyss e Professor de Genanãtica na HMS George Church ; e os alunos de pós-graduação de Wyss e MIT, Miguel Alcantar e Bianca Lepe.

“A inteligaªncia artificial éuma onda que estãoapenas comea§ando a impactar a ciência e a indústria e tem um potencial incra­vel para ajudar a resolver problemas intrata¡veis. Os avanços descritos nesses estudos demonstram o poder de mesclar computação com biologia sintanãtica na bancada para desenvolver novas e mais poderosas tecnologias bioinspiradas, além de levar a novos insights sobre mecanismos fundamentais de controle biola³gico ”, disse Don Ingber , o fundador do Wyss Institute diretor. Ingber também éprofessor de Biologia Vascular Judah Folkman na Harvard Medical School e do Programa de Biologia Vascular no Hospital Infantil de Boston, bem como professor de bioengenharia na Escola de Engenharia e Ciências Aplicadas John A. Paulson de Harvard.

Este trabalho foi apoiado pelo programa DARPA Synergistic Discovery and Design, a Defense Threat Reduction Agency, o Paul G. Allen Frontiers Group, o Wyss Institute for Biologicamente Inspired Engineering, a Harvard University, o Institute for Medical Engineering and Science, o Massachusetts Institute of Tecnologia, a Fundação Nacional de Ciência, o Instituto Nacional de Pesquisa do Genoma Humano, o Departamento de Energia, os Institutos Nacionais de Saúde e uma bolsa do CONACyT.

 

.
.

Leia mais a seguir