Tecnologia Científica

Aprendizagem profunda envolve biologia sintética
Algoritmos computacionais permitem a identificação e otimização de ferramentas baseadas em RNA para inúmeras aplicações
Por Lindsay Brownell - 07/10/2020


Renderização.
O trabalho do membro do corpo docente principal de Wyss, Peng Yin, em colaboração com Collins e outros, demonstrou que diferentes interruptores de apoio podem ser combinados para calcular a presença de vários "gatilhos", semelhantes à placa lógica de um computador. Crédito: Wyss Institute da Harvard University

DNA e RNA foram comparados a “manuais de instrução” contendo as informações necessárias para o funcionamento de “máquinas” vivas. Mas enquanto as máquinas eletrônicas como computadores e robôs são projetadas desde o início para servir a um propósito específico, os organismos biológicos são governados por um conjunto de funções muito mais confuso e complexo que carece da previsibilidade do código binário. Inventar novas soluções para problemas biológicos requer separar variáveis ​​aparentemente intratáveis ​​- uma tarefa que é assustadora até mesmo para os cérebros humanos mais intrépidos.

Duas equipes de cientistas do Wyss Institute da Harvard University e do Massachusetts Institute of Technology criaram caminhos para contornar esse obstáculo indo além do cérebro humano; eles desenvolveram um conjunto de algoritmos de aprendizado de máquina que podem analisar resmas de sequências de "apoio" baseadas em RNA e prever quais serão mais eficazes em detectar e responder a uma sequência alvo desejada. Conforme relatado em dois artigos publicados simultaneamente hoje na Nature Communications, os algoritmos podem ser generalizáveis ​​para outros problemas na biologia sintética e podem acelerar o desenvolvimento de ferramentas de biotecnologia para melhorar a ciência e a medicina e ajudar a salvar vidas. 

“Essas conquistas são empolgantes porque marcam o ponto de partida de nossa capacidade de fazer perguntas melhores sobre os princípios fundamentais do dobramento de RNA, que precisamos saber para alcançar descobertas significativas e construir tecnologias biológicas úteis”, disse Luis Soenksen , um pós-doutorado bolsista do Wyss Institute e Venture Builder da Jameel Clinic do MIT, co-autor do primeiro dos dois artigos. 

 Obtendo interruptores de apoio

A colaboração entre cientistas de dados da Predictive BioAnalytics Initiative do Wyss Institute e biólogos sintéticos no laboratório do membro do corpo docente do Wyss Jim Collins no MIT foi criada para aplicar o poder computacional do aprendizado de máquina, redes neurais e outras arquiteturas algorítmicas a problemas complexos em biologia que até agora desafiaram a resolução. 

Como campo de prova para sua abordagem, as duas equipes se concentraram em uma classe específica de moléculas de RNA projetadas: chaves de apoio , que são dobradas em forma de grampo em seu estado "desligado". Quando uma fita de RNA complementar se liga a uma sequência de "gatilho" que segue de uma extremidade do grampo de cabelo, a chave de apoio se desdobra em seu estado "ligado" e expõe as sequências que estavam anteriormente ocultas dentro do grampo de cabelo, permitindo que os ribossomos se liguem e traduzam um fluxo gene em moléculas de proteína. Esse controle preciso sobre a expressão de genes em resposta à presença de uma determinada molécula torna os interruptores do pé muito poderosos para detectar substâncias no ambiente, detectar doenças e outros propósitos.

No entanto, muitos toehold switches não funcionam muito bem quando testados experimentalmente, embora tenham sido projetados para produzir uma saída desejada em resposta a uma determinada entrada com base em regras de dobramento de RNA conhecidas. Reconhecendo esse problema, as equipes decidiram usar o aprendizado de máquina para analisar um grande volume de sequências de chave de apoio e usar os insights dessa análise para prever com mais precisão quais apoios de pé executam de forma confiável suas tarefas pretendidas, o que permitiria aos pesquisadores identificar rapidamente apoios de alta qualidade para vários experimentos.

 O primeiro obstáculo que eles enfrentaram foi que não havia um conjunto de dados de sequências de interruptores grandes o suficiente para que as técnicas de aprendizado profundo analisassem com eficácia. Os autores se encarregaram de gerar um conjunto de dados que seria útil para treinar tais modelos. 

“Projetamos e sintetizamos uma enorme biblioteca de chaves de apoio, quase 100.000 no total, por amostragem sistemática de regiões de gatilho curtas ao longo de todo o genoma de 23 vírus e 906 fatores de transcrição humanos”, disse Alex Garruss, estudante de graduação em Harvard que trabalha no Wyss Institute quem é co-primeiro autor do primeiro artigo. “A escala sem precedentes deste conjunto de dados permite o uso de técnicas avançadas de aprendizado de máquina para identificar e compreender switches úteis para aplicativos downstream imediatos e projetos futuros.”

Armadas com dados suficientes, as equipes primeiro empregaram ferramentas tradicionalmente usadas para analisar moléculas de RNA sintético para ver se podiam prever com precisão o comportamento de chaves de apoio, agora que havia muitos outros exemplos disponíveis. No entanto, nenhum dos métodos que eles tentaram - incluindo modelagem mecanística baseada em termodinâmica e características físicas - foram capazes de prever com precisão suficiente quais apoios de pé funcionavam melhor. 

Uma imagem vale mil pares de bases

Os pesquisadores então exploraram várias técnicas de aprendizado de máquina para ver se eles poderiam criar modelos com melhores habilidades de previsão. Os autores do primeiro artigo decidiram analisar toehold switches não como sequências de bases, mas sim como “imagens” bidimensionais de possibilidades de pares de bases. 

“Conhecemos as regras básicas de como os pares de bases de uma molécula de RNA se ligam, mas as moléculas são tortuosas - nunca têm uma única forma perfeita, mas sim uma probabilidade de diferentes formas em que poderiam ter”, disse Nicolaas Angenent-Mari, um estudante de pós-graduação do MIT trabalhando no Wyss Institute e co-autor do primeiro artigo. “Algoritmos de visão computacional se tornaram muito bons na análise de imagens, então criamos uma representação semelhante a uma imagem de todos os possíveis estados de dobramento de cada chave de pé e treinamos um algoritmo de aprendizado de máquina nessas imagens para que pudesse reconhecer os padrões sutis que indicam se um dada foto seria um bom ou um péssimo apoio. ”

Ao usar ambos os modelos sequencialmente, os pesquisadores foram capazes de prever
quais sequências de apoio produziriam sensores de alta qualidade.
Crédito: Wyss Institute da Harvard University

Outro benefício de sua abordagem com base visual é que a equipe foi capaz de "ver" em quais partes de uma sequência de chave de apoio o algoritmo "prestou atenção" mais ao determinar se uma determinada sequência era "boa" ou "ruim". Eles chamaram essa abordagem de interpretação de Mapas de Saliência de Estrutura Secundária, ou VIS4Map, e a aplicaram a todo o conjunto de dados de chave de apoio. VIS4Map identificou com sucesso os elementos físicos das chaves de apoio do pé que influenciaram seu desempenho e permitiu aos pesquisadores concluir que os apoios do pé com mais estruturas internas potencialmente concorrentes eram "mais vazados" e, portanto, de qualidade inferior do que aqueles com menos estruturas, fornecendo uma visão sobre os mecanismos de dobramento de RNA que não foram descobertos usando técnicas de análise tradicionais.

“Ser capaz de entender e explicar por que certas ferramentas funcionam ou não funcionam tem sido um objetivo secundário dentro da comunidade de inteligência artificial por algum tempo, mas a interpretabilidade precisa estar na vanguarda de nossas preocupações ao estudar biologia, porque as razões subjacentes para aqueles os comportamentos dos sistemas muitas vezes não podem ser intuídos ”, disse Jim Collins , o autor sênior do primeiro artigo. “Descobertas e interrupções significativas são o resultado de uma compreensão profunda de como a natureza funciona, e este projeto demonstra que o aprendizado de máquina, quando projetado e aplicado de maneira adequada, pode aumentar muito nossa capacidade de obter insights importantes sobre os sistemas biológicos.” Collins também é Professor Termeer de Engenharia Médica e Ciência no MIT.

Agora você esta falando minha língua

Enquanto a primeira equipe analisou as sequências de switch toehold como imagens 2D para prever sua qualidade, a segunda equipe criou duas arquiteturas de aprendizado profundo diferentes que abordaram o desafio usando técnicas ortogonais. Em seguida, eles foram além de prever a qualidade dos suportes de apoio e usaram seus modelos para otimizar e redesenhar interruptores de suporte de baixo desempenho para diferentes fins, que relatam no segundo artigo.

O primeiro modelo, baseado em uma rede neural convolucional (CNN) e perceptron multicamadas (MLP), trata sequências de retenção como imagens 1D, ou linhas de bases de nucleotídeos, e identifica padrões de bases e potenciais interações entre essas bases para prever o bem e pés ruins. A equipe usou este modelo para criar um método de otimização denominado STORM (modelo de otimização e redesenho baseado em sequência), que permite o redesenho completo de uma sequência de toehold a partir do zero. Essa ferramenta de “quadro em branco” é ideal para gerar novos interruptores de apoio para executar uma função específica como parte de um circuito genético sintético, permitindo a criação de ferramentas biológicas complexas. 

 “A parte realmente legal sobre o STORM e o modelo subjacente é que, após semeá-lo com os dados de entrada do primeiro artigo, pudemos ajustar o modelo com apenas 168 amostras e usar o modelo aprimorado para otimizar as chaves de apoio. Isso questiona a suposição predominante de que você precisa gerar enormes conjuntos de dados toda vez que quiser aplicar um algoritmo de aprendizado de máquina a um novo problema e sugere que o aprendizado profundo é potencialmente mais aplicável para biólogos sintéticos do que pensávamos ”, disse o co-primeiro a autora Jackie Valeri, uma estudante de graduação do MIT e do Wyss Institute. 

O segundo modelo é baseado no processamento de linguagem natural (PNL) e trata cada sequência de pegada como uma “frase” que consiste em padrões de “palavras”, eventualmente aprendendo como certas palavras são colocadas juntas para formar uma frase coerente. “Gosto de pensar em cada botão de apoio como um poema de haicai: como um haicai, é um arranjo muito específico de frases dentro de sua língua mãe - neste caso, RNA. Estamos essencialmente treinando este modelo para aprender a escrever um bom haicai, alimentando-o com muitos e muitos exemplos ”, disse o co-primeiro autor Pradeep Ramesh, um pós-doutorando visitante no Instituto Wyss e Cientista em Aprendizado de Máquina da Sherlock Biosciences. 

Ramesh e seus co-autores integraram este modelo baseado em PNL com o modelo baseado em CNN para criar NuSpeak (Nucleic Acid Speech), uma abordagem de otimização que lhes permitiu redesenhar os últimos 9 nucleotídeos de um determinado toehold switch, mantendo os 21 nucleotídeos restantes intacta. Essa técnica permite a criação de apoios para os pés que são projetados para detectar a presença de sequências de RNA patogênicas específicas e podem ser usados ​​para desenvolver novos testes diagnósticos.

 A equipe validou experimentalmente ambas as plataformas, otimizando interruptores de suporte projetados para detectar fragmentos do genoma viral SARS-CoV-2. O NuSpeak melhorou o desempenho dos sensores em uma média de 160 por cento, enquanto o STORM criou versões melhores de quatro sensores de RNA viral SARS-CoV-2 “ruins”, cujo desempenho melhorou em até 28 vezes.

“Um benefício real das plataformas STORM e NuSpeak é que elas permitem que você projete e otimize rapidamente componentes de biologia sintética, como mostramos com o desenvolvimento de sensores de suporte para um diagnóstico COVID-19”, disse a co-autora Katie Collins, aluno de graduação do MIT no Wyss Institute que trabalhou com o professor associado do MIT Timothy Lu, autor correspondente do segundo artigo. 

“As abordagens baseadas em dados possibilitadas pelo aprendizado de máquina abrem a porta para sinergias realmente valiosas entre ciência da computação e biologia sintética, e estamos apenas começando a arranhar a superfície”, disse Diogo Camacho , autor correspondente do segundo artigo que é um Cientista sênior de bioinformática e co-líder da Predictive BioAnalytics Initiative no Wyss Institute. “Talvez o aspecto mais importante das ferramentas que desenvolvemos nestes artigos é que elas são generalizáveis ​​para outros tipos de sequências baseadas em RNA, como promotores indutíveis e riboswitches de ocorrência natural e, portanto, podem ser aplicadas a uma ampla gama de problemas e oportunidades em biotecnologia e medicina.

Os autores adicionais dos artigos incluem o membro do corpo docente principal de Wyss e Professor de Genética na HMS George Church ; e os alunos de pós-graduação de Wyss e MIT, Miguel Alcantar e Bianca Lepe.

“A inteligência artificial é uma onda que está apenas começando a impactar a ciência e a indústria e tem um potencial incrível para ajudar a resolver problemas intratáveis. Os avanços descritos nesses estudos demonstram o poder de mesclar computação com biologia sintética na bancada para desenvolver novas e mais poderosas tecnologias bioinspiradas, além de levar a novos insights sobre mecanismos fundamentais de controle biológico ”, disse Don Ingber , o fundador do Wyss Institute diretor. Ingber também é professor de Biologia Vascular Judah Folkman na Harvard Medical School e do Programa de Biologia Vascular no Hospital Infantil de Boston, bem como professor de bioengenharia na Escola de Engenharia e Ciências Aplicadas John A. Paulson de Harvard.

Este trabalho foi apoiado pelo programa DARPA Synergistic Discovery and Design, a Defense Threat Reduction Agency, o Paul G. Allen Frontiers Group, o Wyss Institute for Biologicamente Inspired Engineering, a Harvard University, o Institute for Medical Engineering and Science, o Massachusetts Institute of Tecnologia, a Fundação Nacional de Ciência, o Instituto Nacional de Pesquisa do Genoma Humano, o Departamento de Energia, os Institutos Nacionais de Saúde e uma bolsa do CONACyT.