A professora Caroline Uhler fala sobre seu trabalho no Schmidt Center, problemas complexos em matemática e a busca contínua para entender algumas das interações mais complexas da biologia.

“O cenário atual do aprendizado de máquina apresenta uma oportunidade única para abordar problemas em diferentes níveis de organização biológica, de proteínas a organismos, devido a uma revolução de dados na biologia e avanços significativos na IA”, diz Caroline Uhler. Créditos: Foto: Jiin Kang
Caroline Uhler é professora de engenharia Andrew (1956) e Erna Viterbi no MIT; professora de engenharia elétrica e ciência da computação no Instituto de Dados, Ciência e Sociedade (IDSS); e diretora do Centro Eric e Wendy Schmidt no Instituto Broad do MIT e Harvard, onde também é membro do instituto principal e da equipe de liderança científica.
Uhler se interessa por todos os métodos pelos quais os cientistas podem descobrir causalidade em sistemas biológicos, desde a descoberta causal em variáveis observadas até o aprendizado de características causais e de representação. Nesta entrevista, ela discute o aprendizado de máquina em biologia, áreas propícias à resolução de problemas e pesquisas de ponta desenvolvidas pelo Centro Schmidt.
P: O Centro Eric e Wendy Schmidt possui quatro áreas distintas de foco, estruturadas em torno de quatro níveis naturais de organização biológica: proteínas, células, tecidos e organismos. O que, no cenário atual do aprendizado de máquina, torna este o momento certo para trabalhar nessas classes específicas de problemas?
R: A biologia e a medicina estão atualmente passando por uma "revolução de dados". A disponibilidade de conjuntos de dados diversos e em larga escala — que vão desde genômica e multiômica até imagens de alta resolução e registros eletrônicos de saúde — torna este um momento oportuno. O sequenciamento de DNA barato e preciso é uma realidade, a imagem molecular avançada tornou-se rotina e a genômica de células individuais está permitindo o perfilamento de milhões de células. Essas inovações — e os enormes conjuntos de dados que elas produzem — nos levaram ao limiar de uma nova era na biologia, onde seremos capazes de ir além da caracterização das unidades da vida (como todas as proteínas, genes e tipos de células) para a compreensão dos "programas da vida", como a lógica dos circuitos gênicos e da comunicação célula-célula que fundamenta a padronização dos tecidos e os mecanismos moleculares que fundamentam o mapa genótipo-fenótipo.
Ao mesmo tempo, na última década, o aprendizado de máquina apresentou progressos notáveis, com modelos como BERT, GPT-3 e ChatGPT demonstrando capacidades avançadas na compreensão e geração de texto, enquanto transformadores de visão e modelos multimodais como o CLIP alcançaram desempenho de nível humano em tarefas relacionadas a imagens. Esses avanços fornecem projetos arquitetônicos poderosos e estratégias de treinamento que podem ser adaptados a dados biológicos. Por exemplo, transformadores podem modelar sequências genômicas semelhantes à linguagem, e modelos de visão podem analisar imagens médicas e de microscopia.
É importante ressaltar que a biologia está preparada para ser não apenas uma beneficiária do aprendizado de máquina, mas também uma fonte significativa de inspiração para novas pesquisas em ML. Assim como a agricultura e a criação de animais impulsionaram as estatísticas modernas, a biologia tem o potencial de inspirar novos e talvez até mais profundos caminhos de pesquisa em ML. Ao contrário de campos como sistemas de recomendação e publicidade na internet, onde não há leis naturais a serem descobertas e a precisão preditiva é a medida final de valor, na biologia os fenômenos são fisicamente interpretáveis ??e os mecanismos causais são o objetivo final. Além disso, a biologia possui ferramentas genéticas e químicas que permitem triagens perturbacionais em uma escala incomparável em comparação com outros campos. Essas características combinadas tornam a biologia excepcionalmente adequada para se beneficiar enormemente do ML e servir como uma profunda fonte de inspiração para ele.
P: Adotando uma abordagem um pouco diferente, quais problemas na biologia ainda são realmente resistentes ao nosso conjunto de ferramentas atual? Existem áreas, talvez desafios específicos em doenças ou bem-estar, que você considera propícias para solução?
R: O aprendizado de máquina demonstrou sucesso notável em tarefas preditivas em domínios como classificação de imagens, processamento de linguagem natural e modelagem de risco clínico. No entanto, nas ciências biológicas, a precisão preditiva é frequentemente insuficiente. As questões fundamentais nessas áreas são inerentemente causais: como uma perturbação em um gene ou via específica afeta os processos celulares subsequentes? Qual é o mecanismo pelo qual uma intervenção leva a uma alteração fenotípica? Os modelos tradicionais de aprendizado de máquina, que são otimizados principalmente para capturar associações estatísticas em dados observacionais, frequentemente falham em responder a essas consultas intervencionistas. Há uma forte necessidade de que a biologia e a medicina também inspirem novos desenvolvimentos fundamentais em aprendizado de máquina.
O campo está agora equipado com tecnologias de perturbação de alto rendimento — como telas CRISPR agrupadas, transcriptômica de célula única e perfilamento espacial — que geram conjuntos de dados ricos sob intervenções sistemáticas. Essas modalidades de dados naturalmente exigem o desenvolvimento de modelos que vão além do reconhecimento de padrões para apoiar a inferência causal, o planejamento experimental ativo e o aprendizado de representação em cenários com variáveis ??latentes complexas e estruturadas. De uma perspectiva matemática, isso requer o enfrentamento de questões centrais de identificabilidade, eficiência amostral e a integração de ferramentas combinatórias, geométricas e probabilísticas. Acredito que enfrentar esses desafios não apenas desbloqueará novos insights sobre os mecanismos dos sistemas celulares, mas também expandirá os limites teóricos do aprendizado de máquina.
Em relação aos modelos de base, há um consenso na área de que ainda estamos longe de criar um modelo de base holístico para a biologia em todas as escalas, semelhante ao que o ChatGPT representa no domínio da linguagem — uma espécie de organismo digital capaz de simular todos os fenômenos biológicos. Embora novos modelos de base surjam quase semanalmente, esses modelos têm sido especializados para uma escala e questão específicas, concentrando-se em uma ou algumas modalidades.
Progressos significativos foram alcançados na previsão de estruturas de proteínas a partir de suas sequências. Esse sucesso destacou a importância de desafios iterativos de aprendizado de máquina, como o CASP (avaliação crítica da previsão de estruturas), que têm sido fundamentais para comparar algoritmos de última geração para previsão de estruturas de proteínas e impulsionar seu aprimoramento.
O Centro Schmidt está organizando desafios para aumentar a conscientização na área de Machine Learning e avançar no desenvolvimento de métodos para resolver problemas de predição causal, tão críticos para as ciências biomédicas. Com a crescente disponibilidade de dados de perturbações de genes únicos no nível de células individuais, acredito que prever o efeito de perturbações únicas ou combinatórias, e quais perturbações poderiam conduzir a um fenótipo desejado, são problemas solucionáveis. Com nosso Desafio de Predição de Perturbação Celular (CPPC), pretendemos fornecer os meios para testar e comparar objetivamente algoritmos para prever o efeito de novas perturbações.
Outra área em que o campo tem feito avanços notáveis é o diagnóstico de doenças e a triagem de pacientes. Algoritmos de aprendizado de máquina podem integrar diferentes fontes de informação do paciente (modalidades de dados), gerar modalidades ausentes, identificar padrões que podem ser difíceis de detectar e ajudar a estratificar os pacientes com base no risco de doença. Embora devamos permanecer cautelosos quanto a potenciais vieses nas previsões de modelos, ao perigo de modelos aprenderem atalhos em vez de correlações verdadeiras e ao risco de viés de automação na tomada de decisões clínicas, acredito que esta é uma área em que o aprendizado de máquina já está tendo um impacto significativo.
P: Vamos falar sobre algumas das manchetes publicadas recentemente pelo Centro Schmidt. Quais pesquisas atuais você acha que devem deixar as pessoas particularmente entusiasmadas e por quê?
R: Em colaboração com o Dr. Fei Chen, do Broad Institute, desenvolvemos recentemente um método para a predição da localização subcelular de proteínas invisíveis, denominado PUPS. Muitos métodos existentes só conseguem fazer previsões com base nos dados específicos de proteínas e células com os quais foram treinados. O PUPS, no entanto, combina um modelo de linguagem proteica com um modelo de pintura de imagens para utilizar sequências de proteínas e imagens celulares. Demonstramos que a entrada da sequência proteica permite a generalização para proteínas invisíveis, e a entrada da imagem celular captura a variabilidade de célula única, permitindo previsões específicas para cada tipo de célula. O modelo aprende a relevância de cada resíduo de aminoácido para a localização subcelular prevista e pode prever alterações na localização devido a mutações nas sequências proteicas. Como a função das proteínas está estritamente relacionada à sua localização subcelular, nossas previsões podem fornecer insights sobre potenciais mecanismos de doenças. No futuro, pretendemos estender esse método para prever a localização de múltiplas proteínas em uma célula e, possivelmente, compreender as interações proteína-proteína.
Juntamente com o Professor GV Shivashankar, um colaborador de longa data da ETH Zurique, demonstramos anteriormente como imagens simples de células coradas com corantes fluorescentes intercalantes de DNA para marcar a cromatina podem fornecer muitas informações sobre o estado e o destino de uma célula na saúde e na doença, quando combinadas com algoritmos de aprendizado de máquina. Recentemente, aprofundamos essa observação e comprovamos a profunda ligação entre a organização da cromatina e a regulação gênica, desenvolvendo o Image2Reg, um método que permite a previsão de genes geneticamente ou quimicamente perturbados não observados a partir de imagens de cromatina. O Image2Reg utiliza redes neurais convolucionais para aprender uma representação informativa das imagens de cromatina de células perturbadas. Ele também emprega uma rede convolucional de grafos para criar um embedding gênico que captura os efeitos regulatórios dos genes com base em dados de interação proteína-proteína, integrados com dados transcriptômicos específicos do tipo de célula. Por fim, ele aprende um mapa entre a representação física e bioquímica resultante das células, permitindo-nos prever os módulos de genes perturbados com base em imagens de cromatina.
Além disso, finalizamos recentemente o desenvolvimento de um método para prever os resultados de perturbações genéticas combinatórias não observadas e identificar os tipos de interações que ocorrem entre os genes perturbados. O MORPH pode orientar o planejamento das perturbações mais informativas para experimentos de laboratório em loop. Além disso, a estrutura baseada em atenção comprovadamente permite que nosso método identifique relações causais entre os genes, fornecendo insights sobre os programas regulatórios gênicos subjacentes. Finalmente, graças à sua estrutura modular, podemos aplicar o MORPH a dados de perturbação medidos em várias modalidades, incluindo não apenas transcriptômica, mas também imagens. Estamos muito entusiasmados com o potencial deste método para permitir a exploração eficiente do espaço de perturbação para avançar nossa compreensão dos programas celulares, conectando a teoria causal a aplicações importantes, com implicações tanto para a pesquisa básica quanto para aplicações terapêuticas.