Tecnologia Científica

Acelerando descobertas orientadas por dados
As empresas de ciências da vida usam o sistema exclusivo de gerenciamento de banco de dados do Paradigm4 para descobrir novos insights sobre a saúde humana.
Por Zach Winn - 05/04/2020


O Paradigm4 permite que os usuários integrem dados de fontes como
sequenciamento genômico, medições biométricas, fatores ambientais e muito
mais em suas pesquisas para permitir novas descobertas em
vários campos das ciências da vida.'

À medida que tecnologias como sequenciamento genômico unicelular, imagem biomédica aprimorada e dispositivos médicos da "Internet das Coisas" proliferam, descobertas importantes sobre a saúde humana são cada vez mais encontradas dentro de vastos tesouros de ciências da vida e dados de saúde complexos.

Mas tirar conclusões significativas desses dados é um problema difícil que pode envolver reunir diferentes tipos de dados e manipular grandes conjuntos de dados em resposta a diversas pesquisas científicas. O problema é tanto da ciência da computação quanto de outras áreas da ciência. É aí que entra o Paradigm4.

A empresa, fundada por Marilyn Matz SM '80 e vencedor do Turing Award e pelo professor do MIT Michael Stonebraker, ajuda empresas farmacêuticas, institutos de pesquisa e empresas de biotecnologia a transformar dados em insights.

Isso é conseguido com um sistema de gerenciamento de banco de dados computacional desenvolvido desde o início para hospedar dados diversificados e multifacetados nas fronteiras da pesquisa em ciências da vida. Isso inclui dados de fontes como biobancos nacionais, ensaios clínicos, a Internet médica das coisas, atlas de células humanas, imagens médicas, fatores ambientais e multi-ômicas, um campo que inclui o estudo de genomas, microbiomas, metabolomos e muito mais.

Além da arquitetura exclusiva do sistema, a empresa também construiu ferramentas de preparação de dados, gerenciamento de metadados e análise para ajudar os usuários a encontrar os padrões e correlações importantes ocultos em todos esses números.

Em muitos casos, os clientes estão explorando conjuntos de dados que os fundadores consideram muito grandes e complexos para serem representados de maneira eficaz pelos sistemas tradicionais de gerenciamento de banco de dados.

"Estamos ansiosos para permitir que cientistas e cientistas de dados façam coisas que não podiam fazer antes, facilitando o processamento de computação em larga escala e o aprendizado de máquina em diversos dados", diz Matz. "Estamos ajudando cientistas e bioinformaticistas com pesquisa reproduzível e colaborativa a fazer e responder perguntas difíceis mais rapidamente".

Um novo paradigma

O Stonebraker é pioneiro no campo de sistemas de gerenciamento de banco de dados há décadas. Ele fundou nove empresas e suas inovações estabeleceram padrões para a maneira como os sistemas modernos permitem que as pessoas organizem e acessem grandes conjuntos de dados.

Grande parte da carreira de Stonebraker se concentrou em bancos de dados relacionais, que organizam dados em colunas e linhas. Mas, em meados dos anos 2000, o Stonebraker percebeu que muitos dados gerados seriam armazenados melhor não em linhas ou colunas, mas em matrizes multidimensionais.

Por exemplo, os satélites dividem a superfície da Terra em grandes quadrados e os sistemas de GPS rastreiam o movimento de uma pessoa através desses quadrados ao longo do tempo. Essa operação envolve medições verticais, horizontais e de tempo que não são facilmente agrupadas ou manipuladas para análise em sistemas de bancos de dados relacionais.

Stonebraker lembra seus colegas científicos reclamando que os sistemas de gerenciamento de banco de dados disponíveis eram muito lentos para trabalhar com conjuntos de dados científicos complexos em campos como genômica, onde os pesquisadores estudam as relações entre dados multi-ômicos em escala populacional, dados fenotípicos e registros médicos.

“[Os sistemas de bancos de dados relacionais] fazem a varredura horizontal ou vertical, mas não as duas”, explica Stonebraker. “Portanto, você precisa de um sistema que faça as duas coisas e que exija um gerenciador de armazenamento na parte inferior do sistema, capaz de se mover horizontal e verticalmente em uma matriz muito grande. É isso que o Paradigm4 faz. ”

Em 2008, Stonebraker começou a desenvolver um sistema de gerenciamento de banco de dados no MIT que armazenava dados em matrizes multidimensionais. Ele confirmou que a abordagem oferecia grandes vantagens em eficiência, permitindo que ferramentas analíticas baseadas em álgebra linear, incluindo muitas formas de aprendizado de máquina e processamento estatístico de dados, fossem aplicadas a enormes conjuntos de dados de novas maneiras.

Stonebraker decidiu transformar o projeto em uma empresa em 2010, quando fez uma parceria com Matz, um empresário de sucesso que co-fundou a Cognex Corporation, uma grande empresa de visão de máquina industrial que foi aberta em 1989. Os fundadores e sua equipe começaram a trabalhar na construção apresenta os principais recursos do sistema, incluindo sua arquitetura distribuída que permite a execução em servidores de baixo custo e sua capacidade de limpar e organizar automaticamente os dados de maneiras úteis para os usuários.

Os fundadores descrevem seu sistema de gerenciamento de banco de dados como um mecanismo computacional para dados científicos e o chamam de SciDB. Além do SciDB, eles desenvolveram uma plataforma de análise, chamada de mecanismo de descoberta REVEAL, com base nas atividades e aspirações diárias de pesquisa dos usuários.

“Se você é um cientista ou cientista de dados, os produtos REVEAL e SciDB da Paradigm cuidam de toda a confusão de dados e 'encanamento e fiação' computacional, para que você não precise se preocupar em acessar dados, mover dados ou configurar paralelos computação distribuída ”, diz Matz. “Seus dados estão prontos para a ciência. Basta fazer sua pergunta científica e a plataforma orquestra todo o gerenciamento e computação de dados para você. ”

O SciDB foi projetado para ser usado por cientistas e desenvolvedores, para que os usuários possam interagir com o sistema por meio de interfaces gráficas de usuário ou utilizando linguagens estatísticas e de programação como R e Python.

"Tem sido muito importante vender soluções, não blocos de construção", diz Matz. “Grande parte do nosso sucesso nas ciências da vida com os principais institutos farmacêuticos e de biotecnologia e pesquisa está trazendo a eles nosso conjunto REVEAL de soluções específicas para aplicativos para problemas. Não estamos entregando a eles uma plataforma analítica que é um conjunto de blocos LEGO; estamos dando a eles soluções que lidam com os dados com os quais lidam diariamente e soluções que usam seu vocabulário e respondem às perguntas em que desejam trabalhar. ”

Acelerando a descoberta

Hoje, os clientes da Paradigm4 incluem algumas das maiores empresas farmacêuticas e de biotecnologia do mundo, além de laboratórios de pesquisa nos Institutos Nacionais de Saúde, Stanford University e em outros lugares.

Os clientes podem integrar dados de sequenciamento genômico, medições biométricas, dados sobre fatores ambientais e muito mais em suas pesquisas para permitir novas descobertas em vários campos das ciências da vida.

Matz diz que o SciDB fez 1 bilhão de regressões lineares em menos de uma hora em um benchmark recente, e que pode escalar muito além disso, o que poderia acelerar descobertas e reduzir custos para pesquisadores que tradicionalmente tiveram que extrair seus dados de arquivos e depois confiar em métodos menos eficientes baseados em computação em nuvem para aplicar algoritmos em escala.

"Se os pesquisadores podem executar análises complexas em minutos e isso costumava levar dias, isso muda drasticamente o número de perguntas difíceis que você pode fazer e responder", diz Matz. "Esse é um multiplicador de forças que transformará a pesquisa diariamente."

Além das ciências da vida, o sistema da Paradigm4 é promissor para qualquer indústria que lide com dados multifacetados, incluindo ciências da terra, onde Matz diz que um climatologista da NASA já está usando o sistema e a Internet das coisas industrial, onde os cientistas de dados consideram grandes quantidades de dados diversos para entender sistemas de fabricação complexos . Matz diz que a empresa se concentrará mais nessas indústrias no próximo ano.

Nas ciências da vida, no entanto, os fundadores acreditam que já possuem um produto revolucionário que permite um novo mundo de descobertas. Mais adiante, eles vêem o SciDB e o REVEAL contribuindo para a pesquisa em saúde nacional e mundial que permitirá que os médicos forneçam o atendimento mais informado e personalizado que se possa imaginar.

“A consulta que todo médico deseja realizar é: quando você entra em seu consultório e apresenta um conjunto de sintomas, o médico pergunta: 'Quem neste banco de dados nacional tem genética que se parece com a minha, sintomas que se parecem com o meu, estilo de vida?' exposições que se parecem com as minhas? E qual foi o diagnóstico deles? Qual foi o tratamento deles? E qual era a morbidade deles? Stonebraker explica. "Isso está correlacionando você com todo mundo para fazer remédios muito personalizados, e acho que isso está ao nosso alcance." 

 

.
.

Leia mais a seguir