MaisConhecer - Usando IA para 'ler' células como se fossem textos

Usando IA para 'ler' células como se fossem textos

Embora a análise de células individuais tenha avançado drasticamente na pesquisa médica, ela também produz grandes quantidades de dados que representam desafios significativos.

Para resolver isso, pesquisadores da Yale Engineering, da Yale School of Medicine e do DeepMind do Google desenvolveram o Cell2Sentence (C2S), um sistema que transforma dados multiômicos complexos em um formato de texto estruturado que pode ser lido por grandes modelos de linguagem (LLMs), permitindo que grandes modelos de linguagem processem e interpretem conjuntos de dados biológicos.

“Convertemos dados genômicos, dados de expressão de células individuais, dados de sequenciamento de RNA em massa e outras modalidades em formato textual”, disse David van Dijk, professor assistente de medicina e ciência da computação. “Em seguida, aprimoramos os LLMs existentes — originalmente treinados em linguagem natural — para compreender a 'linguagem' biológica.”

Foto da cabeça de David van Dijk.

"Existe uma 'gramática' universal subjacente a ambas [a linguagem humana e a biologia] — tudo se baseia em lógica e regras."

David Van Dijk

professor assistente de medicina e ciência da computação

Van Dijk liderou uma equipe multidisciplinar que inclui estudantes de pós-graduação e pós-doutorados em ciência da computação, medicina, estatística e ciência de dados. Um dos segredos do sucesso do C2S é o paralelo entre a linguagem humana e a biologia.

“Há uma 'gramática' universal subjacente a ambos os sistemas — tudo se baseia em lógica e regras”, explicou ele. “Na linguagem, é a sintaxe e a gramática; na biologia, são as redes de regulação genética. Vimos que modelos baseados em linguagem têm um desempenho muito melhor quando treinados dessa forma.”

Por exemplo, os pesquisadores podem inserir um conjunto de dados experimentais no C2S e perguntar: "Explique estes dados: Quais tipos de células estão presentes? Qual condição patológica eles sugerem?"

O C2S então gerará um resumo claro e em linguagem natural. "Podemos treinar esses modelos para muitas tarefas", observou van Dijk. "Nossa abordagem nos permite combinar dados biológicos — expressão gênica, informações regulatórias — e contexto clínico."

Hoje, van Dijk vê o C2S como uma ferramenta de pesquisa para a academia e a indústria farmacêutica.

“Trata-se de descobrir medicamentos e dissecar mecanismos de doenças”, disse ele. “Podemos perguntar: 'O que acontece se aplicarmos este medicamento?' ou 'E se desativarmos este gene?'”

A maior parte do trabalho acontece in silico – ou seja, como simulações computacionais; resultados promissores são posteriormente validados em laboratório. Olhando para o futuro, o C2S pode sustentar um verdadeiro "gêmeo digital" – uma simulação biológica completa e específica para cada paciente.

"É possível simular vários tratamentos, prever resultados e, então, escolher a terapia com maior probabilidade de funcionar", disse ele.

Saúde

"Existe uma 'gramática' universal subjacente a ambas [a linguagem humana e a biologia] — tudo se baseia em lógica e regras."