Saúde

Grandes modelos de linguagem ajudam a decifrar notas clínicas
Os pesquisadores usaram um poderoso modelo de aprendizado profundo para extrair dados importantes de registros eletrônicos de saúde que poderiam ajudar na medicina personalizada.
Por Raquel Gordon - 03/12/2022


Novas pesquisas podem ajudar a tornar significativamente mais simples o uso das informações em registros eletrônicos de saúde para medicina personalizada.

Registros eletrônicos de saúde (EHRs) precisam de um novo gerente de relações públicas. Dez anos atrás, o governo dos EUA aprovou uma lei que incentivava fortemente a adoção de registros eletrônicos de saúde com a intenção de melhorar e agilizar o atendimento. A enorme quantidade de informações nesses registros agora digitais pode ser usada para responder a perguntas muito específicas além do escopo dos ensaios clínicos: qual é a dose certa desse medicamento para pacientes com essa altura e peso? E os pacientes com um perfil genômico específico?

Infelizmente, a maioria dos dados que poderiam responder a essas perguntas está presa em anotações médicas, cheias de jargões e abreviações. Essas notas são difíceis para os computadores entenderem usando as técnicas atuais – a extração de informações requer o treinamento de vários modelos de aprendizado de máquina. Os modelos treinados para um hospital também não funcionam bem em outros, e o treinamento de cada modelo exige que especialistas de domínio rotulem muitos dados, um processo caro e demorado. 

Um sistema ideal usaria um único modelo que pode extrair muitos tipos de informações, funcionar bem em vários hospitais e aprender com uma pequena quantidade de dados rotulados. Mas como? Pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT, liderados por Monica Agrawal, doutoranda em engenharia elétrica e ciência da computação, acreditavam que, para desembaraçar os dados, eles precisavam recorrer a algo maior: grandes modelos de linguagem. Para extrair essas informações médicas importantes, eles usaram um modelo muito grande no estilo GPT-3 para realizar tarefas como expandir jargões e acrônimos sobrecarregados e extrair regimes de medicamentos. 

Por exemplo, o sistema recebe uma entrada, que neste caso é uma anotação clínica, “avisa” o modelo com uma pergunta sobre a anotação, como “expandir esta abreviação, CTA”. O sistema retorna uma saída como “claro para auscultação”, em vez de uma angiografia por TC. O objetivo de extrair esses dados limpos, diz a equipe, é eventualmente permitir recomendações clínicas mais personalizadas. 

Os dados médicos são, compreensivelmente, um recurso bastante complicado para navegar livremente. Há muita burocracia em relação ao uso de recursos públicos para testar o desempenho de modelos grandes por causa das restrições de uso de dados, então a equipe decidiu reunir seus próprios. Usando um conjunto de fragmentos clínicos curtos e disponíveis publicamente, eles montaram um pequeno conjunto de dados para permitir a avaliação do desempenho de extração de grandes modelos de linguagem. 

“É um desafio desenvolver um único sistema de processamento de linguagem natural clínico de uso geral que resolva as necessidades de todos e seja robusto para a enorme variação observada nos conjuntos de dados de saúde. Como resultado, até hoje, a maioria das anotações clínicas não é usada em análises posteriores ou para suporte à decisão ao vivo em registros eletrônicos de saúde. Essas grandes abordagens de modelos de linguagem podem potencialmente transformar o processamento de linguagem natural clínica”, diz David Sontag, professor de engenharia elétrica e ciência da computação do MIT, pesquisador principal do CSAIL e do Institute for Medical Engineering and Science, e autor supervisor de um artigo sobre o trabalho, que será apresentado na Conferência sobre Métodos Empíricos em Processamento de Linguagem Natural. “Os avanços da equipe de pesquisa na extração de informações clínicas de disparo zero possibilitam o dimensionamento. Mesmo se você tiver centenas de casos de uso diferentes, não há problema — você pode criar cada modelo com alguns minutos de trabalho, em vez de ter que rotular uma tonelada de dados para essa tarefa específica.”

Por exemplo, sem nenhum rótulo, os pesquisadores descobriram que esses modelos podem atingir 86% de precisão na expansão de acrônimos sobrecarregados, e a equipe desenvolveu métodos adicionais para aumentar ainda mais a precisão de 90%, ainda sem a necessidade de rótulos.

Preso em um EHR 

Os especialistas vêm construindo modelos de linguagem grandes (LLMs) há algum tempo, mas eles estouraram no mainstream com a capacidade amplamente coberta do GPT-3 de completar sentenças. Esses LLMs são treinados em uma grande quantidade de texto da Internet para terminar frases e prever a próxima palavra mais provável. 

Embora modelos menores anteriores, como iterações GPT anteriores ou BERT, tenham obtido um bom desempenho para extrair dados médicos, eles ainda exigem um esforço manual substancial de rotulagem de dados. 

Por exemplo, uma nota, “pt will dc vanco devido a n/v” significa que este paciente (pt) estava tomando o antibiótico vancomicina (vanco), mas apresentou náuseas e vômitos (n/v) graves o suficiente para a equipe de atendimento interromper (dc) a medicação. A pesquisa da equipe evita o status quo de treinar modelos separados de aprendizado de máquina para cada tarefa (extrair medicamentos, efeitos colaterais do registro, eliminar a ambiguidade de abreviações comuns etc.). Além de expandir as abreviações, eles investigaram quatro outras tarefas, incluindo se os modelos poderiam analisar ensaios clínicos e extrair regimes de medicamentos ricos em detalhes.  

“Trabalhos anteriores mostraram que esses modelos são sensíveis ao fraseado preciso do prompt. Parte de nossa contribuição técnica é uma maneira de formatar o prompt para que o modelo forneça as saídas no formato correto”, diz Hunter Lang, aluno de doutorado do CSAIL e autor do artigo. “Para esses problemas de extração, existem espaços de saída estruturados. O espaço de saída não é apenas uma string. Pode ser uma lista. Pode ser uma citação da entrada original. Portanto, há mais estrutura do que apenas texto livre. Parte de nossa contribuição de pesquisa é encorajar o modelo a fornecer uma saída com a estrutura correta. Isso reduz significativamente o tempo de pós-processamento.”

A abordagem não pode ser aplicada a dados de saúde prontos para uso em um hospital: isso requer o envio de informações privadas do paciente pela Internet aberta para um provedor LLM como o OpenAI. Os autores mostraram que é possível contornar isso destilando o modelo em um menor que possa ser usado no local.

O modelo - às vezes como os humanos - nem sempre está em dívida com a verdade. Aqui está a aparência de um problema potencial: Digamos que você esteja perguntando o motivo pelo qual alguém tomou um remédio. Sem proteções e verificações adequadas, o modelo pode apenas mostrar o motivo mais comum para esse medicamento, se nada for explicitamente mencionado na nota. Isso levou os esforços da equipe para forçar o modelo a extrair mais citações dos dados e menos texto livre.

O trabalho futuro da equipe inclui estender para outros idiomas além do inglês, criar métodos adicionais para quantificar a incerteza no modelo e obter resultados semelhantes com modelos de código aberto. 

“As informações clínicas enterradas em notas clínicas não estruturadas têm desafios únicos em comparação com o texto de domínio geral, principalmente devido ao grande uso de siglas e padrões textuais inconsistentes usados ??em diferentes unidades de saúde”, diz Sadid Hasan, líder de IA da Microsoft e ex-diretor executivo de IA da CVS Saúde, que não participou da pesquisa. “Para esse fim, este trabalho estabelece um paradigma interessante de alavancar o poder dos modelos de linguagem de domínio geral para várias tarefas clínicas de NLP clínicas de zero/poucos disparos. Especificamente, o projeto de prompt guiado proposto de LLMs para gerar saídas mais estruturadas pode levar ao desenvolvimento de modelos implantáveis ??menores, utilizando iterativamente os pseudo-rótulos gerados pelo modelo.”

“A IA acelerou nos últimos cinco anos a ponto de esses grandes modelos poderem prever recomendações contextualizadas com benefícios que se espalham por uma variedade de domínios, como sugerir novas formulações de medicamentos, entender textos não estruturados, codificar recomendações ou criar obras de arte inspiradas em qualquer número de artistas ou estilos humanos”, diz Parminder Bhatia, que anteriormente era chefe de aprendizado de máquina na AWS Health AI e atualmente é chefe de aprendizado de máquina para aplicativos de baixo código que utilizam grandes modelos de linguagem no AWS AI Labs.

Como parte do MIT Abdul Latif Jameel Clinic for Machine Learning in Health, Agrawal, Sontag e Lang escreveram o artigo ao lado de Yoon Kim, professor assistente do MIT e investigador principal do CSAIL, e Stefan Hegselmann, estudante de doutorado visitante da Universidade de Muenster. A pesquisa do primeiro autor, Agrawal, foi apoiada por uma bolsa da Takeda, pelo MIT Deshpande Center for Technological Innovation e pelas iniciativas MLA@CSAIL.

 

.
.

Leia mais a seguir