Saúde

'Voando no escuro': as ferramentas de IA do hospital não estão bem documentadas
Um novo estudo revela que os modelos não estão relatando o suficiente, deixando os usuários cegos para possíveis erros do modelo, como dados de treinamento falhos e desvios de calibração.
Por Edmund L. Andrews - 27/08/2021


As ferramentas de IA médica não estão sendo documentadas com o rigor ou transparência que os profissionais de saúde dizem ser necessários. | Issei Kato

No início deste ano, hospitais nos Estados Unidos receberam notícias chocantes: um modelo de inteligência artificial amplamente usado para detectar os primeiros sinais de sepse, a infecção mortal em hospitais, estava errado com mais frequência do que certo.

Pesquisadores da Universidade de Michigan estimaram que o modelo de IA perdeu cerca de dois terços dos casos reais quando o aplicou a dados de 30.000 pacientes no hospital da universidade. Além disso, gerou um grande número de alarmes falsos.

Embora surpreendente em si mesmo, o estudo apontou para um problema mais profundo: os modelos de inteligência artificial costumam ter uma boa pontuação em testes estatísticos de precisão preditiva, mas têm um desempenho surpreendentemente ruim em ambientes médicos em tempo real.

Alguns modelos são mais precisos para pacientes do sexo masculino, brancos e ricos, geralmente porque foram treinados com dados provenientes desse grupo demográfico, do que para pacientes negros, do sexo feminino ou de baixa renda. Alguns modelos funcionam bem em uma região geográfica, mas não em outras. Muitos modelos de IA também tendem a se tornar menos precisos com o tempo, às vezes gerando um número crescente de alarmes falsos. Os pesquisadores chamam isso de " deriva de calibração".

Em um novo estudo , pesquisadores de Stanford documentam uma razão provável para esse “abismo de IA” entre a promessa e a realidade dos algoritmos: muitos modelos não estão sendo documentados com o rigor ou transparência que os médicos e os profissionais de IA dizem ser necessários. O estudo ainda não foi revisado por pares.

Em particular, o estudo descobriu que a maior parte da documentação de fundo sobre modelos amplamente usados ​​revela pouco sobre se eles foram testados quanto à imparcialidade , viés não intencional, confiabilidade de longo prazo ou mesmo  utilidade genuína .

“A comunidade de especialistas tem muito a dizer sobre o que deve ser relatado, mas há muito pouco sobre como relatá-lo”, diz Nigam H. Shah , coautor do estudo, professor de medicina e membro da o Stanford Center for Biomedical Informatics Research e o Stanford Institute for Human-Centered AI . “Não é à toa que vemos modelos inúteis, como o da sepse, sendo implantados.”

Ficando aquém das expectativas

A equipe de Stanford examinou a documentação de uma dúzia de modelos de IA para tomada de decisão clínica, todos eles em uso comercial, e os comparou com 15 conjuntos diferentes de diretrizes que os especialistas recomendaram nos últimos anos.

Os modelos foram todos desenvolvidos pela EPIC Systems, um grande provedor de serviços de registro eletrônico que se tornou um desenvolvedor líder de ferramentas de IA para provedores de cuidados de saúde. A EPIC desenvolveu o modelo de sepse que os pesquisadores de Michigan descobriram ser defeituoso, embora a empresa  tenha contestado as descobertas.

A boa notícia é que 90% dos modelos examinados aderiram amplamente às 12 recomendações mais comuns. Aqueles se referiam a informações básicas sobre o propósito pretendido da ferramenta, os dados nos quais ela foi treinada e a metodologia estatística para medir sua precisão.

No entanto, os modelos cumpriram apenas 40% do total de 220 recomendações individuais em todas as 15 diretrizes. Normalmente, um modelo atendia a cerca de metade das recomendações provenientes de qualquer diretriz específica.

Os desenvolvedores foram especialmente fracos na documentação de evidências de que seus modelos eram justos, confiáveis ​​e úteis. Além de alertar sobre essas lacunas, os pesquisadores dizem que a falta de transparência torna difícil para os prestadores de cuidados de saúde comparar diferentes ferramentas ou reproduzir e confirmar de forma independente o suposto benefício de um modelo.

“Se você pesquisar todos os medicamentos COVID em ensaios clínicos, poderá ver o desenho do estudo e o tipo de ensaio que foi”, diz Jonathan H. Lu, um estudante de medicina do terceiro ano de Stanford que foi coautor do estudo . “Você não pode fazer isso para modelos de aprendizado de máquina. Em alguns casos, os sistemas e provedores de saúde estão literalmente voando no escuro. ”

Os pesquisadores encontraram uma litania de deficiências. Entre eles:

Apenas um terço dos modelos foi testado em um ambiente diferente daquele em que foram treinados. Isso representa um sério risco de que um modelo desenvolvido em Boston seja mais sujeito a erros em Cleveland ou na Califórnia. Na verdade, outra equipe de Stanford recentemente documentou exatamente esse problema com um dispositivo alimentado por IA que analisa os raios-X em busca de sinais de colapso pulmonar.

Grande parte da documentação do modelo tem informações limitadas sobre a composição demográfica dos pacientes cujos dados foram usados ​​para desenvolver os modelos. Se o modelo se treinou apenas em dados de pessoas que tinham seguro saúde, por exemplo, pode ser menos preciso para pacientes não segurados que evitam consultas médicas sempre que possível. O mesmo se aplica a questões como pressão arterial ou mesmo status de imigração.

A maior parte da documentação do modelo não tinha informações sobre se ele foi testado para possíveis vieses ligados a raça, etnia e sexo. As iniquidades de saúde entre diferentes grupos étnicos e sexos estão bem documentadas , e a falta de testes para essas diferenças aumenta a probabilidade de que os algoritmos prolongem os mesmos vieses .

Poucos modelos forneceram informações sobre se seu desempenho muda com o tempo. Além da “deriva” que faz com que algumas ferramentas de IA comecem a exagerar os riscos, os modelos também podem ficar para trás nas mudanças na população que resultam de eventos como a pandemia COVID-19.

Em um nível mais básico, a equipe de Stanford também descobriu que a maior parte da documentação carecia de evidências concretas de utilidade. Quase nenhum, por exemplo, ofereceu uma análise dos benefícios líquidos que equilibrasse os benefícios de avisos precoces precisos com os danos de alarmes falsos.

Um caso de transparência

A equipe de Stanford defende maior transparência e a criação de mais incentivos para ser mais completo nos relatórios dos modelos. Lu sugere a criação de um painel público que resuma as divulgações, ou ausência de documentação, para todas as ferramentas de IA de saúde no mercado.

“Devemos ser capazes de dizer se um modelo desenvolvido na Duke University é melhor do que um modelo desenvolvido por outra pessoa porque atende mais às recomendações das diretrizes”, diz Lu. As associações profissionais podem decidir se endossam ou não um produto com base em quão exaustivamente ele foi documentado.

No longo prazo, Lu sugere, a transparência elevada pode desencadear uma competição virtuosa entre os desenvolvedores de IA para fazer a coisa certa - mesmo que exija um esforço adicional no início.

Além de Lu e Shah, os outros coautores do estudo são Alison Callahan, um cientista pesquisador do Center for Biomedical Informatics Research; Birju S. Patel, médica em medicina interna e pesquisadora em Stanford; Dev Dash, um médico emergencial e pesquisador em Stanford; e Keith E. Morse, professor assistente de medicina pediátrica na Stanford School of Medicine.

 

.
.

Leia mais a seguir