Saúde

'Voando no escuro': as ferramentas de IA do hospital não estãobem documentadas
Um novo estudo revela que os modelos não estãorelatando o suficiente, deixando os usuários cegos para possa­veis erros do modelo, como dados de treinamento falhos e desvios de calibraça£o.
Por Edmund L. Andrews - 27/08/2021


As ferramentas de IA médica não estãosendo documentadas com o rigor ou transparaªncia que os profissionais de saúde dizem ser necessa¡rios. | Issei Kato

No ini­cio deste ano, hospitais nos Estados Unidos receberam nota­cias chocantes: um modelo de inteligaªncia artificial amplamente usado para detectar os primeiros sinais de sepse, a infecção mortal em hospitais, estava errado com mais frequência do que certo.

Pesquisadores da Universidade de Michigan estimaram que o modelo de IA perdeu cerca de dois tera§os dos casos reais quando o aplicou a dados de 30.000 pacientes no hospital da universidade. Além disso, gerou um grande número de alarmes falsos.

Embora surpreendente em si mesmo, o estudo apontou para um problema mais profundo: os modelos de inteligaªncia artificial costumam ter uma boa pontuação em testes estata­sticos de precisão preditiva, mas tem um desempenho surpreendentemente ruim em ambientes médicos em tempo real.

Alguns modelos são mais precisos para pacientes do sexo masculino, brancos e ricos, geralmente porque foram treinados com dados provenientes desse grupo demogra¡fico, do que para pacientes negros, do sexo feminino ou de baixa renda. Alguns modelos funcionam bem em uma regia£o geogra¡fica, mas não em outras. Muitos modelos de IA também tendem a se tornar menos precisos com o tempo, a s vezes gerando um número crescente de alarmes falsos. Os pesquisadores chamam isso de " deriva de calibração".

Em um novo estudo , pesquisadores de Stanford documentam uma razãoprova¡vel para esse “abismo de IA” entre a promessa e a realidade dos algoritmos: muitos modelos não estãosendo documentados com o rigor ou transparaªncia que os médicos e os profissionais de IA dizem ser necessa¡rios. O estudo ainda não foi revisado por pares.

Em particular, o estudo descobriu que a maior parte da documentação de fundo sobre modelos amplamente usados ​​revela pouco sobre se eles foram testados quanto a  imparcialidade , vianãs não intencional, confiabilidade de longo prazo ou mesmo  utilidade genua­na .

“A comunidade de especialistas tem muito a dizer sobre o que deve ser relatado, mas hámuito pouco sobre como relata¡-lo”, diz Nigam H. Shah , coautor do estudo, professor de medicina e membro da o Stanford Center for Biomedical Informatics Research e o Stanford Institute for Human-Centered AI . “Nãoéa  toa que vemos modelos inaºteis, como o da sepse, sendo implantados.”

Ficando aquanãm das expectativas

A equipe de Stanford examinou a documentação de uma daºzia de modelos de IA para tomada de decisão cla­nica, todos eles em uso comercial, e os comparou com 15 conjuntos diferentes de diretrizes que os especialistas recomendaram nos últimos anos.

Os modelos foram todos desenvolvidos pela EPIC Systems, um grande provedor de servia§os de registro eletra´nico que se tornou um desenvolvedor lider de ferramentas de IA para provedores de cuidados de saúde. A EPIC desenvolveu o modelo de sepse que os pesquisadores de Michigan descobriram ser defeituoso, embora a empresa  tenha contestado as descobertas.

A boa nota­cia éque 90% dos modelos examinados aderiram amplamente a s 12 recomendações mais comuns. Aqueles se referiam a informações ba¡sicas sobre o propa³sito pretendido da ferramenta, os dados nos quais ela foi treinada e a metodologia estata­stica para medir sua precisão.

No entanto, os modelos cumpriram apenas 40% do total de 220 recomendações individuais em todas as 15 diretrizes. Normalmente, um modelo atendia a cerca de metade das recomendações provenientes de qualquer diretriz especa­fica.

Os desenvolvedores foram especialmente fracos na documentação de evidaªncias de que seus modelos eram justos, confia¡veis ​​e aºteis. Além de alertar sobre essas lacunas, os pesquisadores dizem que a falta de transparaªncia torna difa­cil para os prestadores de cuidados de saúde comparar diferentes ferramentas ou reproduzir e confirmar de forma independente o suposto benefa­cio de um modelo.

“Se vocêpesquisar todos os medicamentos COVID em ensaios clínicos, podera¡ ver o desenho do estudo e o tipo de ensaio que foi”, diz Jonathan H. Lu, um estudante de medicina do terceiro ano de Stanford que foi coautor do estudo . “Vocaª não pode fazer isso para modelos de aprendizado de ma¡quina. Em alguns casos, os sistemas e provedores de saúde estãoliteralmente voando no escuro. ”

Os pesquisadores encontraram uma litania de deficiências. Entre eles:

Apenas um tera§o dos modelos foi testado em um ambiente diferente daquele em que foram treinados. Isso representa um sanãrio risco de que um modelo desenvolvido em Boston seja mais sujeito a erros em Cleveland ou na Califa³rnia. Na verdade, outra equipe de Stanford recentemente documentou exatamente esse problema com um dispositivo alimentado por IA que analisa os raios-X em busca de sinais de colapso pulmonar.

Grande parte da documentação do modelo tem informações limitadas sobre a composição demogra¡fica dos pacientes cujos dados foram usados ​​para desenvolver os modelos. Se o modelo se treinou apenas em dados de pessoas que tinham seguro saúde, por exemplo, pode ser menos preciso para pacientes não segurados que evitam consultas médicas sempre que possí­vel. O mesmo se aplica a questões como pressão arterial ou mesmo status de imigração.

A maior parte da documentação do modelo não tinha informações sobre se ele foi testado para possa­veis vieses ligados a raça, etnia e sexo. As iniquidades de saúde entre diferentes grupos anãtnicos e sexos estãobem documentadas , e a falta de testes para essas diferenças aumenta a probabilidade de que os algoritmos prolongem os mesmos vieses .

Poucos modelos forneceram informações sobre se seu desempenho muda com o tempo. Além da “deriva” que faz com que algumas ferramentas de IA comecem a exagerar os riscos, os modelos também podem ficar para trás nasmudanças na população que resultam de eventos como a pandemia COVID-19.

Em umnívelmais ba¡sico, a equipe de Stanford também descobriu que a maior parte da documentação carecia de evidaªncias concretas de utilidade. Quase nenhum, por exemplo, ofereceu uma análise dos benefa­cios la­quidos que equilibrasse os benefa­cios de avisos precoces precisos com os danos de alarmes falsos.

Um caso de transparaªncia

A equipe de Stanford defende maior transparaªncia e a criação de mais incentivos para ser mais completo nos relatórios dos modelos. Lu sugere a criação de um painel paºblico que resuma as divulgações, ou ausaªncia de documentação, para todas as ferramentas de IA de saúde no mercado.

“Devemos ser capazes de dizer se um modelo desenvolvido na Duke University émelhor do que um modelo desenvolvido por outra pessoa porque atende mais a s recomendações das diretrizes”, diz Lu. As associações profissionais podem decidir se endossam ou não um produto com base em quanto exaustivamente ele foi documentado.

No longo prazo, Lu sugere, a transparaªncia elevada pode desencadear uma competição virtuosa entre os desenvolvedores de IA para fazer a coisa certa - mesmo que exija um esfora§o adicional no ina­cio.

Além de Lu e Shah, os outros coautores do estudo são Alison Callahan, um cientista pesquisador do Center for Biomedical Informatics Research; Birju S. Patel, médica em medicina interna e pesquisadora em Stanford; Dev Dash, um médico emergencial e pesquisador em Stanford; e Keith E. Morse, professor assistente de medicina pedia¡trica na Stanford School of Medicine.

 

.
.

Leia mais a seguir