Estudo revela por que modelos de IA que analisam imagens médicas podem ser tendenciosos
Esses modelos, que podem prever a raça, o sexo e a idade de um paciente, parecem usar essas características como atalhos ao fazer diagnósticos médicos.
Os investigadores do MIT descobriram que os modelos de inteligência artificial que são mais precisos na previsão de raça e gênero a partir de imagens de raios X também mostram as maiores “lacunas de justiça”. Créditos: Imagem: MIT News; iStock
Os modelos de inteligência artificial frequentemente desempenham um papel nos diagnósticos médicos, especialmente quando se trata de análise de imagens como raios-X. No entanto, estudos descobriram que estes modelos nem sempre têm um bom desempenho em todos os grupos demográficos, geralmente tendo um desempenho pior nas mulheres e nas pessoas de cor.
Esses modelos também demonstraram desenvolver algumas habilidades surpreendentes. Em 2022, pesquisadores do MIT relataram que os modelos de IA podem fazer previsões precisas sobre a raça de um paciente a partir de radiografias de tórax – algo que os radiologistas mais qualificados não conseguem fazer.
Essa equipa de investigação descobriu agora que os modelos mais precisos na realização de previsões demográficas também mostram as maiores “lacunas de justiça” – isto é, discrepâncias na sua capacidade de diagnosticar com precisão imagens de pessoas de diferentes raças ou gêneros. As descobertas sugerem que estes modelos podem estar a utilizar “atalhos demográficos” ao fazer as suas avaliações diagnósticas, o que leva a resultados incorretos para mulheres, negros e outros grupos, dizem os investigadores.
“Está bem estabelecido que modelos de aprendizado de máquina de alta capacidade são bons preditores de dados demográficos humanos, como raça, sexo ou idade autodeclarados. Este artigo demonstra novamente essa capacidade e, em seguida, vincula essa capacidade à falta de desempenho em diferentes grupos, o que nunca foi feito”, diz Marzyeh Ghassemi, professora associada de engenharia elétrica e ciência da computação do MIT, membro do Instituto de Pesquisa do MIT. Engenharia Médica e Ciência, e autor sênior do estudo.
Os pesquisadores também descobriram que podiam retreinar os modelos de uma forma que melhorasse sua imparcialidade. No entanto, sua abordagem para “debiasing” funcionou melhor quando os modelos foram testados nos mesmos tipos de pacientes em que foram treinados, como pacientes do mesmo hospital. Quando esses modelos foram aplicados a pacientes de hospitais diferentes, as lacunas de imparcialidade reapareceram.
“Acho que as principais conclusões são, primeiro, que você deve avaliar cuidadosamente quaisquer modelos externos em seus próprios dados, porque quaisquer garantias de imparcialidade que os desenvolvedores de modelos fornecem em seus dados de treinamento podem não ser transferidas para sua população. Segundo, sempre que dados suficientes estiverem disponíveis, você deve treinar modelos em seus próprios dados”, diz Haoran Zhang, um estudante de pós-graduação do MIT e um dos principais autores do novo artigo. O estudante de pós-graduação do MIT Yuzhe Yang também é um dos principais autores do artigo, que aparece hoje na Nature Medicine . Judy Gichoya, professora associada de radiologia e ciências de imagem na Emory University School of Medicine, e Dina Katabi, a Thuan e Nicole Pham Professora de Engenharia Elétrica e Ciência da Computação no MIT, também são autoras do artigo.
Removendo preconceito
Em maio de 2024, o FDA aprovou 882 dispositivos médicos habilitados para IA, com 671 deles projetados para serem usados em radiologia. Desde 2022, quando Ghassemi e seus colegas mostraram que esses modelos de diagnóstico podem prever com precisão a raça, eles e outros pesquisadores mostraram que esses modelos também são muito bons em prever gênero e idade, mesmo que os modelos não sejam treinados nessas tarefas.
“Muitos modelos populares de aprendizado de máquina têm capacidade de previsão demográfica sobre-humana – os radiologistas não conseguem detectar raça auto-relatada em uma radiografia de tórax”, diz Ghassemi. “Esses são modelos que são bons em prever doenças, mas durante o treinamento aprendem a prever outras coisas que podem não ser desejáveis”.
Neste estudo, os pesquisadores se propuseram a explorar por que esses modelos não funcionam tão bem para certos grupos. Em particular, eles queriam ver se os modelos estavam usando atalhos demográficos para fazer previsões que acabaram sendo menos precisas para alguns grupos. Esses atalhos podem surgir em modelos de IA quando eles usam atributos demográficos para determinar se uma condição médica está presente, em vez de depender de outros recursos das imagens.
Usando conjuntos de dados de raios X de tórax disponíveis publicamente do Beth Israel Deaconess Medical Center em Boston, os pesquisadores treinaram modelos para prever se os pacientes tinham uma de três condições médicas diferentes: acúmulo de fluido nos pulmões, pulmão colapsado ou aumento do coração. Então, eles testaram os modelos em raios X que foram mantidos fora dos dados de treinamento.
No geral, os modelos tiveram um bom desempenho, mas a maioria deles apresentou “lacunas de imparcialidade” — ou seja, discrepâncias entre as taxas de precisão para homens e mulheres, e para pacientes brancos e negros.
Os modelos também foram capazes de prever o gênero, raça e idade dos indivíduos do raio X. Além disso, houve uma correlação significativa entre a precisão de cada modelo em fazer previsões demográficas e o tamanho de sua lacuna de imparcialidade. Isso sugere que os modelos podem estar usando categorizações demográficas como um atalho para fazer suas previsões de doenças.
Os investigadores tentaram então reduzir as lacunas de justiça utilizando dois tipos de estratégias. Para um conjunto de modelos, eles treinaram-nos para otimizar a “robustez do subgrupo”, o que significa que os modelos são recompensados por terem melhor desempenho no subgrupo para o qual têm o pior desempenho, e penalizados se a sua taxa de erro para um grupo for superior à outros.
Em outro conjunto de modelos, os pesquisadores os forçaram a remover qualquer informação demográfica das imagens, usando abordagens de “adversário de grupo”. Ambas as estratégias funcionaram razoavelmente bem, descobriram os pesquisadores.
“Para dados em distribuição, você pode usar métodos de última geração existentes para reduzir as lacunas de justiça sem fazer concessões significativas no desempenho geral”, diz Ghassemi. “Os métodos de robustez de subgrupos forçam os modelos a serem sensíveis à previsão incorreta de um grupo específico, e os métodos adversários de grupo tentam remover completamente as informações do grupo.”
Nem sempre mais justo
No entanto, essas abordagens só funcionaram quando os modelos foram testados em dados dos mesmos tipos de pacientes nos quais foram treinados – por exemplo, apenas pacientes do conjunto de dados do Beth Israel Deaconess Medical Center.
Quando os investigadores testaram os modelos que tinham sido “desviados” utilizando os dados do BIDMC para analisar pacientes de cinco outros conjuntos de dados hospitalares, descobriram que a precisão global dos modelos permanecia elevada, mas alguns deles apresentavam grandes lacunas de imparcialidade.
“Se você distorcer o modelo em um conjunto de pacientes, essa imparcialidade não será necessariamente mantida quando você mudar para um novo conjunto de pacientes de um hospital diferente em um local diferente”, diz Zhang.
Isso é preocupante porque, em muitos casos, os hospitais usam modelos que foram desenvolvidos com base em dados de outros hospitais, especialmente nos casos em que é adquirido um modelo pronto para uso, dizem os pesquisadores.
“Descobrimos que mesmo os modelos de última geração com desempenho ideal em dados semelhantes aos seus conjuntos de treinamento não são ideais - isto é, eles não fazem a melhor compensação entre o desempenho geral e de subgrupo - em novos ambientes, ”Ghassemi diz. “Infelizmente, é assim que um modelo provavelmente será implantado. A maioria dos modelos é treinada e validada com dados de um hospital, ou de uma fonte, e depois implantada amplamente.”
Os pesquisadores descobriram que os modelos que foram desviados usando abordagens adversárias de grupo mostraram um pouco mais de justiça quando testados em novos grupos de pacientes do que aqueles que foram desviados com métodos de robustez de subgrupos. Eles agora planejam tentar desenvolver e testar métodos adicionais para ver se conseguem criar modelos que façam um trabalho melhor ao fazer previsões justas em novos conjuntos de dados.
As descobertas sugerem que os hospitais que usam esses tipos de modelos de IA devem avaliá-los em sua própria população de pacientes antes de começar a usá-los, para garantir que não forneçam resultados imprecisos para determinados grupos.
A pesquisa foi financiada pelo Google Research Scholar Award, pelo Programa de Desenvolvimento do Corpo Docente Médico Harold Amos da Fundação Robert Wood Johnson, pela RSNA Health Disparities, pelo Lacuna Fund, pela Fundação Gordon e Betty Moore, pelo Instituto Nacional de Imagens Biomédicas e Bioengenharia e pelo National Instituto do Coração, Pulmão e Sangue.