Saúde

Cientistas do MIT investigam o risco de memorização na era da IA clínica
Uma nova pesquisa demonstra como os modelos de IA podem ser testados para garantir que não causem danos ao revelar dados de saúde anonimizados de pacientes.
Por Alex Ouyang - 10/01/2026


Cientistas do MIT estão desenvolvendo testes para garantir que os modelos de IA não estejam memorizando informações sensíveis de pacientes. Imagem: Alex Ouyang/MIT Jameel Clinic, com Adobe Stock


Para que serve a privacidade do paciente? O Juramento de Hipócrates, considerado um dos textos de ética médica mais antigos e conhecidos do mundo, diz: "Tudo o que eu vir ou ouvir na vida dos meus pacientes, seja em relação à minha prática profissional ou não, que não deva ser divulgado publicamente, guardarei em segredo, pois considero todas essas coisas como privadas." 

Com a privacidade se tornando cada vez mais escassa na era dos algoritmos ávidos por dados e dos ataques cibernéticos, a medicina é um dos poucos domínios restantes onde a confidencialidade continua sendo fundamental para a prática, permitindo que os pacientes confiem informações sensíveis aos seus médicos.

Mas  um artigo coescrito por pesquisadores do MIT investiga como modelos de inteligência artificial treinados com registros eletrônicos de saúde (EHRs) anonimizados podem memorizar informações específicas do paciente. O trabalho, apresentado recentemente na Conferência de Sistemas de Processamento de Informação Neural de 2025 (NeurIPS), recomenda uma configuração de teste rigorosa para garantir que os estímulos direcionados não revelem informações, enfatizando que o vazamento de dados deve ser avaliado em um contexto de saúde para determinar se compromete significativamente a privacidade do paciente.

Normalmente, os modelos básicos treinados em registros eletrônicos de saúde (EHRs) devem generalizar o conhecimento para fazer previsões melhores, utilizando diversos registros de pacientes. No entanto, na "memorização", o modelo utiliza um único registro de paciente para gerar seu resultado, o que pode violar a privacidade do paciente. É importante ressaltar que já se sabe que os modelos básicos são  propensos a vazamento de dados .

“O conhecimento contido nesses modelos de alta capacidade pode ser um recurso valioso para muitas comunidades, mas atacantes maliciosos podem induzir um modelo a extrair informações dos dados de treinamento”, afirma Sana Tonekaboni, pós-doutoranda no Centro Eric e Wendy Schmidt do Broad Institute do MIT e Harvard e primeira autora do artigo. Dado o risco de que os modelos fundamentais também possam memorizar dados privados, ela observa: “este trabalho é um passo importante para garantir que nossa comunidade possa adotar medidas práticas de avaliação antes de lançar modelos”.

Para conduzir uma pesquisa sobre o risco potencial que os modelos de base de EHR (Registros Eletrônicos de Saúde) poderiam representar na medicina, Tonekaboni contatou a professora associada do MIT,  Marzyeh Ghassemi , pesquisadora principal da Clínica Abdul Latif Jameel para Aprendizado de Máquina em Saúde (Clínica Jameel) e membro do Laboratório de Ciência da Computação e Inteligência Artificial. Ghassemi, membro do corpo docente do Departamento de Engenharia Elétrica e Ciência da Computação e do Instituto de Engenharia Médica e Ciência do MIT, dirige o  grupo Healthy ML , que se concentra em aprendizado de máquina robusto na área da saúde.

Quanta informação um agente malicioso precisa para expor dados sensíveis e quais são os riscos associados ao vazamento dessas informações? Para avaliar isso, a equipe de pesquisa desenvolveu uma série de testes que, espera-se, servirão de base para futuras avaliações de privacidade. Esses testes foram projetados para medir vários tipos de incerteza e avaliar o risco prático para os pacientes, medindo diferentes níveis de probabilidade de ataque.  

“Tentamos enfatizar bastante a praticidade aqui; se um invasor precisa saber a data e o valor de uma dúzia de exames laboratoriais do seu registro para extrair informações, o risco de danos é mínimo. Se eu já tenho acesso a esse nível de dados protegidos, por que eu precisaria atacar um modelo de base tão grande para obter mais?”, diz Ghassemi. 


Com a inevitável digitalização dos registros médicos, as violações de dados tornaram-se mais comuns. Nos últimos 24 meses, o Departamento de Saúde e Serviços Humanos dos EUA registrou 747 violações de dados de informações de saúde, afetando mais de 500 pessoas, sendo a maioria classificada como incidentes de hackers/TI.

Pacientes com condições específicas são especialmente vulneráveis, dada a facilidade com que podem ser identificados. "Mesmo com dados anonimizados, tudo depende do tipo de informação que você divulga sobre o indivíduo", diz Tonekaboni. "Uma vez que você o identifica, você sabe muito mais."

Em seus testes estruturados, os pesquisadores descobriram que quanto mais informações o invasor possui sobre um determinado paciente, maior a probabilidade de o modelo vazar informações. Eles demonstraram como distinguir casos de generalização do modelo da memorização em nível de paciente, para avaliar adequadamente o risco à privacidade. 

O artigo também enfatizou que alguns vazamentos são mais prejudiciais do que outros. Por exemplo, um modelo que revele a idade ou os dados demográficos de um paciente pode ser caracterizado como um vazamento mais benigno do que um modelo que revele informações mais sensíveis, como um diagnóstico de HIV ou abuso de álcool. 

Os pesquisadores observam que pacientes com condições específicas são especialmente vulneráveis, dada a facilidade com que podem ser identificados, o que pode exigir níveis mais elevados de proteção. "Mesmo com dados anonimizados, tudo depende do tipo de informação que vaza sobre o indivíduo", afirma Tonekaboni. Os pesquisadores planejam expandir o trabalho para torná-lo mais interdisciplinar, incluindo médicos, especialistas em privacidade e especialistas jurídicos. 

“Existe um motivo para que nossos dados de saúde sejam privados”, diz Tonekaboni. “Não há razão para que outras pessoas saibam sobre eles.”

Este trabalho foi financiado pelo Centro Eric e Wendy Schmidt do Broad Institute do MIT e Harvard, Wallenberg AI, Fundação Knut e Alice Wallenberg, Fundação Nacional de Ciência dos EUA (NSF), uma bolsa da Fundação Gordon e Betty Moore, uma bolsa Google Research Scholar e o Programa AI2050 da Schmidt Sciences. Os recursos utilizados na preparação desta pesquisa foram fornecidos, em parte, pela Província de Ontário, pelo Governo do Canadá através do CIFAR e por empresas patrocinadoras do Vector Institute.

 

.
.

Leia mais a seguir