Tecnologia Científica

Novo método protege com eficiência dados confidenciais de treinamento de IA
A abordagem mantém a precisão do modelo de IA ao mesmo tempo em que garante que os invasores não consigam extrair informações secretas.
Por Adam Zewe - 15/04/2025


Pesquisadores do MIT aprimoraram uma técnica de privacidade de dados para que ela seja mais eficiente computacionalmente e aumente a precisão dos algoritmos de IA aos quais é aplicada. Créditos: Imagem: MIT News; iStock


A privacidade de dados tem um custo. Existem técnicas de segurança que protegem dados sensíveis de usuários, como endereços de clientes, de invasores que tentam extraí-los de modelos de IA — mas muitas vezes tornam esses modelos menos precisos.

Pesquisadores do MIT desenvolveram recentemente uma estrutura, baseada em uma nova métrica de privacidade chamada PAC Privacy, que poderia manter o desempenho de um modelo de IA e, ao mesmo tempo, garantir que dados confidenciais, como imagens médicas ou registros financeiros, permaneçam protegidos contra invasores. Agora, eles levaram esse trabalho um passo adiante, tornando sua técnica mais eficiente computacionalmente, melhorando o equilíbrio entre precisão e privacidade e criando um modelo formal que pode ser usado para privatizar praticamente qualquer algoritmo sem a necessidade de acesso ao seu funcionamento interno.

A equipe utilizou sua nova versão do PAC Privacy para privatizar vários algoritmos clássicos para análise de dados e tarefas de aprendizado de máquina.

Eles também demonstraram que algoritmos mais "estáveis" são mais fáceis de privatizar com seu método. As previsões de um algoritmo estável permanecem consistentes mesmo quando seus dados de treinamento são ligeiramente modificados. Uma maior estabilidade ajuda um algoritmo a fazer previsões mais precisas com base em dados nunca antes vistos.

Os pesquisadores dizem que a maior eficiência da nova estrutura de privacidade do PAC e o modelo de quatro etapas que pode ser seguido para implementá-la tornariam a técnica mais fácil de implementar em situações do mundo real.

“Tendemos a considerar a robustez e a privacidade como independentes, ou talvez até conflitantes, com a construção de um algoritmo de alto desempenho. Primeiro, criamos um algoritmo funcional, depois o tornamos robusto e, por fim, privado. Mostramos que essa nem sempre é a estrutura correta. Se você melhorar o desempenho do seu algoritmo em diversos cenários, poderá obter privacidade de graça”, afirma Mayuri Sridhar, estudante de pós-graduação do MIT e autora principal de um artigo sobre essa estrutura de privacidade .

Ela é acompanhada no artigo por Hanshen Xiao, PhD '24, que começará como professor assistente na Universidade Purdue no outono; e pela autora sênior Srini Devadas, Professora Edwin Sibley Webster de Engenharia Elétrica no MIT. A pesquisa será apresentada no Simpósio IEEE sobre Segurança e Privacidade.

Estimando o ruído

Para proteger dados sensíveis usados para treinar um modelo de IA, os engenheiros frequentemente adicionam ruído, ou aleatoriedade genérica, ao modelo, dificultando a adivinhação dos dados de treinamento originais por um adversário. Esse ruído reduz a precisão do modelo, portanto, quanto menos ruído for adicionado, melhor.

O PAC Privacy estima automaticamente a menor quantidade de ruído que é preciso adicionar a um algoritmo para atingir um nível desejado de privacidade.

O algoritmo original de privacidade do PAC executa o modelo de IA de um usuário diversas vezes em diferentes amostras de um conjunto de dados. Ele mede a variância, bem como as correlações entre essas diversas saídas, e usa essas informações para estimar quanto ruído precisa ser adicionado para proteger os dados.

Esta nova variante do PAC Privacy funciona da mesma maneira, mas não precisa representar toda a matriz de correlações de dados entre as saídas; ela só precisa das variâncias de saída.

"Como o que você está estimando é muito, muito menor do que toda a matriz de covariância, você pode fazer isso muito, muito mais rápido", explica Sridhar. Isso significa que é possível escalar para conjuntos de dados muito maiores.

Adicionar ruído pode prejudicar a utilidade dos resultados, sendo importante minimizar a perda de utilidade. Devido ao custo computacional, o algoritmo PAC Privacy original limitava-se à adição de ruído isotrópico, que é adicionado uniformemente em todas as direções. Como a nova variante estima o ruído anisotrópico, que é adaptado às características específicas dos dados de treinamento, um usuário poderia adicionar menos ruído geral para atingir o mesmo nível de privacidade, aumentando a precisão do algoritmo privatizado.

Privacidade e estabilidade

Ao estudar a Privacidade do PAC, Sridhar levantou a hipótese de que algoritmos mais estáveis seriam mais fáceis de privatizar com essa técnica. Ela usou a variante mais eficiente da Privacidade do PAC para testar essa teoria em vários algoritmos clássicos.

Algoritmos mais estáveis apresentam menor variância em suas saídas quando seus dados de treinamento mudam ligeiramente. O PAC Privacy divide um conjunto de dados em blocos, executa o algoritmo em cada bloco de dados e mede a variância entre as saídas. Quanto maior a variância, mais ruído deve ser adicionado para privatizar o algoritmo.

Empregar técnicas de estabilidade para diminuir a variância nas saídas de um algoritmo também reduziria a quantidade de ruído que precisa ser adicionada para privatizá-lo, explica ela.

“No melhor dos casos, podemos obter esses cenários vantajosos para todos”, diz ela.

A equipe demonstrou que essas garantias de privacidade permaneceram fortes, apesar do algoritmo testado, e que a nova variante do PAC Privacy exigiu uma ordem de magnitude menor de tentativas para estimar o ruído. Eles também testaram o método em simulações de ataque, demonstrando que suas garantias de privacidade poderiam resistir a ataques de última geração.

“Queremos explorar como algoritmos podem ser projetados em conjunto com o PAC Privacy, para que o algoritmo seja mais estável, seguro e robusto desde o início”, diz Devadas. Os pesquisadores também querem testar seu método com algoritmos mais complexos e explorar mais a fundo a relação entre privacidade e utilidade.

“A questão agora é: quando essas situações vantajosas para todos acontecem e como podemos fazer com que aconteçam com mais frequência?”, diz Sridhar.

“Acredito que a principal vantagem do PAC Privacy em relação a outras definições de privacidade nesse contexto é que ele é uma caixa-preta — você não precisa analisar manualmente cada consulta individual para privatizar os resultados. Isso pode ser feito de forma totalmente automática. Estamos construindo ativamente um banco de dados habilitado para PAC, estendendo os mecanismos SQL existentes para oferecer suporte a análises de dados privados práticas, automatizadas e eficientes”, afirma Xiangyao Yu, professor assistente do departamento de ciências da computação da Universidade de Wisconsin em Madison, que não participou deste estudo.

Esta pesquisa é apoiada, em parte, pela Cisco Systems, Capital One, Departamento de Defesa dos EUA e uma bolsa MathWorks.

 

.
.

Leia mais a seguir