Um novo relatório analisa os riscos da IA e oferece soluções potenciais.

O boom da IA, incluindo o advento de grandes modelos de linguagem (LLMs) e seus chatbots associados, apresenta novos desafios para a privacidade. Nossas informações pessoais fazem parte dos dados de treinamento de um modelo? Nossas instruções estão sendo compartilhadas com as autoridades? Os chatbots conectarão diversos tópicos de nossas vidas online e os enviarão para qualquer pessoa?
Para entender melhor essas ameaças e lutar com possíveis soluções, Jennifer King , pesquisadora de política de dados e privacidade do Instituto de Inteligência Artificial Centrada no Ser Humano da Universidade de Stanford (Stanford HAI), e Caroline Meinhardt, gerente de pesquisa de políticas da Stanford HAI, publicaram um white paper intitulado “ Repensando a privacidade na era da IA: provocações políticas para um mundo centrado em dados ”. Aqui, King descreve suas principais descobertas.
Que tipos de riscos enfrentamos à medida que os nossos dados são comprados, vendidos e utilizados por sistemas de IA?
Em primeiro lugar, os sistemas de IA representam muitos dos mesmos riscos de privacidade que temos enfrentado durante as últimas décadas de comercialização na Internet e, na sua maioria, de recolha desenfreada de dados. A diferença é a escala: os sistemas de IA são tão ávidos de dados e intransparentes que temos ainda menos controlo sobre que informações sobre nós são recolhidas, para que são utilizadas e como podemos corrigir ou remover essas informações pessoais. Hoje, é basicamente impossível para as pessoas que utilizam produtos ou serviços online escaparem à vigilância digital sistemática na maioria das facetas da vida – e a IA pode piorar ainda mais a situação.
Em segundo lugar, existe o risco de outros utilizarem os nossos dados e ferramentas de IA para fins antissociais. Por exemplo, ferramentas generativas de IA treinadas com dados extraídos da Internet podem memorizar informações pessoais sobre pessoas, bem como dados relacionais sobre familiares e amigos. Esses dados ajudam a permitir o spear-phishing – o direcionamento deliberado de pessoas para fins de roubo de identidade ou fraude. Os malfeitores já estão usando a clonagem de voz de IA para se passar por pessoas e depois extorqui-las por meio dos bons e antigos telefones.
Terceiro, estamos vendo dados como currículos ou fotografias que compartilhamos ou postamos para um propósito sendo reaproveitados para treinamento de sistemas de IA, muitas vezes sem nosso conhecimento ou consentimento e, às vezes, com implicações diretas nos direitos civis.
Sistemas preditivos estão sendo usados para ajudar a selecionar candidatos e ajudar os empregadores a decidir quem entrevistar para vagas em aberto. No entanto, houve casos em que a IA utilizada para ajudar na seleção de candidatos foi tendenciosa. Por exemplo, a Amazon construiu sua própria ferramenta de triagem de contratação de IA apenas para descobrir que ela era tendenciosa contra as contratações femininas.
Outro exemplo envolve o uso de reconhecimento facial para identificar e prender pessoas que cometeram crimes. É fácil pensar: “É bom ter uma ferramenta como o reconhecimento facial porque ela detectará os bandidos”. Mas, em vez disso, devido ao preconceito inerente aos dados utilizados para treinar os algoritmos de reconhecimento facial existentes, estamos a assistir a inúmeras detenções falsas de homens negros. Os algoritmos simplesmente os identificam incorretamente.
Ficamos tão insensíveis à ideia de que as empresas estão roubando todos os nossos dados que agora é tarde demais para fazer qualquer coisa?
Eu sou um otimista. Certamente muitos dados foram coletados sobre todos nós, mas isso não significa que ainda não possamos criar um sistema regulatório muito mais forte que exija que os usuários optem pela coleta de seus dados ou que obrigue as empresas a excluir dados quando for necessário, sendo mal utilizado.
Atualmente, em praticamente qualquer lugar onde você esteja online, seu movimento em diferentes sites está sendo rastreado. E se você estiver usando um aplicativo móvel e tiver o GPS ativado no seu telefone, seus dados de localização serão coletados. Este incumprimento é o resultado de a indústria ter convencido a Comissão Federal do Comércio, há cerca de 20 anos, de que, se mudássemos da recolha de dados opt-out para opt-in, nunca teríamos uma Internet comercial. Neste ponto, acho que estabelecemos a utilidade da Internet. Não creio que as empresas precisem dessa desculpa para recolher dados das pessoas.
Na minha opinião, quando estou navegando online, meus dados não devem ser coletados, a menos ou até que eu faça alguma escolha afirmativa, como inscrever-se no serviço ou criar uma conta. E mesmo assim, os meus dados não devem ser considerados públicos, a menos que eu concorde em partilhá-los.
Há dez anos, a maioria das pessoas pensava na privacidade dos dados em termos de compras online. Eles pensaram: “Não sei se me importo se essas empresas sabem o que compro e o que procuro, porque às vezes é útil”. Mas agora temos visto empresas a mudar para esta recolha de dados omnipresente que treina sistemas de IA, o que pode ter um grande impacto em toda a sociedade, especialmente nos nossos direitos civis. Não acho que seja tarde demais para reverter as coisas. Essas regras e práticas padrão não estão gravadas em pedra.
Como abordagem geral à proteção da privacidade de dados, porque não é suficiente aprovar regulamentos de minimização de dados e de limitação de finalidade que dizem que as empresas só podem recolher os dados de que necessitam para uma finalidade limitada?
Esses tipos de regras são críticos e necessários. Eles desempenham um papel fundamental na lei de privacidade europeia [o GDPR ] e no equivalente da Califórnia [o CPPA ] e são uma parte importante da lei de privacidade proposta pelo governo federal [a ADPPA ]. Mas estou preocupado com a forma como os reguladores acabam por operacionalizar estas regras.
Por exemplo, como é que um regulador avalia que uma empresa recolheu demasiada informação para a finalidade para a qual pretende utilizá-la? Em alguns casos, pode ficar claro que uma empresa exagerou completamente ao coletar dados de que não precisava. Mas é uma questão mais difícil quando as empresas (pense na Amazon ou no Google) podem realisticamente dizer que fazem muitas coisas diferentes, o que significa que podem justificar a recolha de muitos dados. Não é um problema intransponível com essas regras, mas é um problema real.
Seu white paper identifica diversas soluções possíveis para os problemas de privacidade de dados apresentados pela IA. Primeiro, você propõe uma mudança do compartilhamento de dados opt-out para o opt-in, o que poderia ser facilitado com o uso de software. Como isso funcionaria?
Eu diria que o padrão deveria ser que nossos dados não sejam coletados, a menos que solicitemos afirmativamente que sejam coletados. Houve alguns movimentos e soluções tecnológicas nessa direção.
Um deles é o App Tracking Transparency (Apple ATT) da Apple , que a Apple lançou em 2021 para resolver preocupações sobre a quantidade de dados do usuário que estavam sendo coletados por aplicativos de terceiros. Agora, quando os usuários do iPhone baixam um novo aplicativo, o sistema iOS da Apple pergunta se eles desejam permitir que o aplicativo os rastreie em outros aplicativos e sites. Os relatórios da indústria de marketing estimam que 80% a 90% das pessoas que enfrentam essa escolha dizem não.
Outra opção é que os navegadores tenham um sinal de opt-out integrado, como o Global Privacy Control, que evita a colocação de cookies por terceiros ou a venda de dados de indivíduos sem a necessidade de marcar uma caixa. Atualmente, a Lei de Proteção à Privacidade da Califórnia (CPPA) prevê que os navegadores possam incluir esse recurso, mas não é obrigatório. E embora alguns navegadores (Firefox e Brave, por exemplo) tenham um sinal de desativação integrado, as grandes empresas de navegadores (como Microsoft Edge, Safari da Apple e Google Chrome) não o fazem. Curiosamente, porém, um legislador da Califórnia propôs recentemente uma mudança no CPPA que exigiria que todos os fabricantes de navegadores respeitassem os sinais de exclusão de terceiros. É exatamente disso que precisamos para que os dados não sejam coletados por todos os atores possíveis e em todos os lugares que você frequenta.
Você também propõe adotar uma abordagem de cadeia de suprimentos para a privacidade de dados. O que você imagina que isso significaria?
Quando falo sobre a cadeia de fornecimento de dados, estou falando sobre as maneiras pelas quais os sistemas de IA levantam problemas no lado da entrada e na saída de dados. No lado da entrada, estou me referindo aos dados de treinamento, que é onde nos preocupamos se as informações pessoais de um indivíduo estão sendo extraídas da Internet e incluídas nos dados de treinamento de um sistema. Por sua vez, a presença das nossas informações pessoais no conjunto de treinamento tem potencialmente uma influência no lado da produção. Por exemplo, um sistema generativo de IA pode ter memorizado minhas informações de identificação pessoal e fornecê-las como resultado. Ou um sistema de IA generativo poderia revelar algo sobre mim baseado em uma inferência de vários pontos de dados que não são conhecidos ou conectados de outra forma e não estão relacionados a nenhuma informação pessoalmente identificável no conjunto de dados de treinamento.
Atualmente, dependemos das empresas de IA para remover informações pessoais dos seus dados de treinamento ou para estabelecer barreiras que impeçam a divulgação de informações pessoais no lado da saída. E essa não é realmente uma situação aceitável, porque dependemos deles decidirem fazer a coisa certa.
A regulamentação da IA exige que se preste atenção específica a toda a cadeia de abastecimento dos dados – não apenas para proteger a nossa privacidade, mas também para evitar preconceitos e melhorar os modelos de IA. Infelizmente, algumas das discussões que tivemos sobre a regulamentação da IA nos Estados Unidos não lidaram de forma alguma com os dados. Temos nos concentrado nos requisitos de transparência em torno da finalidade dos sistemas algorítmicos das empresas. Mesmo a Lei da IA na Europa, que já tem o GDPR como base de privacidade, não analisou de forma ampla o ecossistema de dados que alimenta a IA. Foi mencionado apenas no contexto de sistemas de IA de alto risco. Portanto, esta é uma área onde há muito trabalho a fazer se quisermos ter alguma sensação de que as nossas informações pessoais estão protegidas da inclusão em sistemas de IA, incluindo sistemas muito grandes, como modelos de fundação.
O senhor observa no seu relatório que o foco nos direitos de privacidade individuais é demasiado limitado e que precisamos de considerar soluções coletivas. O que você quer dizer?
Se quisermos dar às pessoas mais controlo sobre os seus dados num contexto em que são geradas e recolhidas enormes quantidades de dados, é claro para mim que duplicar os direitos individuais não é suficiente.
Na Califórnia, onde temos uma lei de privacidade de dados, a maioria de nós nem sabe quais direitos temos, muito menos tempo para descobrir como exercê-los. E se quiséssemos exercê-los, teríamos que fazer solicitações individuais a todas as empresas com as quais interagimos para exigir que não vendessem nossas informações pessoais – solicitações que teríamos que fazer a cada dois anos, visto que essas As opt-outs de “não vender” não são permanentes.
Tudo isto aponta para a necessidade de uma solução coletiva para que o público tenha influência suficiente para negociar os seus direitos de dados em grande escala. Para mim, o conceito de intermediário de dados faz mais sentido. Envolve delegar o poder de negociação sobre os seus direitos de dados a um coletivo que faz o trabalho para você, o que dá aos consumidores mais poder.
Já estamos vendo intermediários de dados tomarem forma em alguns contextos business-to-business e podem assumir várias formas , como administrador de dados, trust, cooperativo, colaborativo ou comum. Implementá-los no espaço do consumidor seria mais desafiador, mas não creio que seja impossível de forma alguma.