Synth Daily

一份重要的AI训练数据集包含了数百万条个人信息

一项新研究揭示,一个名为 DataComp CommonPool 的大型开源 AI 训练数据集,包含了数以百万计的含有个人身份信息(PII)的图片,例如护照、信用卡和个人简历。研究人员仅审查了数据集的极小一部分(0.1%)就发现了大量敏感信息,这表明通过网络抓取数据来训练 AI 模型存在着巨大的隐私风险。该发现挑战了“网上公开的信息可以被任意使用”的普遍看法,并指出现有的隐私保护措施和法律法规存在严重不足。

数据集中的海量个人信息

研究人员在一个大型 AI 图像生成训练数据集 DataComp CommonPool 中发现了严重的隐私泄露问题。这个数据集通过抓取 2014 年至 2022 年间的公开网页内容而建立。

  • 发现规模巨大: 尽管只审查了 0.1% 的数据,研究团队就发现了数千份包含个人信息的图像。他们估计,整个数据集中含有个人身份信息(包括人脸和证件)的图片数量可能高达数亿张
  • 信息类型敏感: 泄露的信息包括但不限于:
    • 信用卡、驾照、护照和出生证明等身份文件。
    • 包含联系方式、残疾状况、犯罪背景调查结果和家庭成员信息的个人简历。
  • 数据来源广泛: 该数据集的数据源与另一个著名数据集 LAION-5B(用于训练 Stable Diffusion 和 Midjourney 等模型)相同,意味着类似的隐私风险也存在于这些模型及其衍生的其他模型中。

“你放到网上的任何东西都可能,而且很可能已经被抓取了。” — William Agnew, 卡内基梅隆大学 AI 伦理学博士后研究员

现有隐私保护措施的失败

尽管 DataComp CommonPool 的创建者意识到数据集中可能存在个人信息,并采取了一些保护措施,但这些措施被证明是远远不够的。

  • 人脸模糊技术失效: 数据集虽然采用了自动人脸检测和模糊技术,但研究发现该算法在整个数据集中可能漏掉了超过 1.02 亿张人脸
  • 过滤器可被移除: 人脸模糊功能是可选的,可以被使用者关闭。
  • 元数据泄露更多信息: 图片的标题和元数据常常包含姓名和精确地理位置等更多个人信息,而这些信息并未被过滤。
  • 删除工具治标不治本: 像 Hugging Face 这样的平台提供了工具,让人们可以搜索并请求删除自己的信息。但这有两个前提:首先,人们需要知道自己的数据被收录了;其次,仅仅从训练集中删除数据,并不意味着已经训练好的模型会进行相应的更新或重新训练。

“你可以假设,任何大规模的网络抓取数据都包含了不该出现的内容。” — Abeba Birhane, 认知科学家和技术伦理学家

对“同意”和“公共数据”的重新思考

研究指出,AI 领域长期以来的一个基本假设存在问题:即任何在互联网上公开可用的信息都可以被视为公共数据,并用于任何目的。

许多被抓取的图片上传于 2020 年之前,当时的人们不可能预见到他们的数据会被用于训练今天这样的大型 AI 模型,因此也无法对此表示真正的同意

“这确实揭示了建立在公共数据之上的 AI 系统的原罪——它是榨取性的、具有误导性的,并且对那些在旧的风险框架下使用互联网的人们构成了危险。” — Ben Winters, 美国消费者联合会 AI 与隐私总监

研究者发现,“公共可用”的数据中包含了大量人们普遍认为是私密的内容:

  • 个人简历和求职信
  • 家庭博客中的照片
  • 个人证件号码
  • 关于儿童的新闻报道

法律和政策的局限性

现有的隐私法律在应对此类问题时显得力不从心。

  • 法律覆盖范围不足: 欧洲的 GDPR 和加州的 CCPA 等法规主要适用于特定规模的公司,而不一定适用于创建这些数据集的研究人员。
  • “公共可用”的漏洞: 许多法律对“公共可用”的信息有豁免条款,这正被 AI 研究领域广泛利用。
  • 缺乏统一标准: 美国没有统一的联邦数据保护法,导致不同地区的美国人享有的隐私权利也不同。

最终,这项研究呼吁机器学习社区重新审视不加选择地进行网络抓取的普遍做法,并希望能够推动政策制定者和公众重新定义在 AI 时代下“公共”与“私密”的界限。