英国生物银行(UK Biobank)正通过版权删除通知,要求 GitHub 移除研究人员上传的包含其参与者健康数据的敏感文件。这些泄露的文件主要包括分析笔记、基因组数据和个人健康记录,涉及全球至少14个国家的研究人员。这一系列事件凸显了在管理和保护大规模健康数据方面存在的严峻挑战,尤其是在数据共享变得普遍的今天。
泄露了哪些数据
UK Biobank 重点要求删除的是特定文件,而非整个代码库,以便符合版权侵权的删除要求。主要泄露的数据类型包括:
- 分析笔记: 接近一半是 Jupyter 或 R 笔记本,这些文件在展示代码的同时,可能无意中包含了部分原始数据。
- 基因组数据: 约四分之一是直接编码参与者基因型或关联分析结果的遗传数据文件。
- 表格数据: 大量 CSV、TSV 或 Excel 文件,其中可能包含表型信息或个人健康记录。
- 其他文件: 包括分析脚本、文档和压缩档案。
一项调查揭示了这些数据泄露的严重性:在一名志愿者的同意下,记者仅使用其出生年月和单次大手术的日期,就成功地在一个暴露的数据集中匹配到了该志愿者的记录。
谁在上传这些数据
这些数据是由世界各地的开发者或研究人员上传的。数据显示,自2025年7月以来,已有 110 份删除请求发出,涉及至少 170 名开发者。
数据泄露涉及的国家和地区分布广泛,其中以美国和中国的开发者数量最多:
- 美国:24人
- 中国:21人
- 英国:7人
- 德国:5人
- 香港:4人
- 澳大利亚:4人
- 西班牙:3人
UK Biobank 的应对措施
UK Biobank 利用 GitHub 的数字千年版权法(DMCA)流程来处理这些泄露事件。
- 当发现有内容侵犯其版权(即违反数据访问协议)时,UK Biobank 会向 GitHub 发出版权删除通知。
- 这些通知会作为公开记录发布在 GitHub 的一个专门仓库中。
- 在2026年3月底媒体曝光此事后,UK Biobank 恢复并加强了删除请求的行动,反映出其在数据治理和隐私保护方面面临的持续压力。