美国商务部已下令禁止人口普查局在其统计产品中使用“噪声注入”,这直接针对的是差分隐私等随机化隐私保护技术。此举迫使统计机构在两个极端之间做出选择:要么发布的数据因过度模糊而失去实用价值,要么数据的隐私保护变得脆弱,使得个人信息更容易被重新识别。这项禁令削弱了平衡数据可用性与隐私保护的最佳工具,尤其会影响到涉及少数群体的复杂数据发布。
什么是统计产品和隐私保护?
统计产品是根据一个秘密数据集发布的数字,例如美国人口普查。这些数据集包含个人机密信息,发布的统计数据必须确保这些机密不被泄露。为了实现这一目标,统计界发展了多种“披露避免”技术。
- 抑制 (Suppression): 不发布低于特定阈值的数据(例如,人数少于 5 人的统计数据不予公布)。
- 粗化 (Coarsening): 降低数据属性的精确度(例如,将具体的出生日期转换为年龄范围)。
- 抽样 (Sampling): 从数据集中随机移除一些记录。
- 交换 (Swapping): 随机交换不同记录中的某些属性。
- 噪声添加 (Noise addition): 向统计数据中添加一个随机数,以隐藏其真实值。
这些技术的组合使用,尤其是噪声添加,是实现“差分隐私”的关键。差分隐私被科学界广泛认为是隐私保护的黄金标准。
为什么人口普查局曾选择“差分隐私”?
从 1990 年到 2010 年,美国人口普查局主要依赖数据交换技术。后来他们发现,这种技术非常不安全,攻击者很容易利用发布的统计数据重建出个人记录,这违反了联邦法律规定的保密义务。
因此,在多种替代方案中,他们为 2020 年的人口普查选择了差分隐私。做出这个选择,不是因为它在数学上多么优美。
它是在能够抵御攻击的多种方案中,保留了最多数据效用的那一个。
但这种方法也带来了问题。“在新的隐私约束下保留最多效用”不等于“和 2010 年一样有用”。统计数据变得不那么精确,而且这种不精确性变得非常透明,无法被忽视,这让许多数据使用者感到不满。
禁令将带来什么实际后果?
这项禁令的后果将是严重的,它可能同时损害数据的实用性和个人隐私。未来的统计数据要么会比过去毫无用处,要么会变得极不安全。
更糟糕的权衡: 从工具箱中拿走最好的工具,必然导致在隐私和效用之间做出更痛苦的权衡。差分隐私是目前我们拥有的最好工具,放弃它意味着在相同的隐私水平下效用更差,或在相同的效用下隐私保护更差。
其他方法也依赖噪声: 许多其他隐私保护技术,包括过去使用的数据交换和抽样,本质上也依赖于某种形式的随机性或“噪声”。
粗化和抑制是“钝器”: 禁令推崇的“粗化”和“抑制”是非常生硬的工具。对于像人口普查这样包含大量关于小群体(如少数族裔)统计数据的复杂产品,这两种方法要么会摧毁数据的全部效用,要么在隐私攻击面前不堪一击。
随机性是抵御隐私攻击的强大工具。攻击统计数据就像解一个方程组,如果所有数字都完全准确,任务就会变得非常简单。
噪声迫使攻击者必须计算概率、量化不确定性、仔细考虑基线等等。拿走它,攻击就会变得轻而易举。
为什么会发生这种情况?
原因尚不明确,但存在几种猜测:
- 一种可能是,其目标是迫使人口普查局发布能够实现个人重识别的统计数据,以帮助未来的“杰利蝾螈”(不公正的选区划分)。
- 另一种可能是,其目的是阻止发布有价值的人口统计数据,从而阻止研究人员揭示社会中存在的不公平差异。
- 根据“汉隆剃刀”原则,也可能是一种更简单的解释:统计数据发布中固有的“隐私/效用”权衡非常烦人。差分隐私让这种权衡变得明确且无法忽视。禁止它,或许只是一种假装问题不存在、希望它会自动消失的方式。