人口普查局发布的统计产品禁止使用噪声注入

美国商务部已下令禁止人口普查局在其统计产品中使用“噪声注入”，这直接针对的是差分隐私等随机化隐私保护技术。此举迫使统计机构在两个极端之间做出选择：要么发布的数据因过度模糊而失去实用价值，要么数据的隐私保护变得脆弱，使得个人信息更容易被重新识别。这项禁令削弱了平衡数据可用性与隐私保护的最佳工具，尤其会影响到涉及少数群体的复杂数据发布。

什么是统计产品和隐私保护？

统计产品是根据一个秘密数据集发布的数字，例如美国人口普查。这些数据集包含个人机密信息，发布的统计数据必须确保这些机密不被泄露。为了实现这一目标，统计界发展了多种“披露避免”技术。

抑制 (Suppression): 不发布低于特定阈值的数据（例如，人数少于 5 人的统计数据不予公布）。
粗化 (Coarsening): 降低数据属性的精确度（例如，将具体的出生日期转换为年龄范围）。
抽样 (Sampling): 从数据集中随机移除一些记录。
交换 (Swapping): 随机交换不同记录中的某些属性。
噪声添加 (Noise addition): 向统计数据中添加一个随机数，以隐藏其真实值。

这些技术的组合使用，尤其是噪声添加，是实现“差分隐私”的关键。差分隐私被科学界广泛认为是隐私保护的黄金标准。

为什么人口普查局曾选择“差分隐私”？

从 1990 年到 2010 年，美国人口普查局主要依赖数据交换技术。后来他们发现，这种技术非常不安全，攻击者很容易利用发布的统计数据重建出个人记录，这违反了联邦法律规定的保密义务。

因此，在多种替代方案中，他们为 2020 年的人口普查选择了差分隐私。做出这个选择，不是因为它在数学上多么优美。

它是在能够抵御攻击的多种方案中，保留了最多数据效用的那一个。

但这种方法也带来了问题。“在新的隐私约束下保留最多效用”不等于“和 2010 年一样有用”。统计数据变得不那么精确，而且这种不精确性变得非常透明，无法被忽视，这让许多数据使用者感到不满。

禁令将带来什么实际后果？

这项禁令的后果将是严重的，它可能同时损害数据的实用性和个人隐私。未来的统计数据要么会比过去毫无用处，要么会变得极不安全。

更糟糕的权衡： 从工具箱中拿走最好的工具，必然导致在隐私和效用之间做出更痛苦的权衡。差分隐私是目前我们拥有的最好工具，放弃它意味着在相同的隐私水平下效用更差，或在相同的效用下隐私保护更差。
其他方法也依赖噪声： 许多其他隐私保护技术，包括过去使用的数据交换和抽样，本质上也依赖于某种形式的随机性或“噪声”。
粗化和抑制是“钝器”： 禁令推崇的“粗化”和“抑制”是非常生硬的工具。对于像人口普查这样包含大量关于小群体（如少数族裔）统计数据的复杂产品，这两种方法要么会摧毁数据的全部效用，要么在隐私攻击面前不堪一击。

随机性是抵御隐私攻击的强大工具。攻击统计数据就像解一个方程组，如果所有数字都完全准确，任务就会变得非常简单。

噪声迫使攻击者必须计算概率、量化不确定性、仔细考虑基线等等。拿走它，攻击就会变得轻而易举。

为什么会发生这种情况？

原因尚不明确，但存在几种猜测：

一种可能是，其目标是迫使人口普查局发布能够实现个人重识别的统计数据，以帮助未来的“杰利蝾螈”（不公正的选区划分）。
另一种可能是，其目的是阻止发布有价值的人口统计数据，从而阻止研究人员揭示社会中存在的不公平差异。
根据“汉隆剃刀”原则，也可能是一种更简单的解释：统计数据发布中固有的“隐私/效用”权衡非常烦人。差分隐私让这种权衡变得明确且无法忽视。禁止它，或许只是一种假装问题不存在、希望它会自动消失的方式。