Meta 的“不稳定”签名

一项对主流 AI 隐形水印技术的深入调查显示，包括 Meta、谷歌和 Adobe 在内的公司所开发的算法远未达到其声称的准确性。这些系统不仅在实际测试中表现出极高的假阳性率，使其在法律或欺诈检测等关键场景中变得不可靠，而且它们都犯了一个根本性的统计错误：错误地假设 AI 生成的数据是随机独立的，而实际上它们是高度相关的。这一缺陷不仅使现有技术无法用于严肃的归属认证，也对即将推行相关技术法规的合理性提出了严峻挑战。

声称的准确性与实际测试

现代 AI 水印算法，如谷歌的 SynthID 和 Adobe 的 TrustMark，都声称具有极高的准确率，但实际测试结果却截然不同。

谷歌 SynthID：声称其水印的漏报率低于万分之一。然而，独立测试发现其漏报率接近二十分之一。此外，该系统只能通过其 AI 模型访问，该模型本身就存在输出结果不稳定的问题。
Adobe TrustMark：其宣传材料侧重于水印的抗干扰能力，而非准确性。实际测试中，TrustMark 的假阳性率高达 10%-20%，这意味着一个被检测到的“水印”很可能只是随机噪声，这使得该技术在实践中几乎毫无用处。

算法工作原理

以 Meta 开源的 Stable Signature 为例，这些现代 AI 水印系统的工作方式与传统方法有所不同。

传统水印通常将数据隐藏在图像的微小细节中，如最不重要的像素位、亮度或频率变化。这种方法有可能会被图像压缩破坏，并且容易产生可见的失真。

现代方法则使用 AI 模型来嵌入数据，旨在最大程度地减少视觉失真。其基本流程是：

编码：将一串二进制数据（例如一个 48 位序列）作为水印。
嵌入：通过一个 AI 模型，智能地将这些数据隐藏在图像中，使其不易被察觉。
解码：使用另一个 AI 模型来检测和提取图像中隐藏的数据。

为了处理解码过程中可能出现的噪声和错误，不同系统采用了不同策略：

谷歌 SynthID：仅存储极少量数据，通过大量重复来提高准确性。
Adobe TrustMark：使用纠错码（BCH 算法）来修复数据中的小错误。
Meta Stable Signature：使用汉明距离（Hamming distance）来判断相似性。汉明距离指的是两个等长字符串之间不同字符的数量。如果解码出的序列与原始水印序列的汉明距离足够小，就认为匹配成功。

根据 Meta 的理论，其 48 位水印的随机碰撞率应低于百万分之一。然而，现实情况并非如此。

实际测试结果

通过对一个包含近万张真实世界图片的样本库进行测试，Stable Signature 的表现与理论预测大相径庭。

未发现 Meta 自身水印：测试结果中没有任何与 Meta 相关的图片（如来自 Facebook 或 Instagram）形成预期的水印聚类，这表明 Meta 可能并未在自己的产品中使用该技术。
出现大规模意外聚类：本应是随机分布的数据，却出现了大量意外的聚集。例如，有 25 张来源迥异但背景相似（深色背景、中心明亮）的图片，生成了完全相同的 48 位序列。这在“百万分之一”的碰撞率下是不可能发生的。
“感知哈希”而非“水印”：这种现象表明，Stable Signature 的行为更像一个根据图像内容生成签名的“感知哈希”算法，而不是一个独立的水印系统。
惊人的假阳性率：在一个较小的汉明距离（6位）内，一个意外形成的聚类包含了数据集中 4.5% 的图片。总计有超过 23% 的图片都落入了各种意想不到的聚类中。如果进一步放宽标准，超过 52% 的图片会因为随机相似性而被错误地识别为“带有水印”。

核心问题：错误的统计假设

理论与现实之间的巨大差异源于一个根本性的错误：AI 生成的比特位并非独立随机的。

Meta 的研究论文在计算其“百万分之一”的低假阳性率时，基于一个核心假设：48 个比特位的每一个都像抛硬币一样，是完全独立的。但问题在于，这些比特位是由同一个神经网络生成的，这意味着它们之间存在内在的关联。

神经网络在数学上会形成一个“扭曲”的空间，其中存在天然的“吸引子”（attractors）和“排斥子”（repulsers）。这意味着某些比特组合会比其他组合更频繁地出现，形成聚类，而另一些组合则几乎永远不会出现，形成空白区域。

当神经网络无法在图像中找到明确信号时，它会倾向于输出一个默认的、非常稳定的比特序列，这形成了一个巨大的“引力井”，导致大量无关图像被错误地归入同一个聚类。实证数据显示，正是这种零信号偏置（Zero Signal Bias），导致了大约 1/22 的高错误率，而不是理论上的千万分之一。

讽刺的是，Meta 的研究人员在他们的论文中承认了这个问题：

“我们观察到，对于普通图像，（解码器）输出的比特是相关且高度偏倚的，这违反了（关于独立统计检验方法的）3.1 节的假设。”

尽管他们意识到了这个根本缺陷，但在公开发表的假阳性率分析中，却仍然使用了基于独立性假设的、过于乐观的计算模型。

普遍存在的问题

这个致命的错误并非 Meta 独有。对谷歌和 Adobe 研究论文的审阅发现，它们也犯了同样的错误。

谷歌 SynthID 在其计算公式中也假设了数据的均匀（独立）分布，并且其论文刻意回避了对假阳性率的讨论。
Adobe TrustMark 在其模型中使用的数学方法（二元交叉熵损失）在定义上就要求比特位之间相互独立。

这三家科技巨头、三个不同的研究团队，都在同一个基础问题上犯了错。

潜在用途与现实风险

尽管这些水印技术存在缺陷，但它们在某些内部场景下仍有一定价值。例如，公司可以用它来识别和排除自家 AI 生成的内容，以防止其“污染”未来的训练数据。在这种情况下，即使有 25% 的误判率，对于拥有海量数据的公司来说也是可以接受的。

然而，一旦将这种不准确的技术应用于高风险领域，后果将不堪设想。

“假阳性结果不会上法庭，但人会。”

法律与保险：保险公司如果使用这种技术来检测伪造的索赔照片，一个 1/20 的假阳性率就意味着每处理 20,000 个索赔，就可能错误地指控 1,000 个诚实的客户欺诈。这将引发巨大的法律风险和声誉灾难。
法律法规：欧盟、中国和美国加州等地正在立法，强制要求为 AI 生成内容添加水印。如果立法所依赖的技术基础本身就是不可靠的，那么基于这些技术进行的归属判断和欺诈检测将毫无公正性可言。

结论是明确的：目前由行业领导者推出的主流 AI 水印技术，由于其根本性的设计缺陷和被严重夸大的准确性，尚未准备好进入实际应用，尤其是在那些对可靠性有严格要求的领域。