一项对主流 AI 隐形水印技术的深入调查显示,包括 Meta、谷歌和 Adobe 在内的公司所开发的算法远未达到其声称的准确性。这些系统不仅在实际测试中表现出极高的假阳性率,使其在法律或欺诈检测等关键场景中变得不可靠,而且它们都犯了一个根本性的统计错误:错误地假设 AI 生成的数据是随机独立的,而实际上它们是高度相关的。这一缺陷不仅使现有技术无法用于严肃的归属认证,也对即将推行相关技术法规的合理性提出了严峻挑战。
声称的准确性与实际测试
现代 AI 水印算法,如谷歌的 SynthID 和 Adobe 的 TrustMark,都声称具有极高的准确率,但实际测试结果却截然不同。
- 谷歌
SynthID:声称其水印的漏报率低于万分之一。然而,独立测试发现其漏报率接近二十分之一。此外,该系统只能通过其 AI 模型访问,该模型本身就存在输出结果不稳定的问题。 - Adobe
TrustMark:其宣传材料侧重于水印的抗干扰能力,而非准确性。实际测试中,TrustMark的假阳性率高达 10%-20%,这意味着一个被检测到的“水印”很可能只是随机噪声,这使得该技术在实践中几乎毫无用处。
算法工作原理
以 Meta 开源的 Stable Signature 为例,这些现代 AI 水印系统的工作方式与传统方法有所不同。
传统水印通常将数据隐藏在图像的微小细节中,如最不重要的像素位、亮度或频率变化。这种方法有可能会被图像压缩破坏,并且容易产生可见的失真。
现代方法则使用 AI 模型来嵌入数据,旨在最大程度地减少视觉失真。其基本流程是:
- 编码:将一串二进制数据(例如一个 48 位序列)作为水印。
- 嵌入:通过一个 AI 模型,智能地将这些数据隐藏在图像中,使其不易被察觉。
- 解码:使用另一个 AI 模型来检测和提取图像中隐藏的数据。
为了处理解码过程中可能出现的噪声和错误,不同系统采用了不同策略:
- 谷歌
SynthID:仅存储极少量数据,通过大量重复来提高准确性。 - Adobe
TrustMark:使用纠错码(BCH 算法)来修复数据中的小错误。 - Meta
Stable Signature:使用汉明距离(Hamming distance)来判断相似性。汉明距离指的是两个等长字符串之间不同字符的数量。如果解码出的序列与原始水印序列的汉明距离足够小,就认为匹配成功。
根据 Meta 的理论,其 48 位水印的随机碰撞率应低于百万分之一。然而,现实情况并非如此。
实际测试结果
通过对一个包含近万张真实世界图片的样本库进行测试,Stable Signature 的表现与理论预测大相径庭。
- 未发现 Meta 自身水印:测试结果中没有任何与 Meta 相关的图片(如来自 Facebook 或 Instagram)形成预期的水印聚类,这表明 Meta 可能并未在自己的产品中使用该技术。
- 出现大规模意外聚类:本应是随机分布的数据,却出现了大量意外的聚集。例如,有 25 张来源迥异但背景相似(深色背景、中心明亮)的图片,生成了完全相同的 48 位序列。这在“百万分之一”的碰撞率下是不可能发生的。
- “感知哈希”而非“水印”:这种现象表明,
Stable Signature的行为更像一个根据图像内容生成签名的“感知哈希”算法,而不是一个独立的水印系统。 - 惊人的假阳性率:在一个较小的汉明距离(6位)内,一个意外形成的聚类包含了数据集中 4.5% 的图片。总计有超过 23% 的图片都落入了各种意想不到的聚类中。如果进一步放宽标准,超过 52% 的图片会因为随机相似性而被错误地识别为“带有水印”。
核心问题:错误的统计假设
理论与现实之间的巨大差异源于一个根本性的错误:AI 生成的比特位并非独立随机的。
Meta 的研究论文在计算其“百万分之一”的低假阳性率时,基于一个核心假设:48 个比特位的每一个都像抛硬币一样,是完全独立的。但问题在于,这些比特位是由同一个神经网络生成的,这意味着它们之间存在内在的关联。
神经网络在数学上会形成一个“扭曲”的空间,其中存在天然的“吸引子”(attractors)和“排斥子”(repulsers)。这意味着某些比特组合会比其他组合更频繁地出现,形成聚类,而另一些组合则几乎永远不会出现,形成空白区域。
当神经网络无法在图像中找到明确信号时,它会倾向于输出一个默认的、非常稳定的比特序列,这形成了一个巨大的“引力井”,导致大量无关图像被错误地归入同一个聚类。实证数据显示,正是这种零信号偏置(Zero Signal Bias),导致了大约 1/22 的高错误率,而不是理论上的千万分之一。
讽刺的是,Meta 的研究人员在他们的论文中承认了这个问题:
“我们观察到,对于普通图像,(解码器)输出的比特是相关且高度偏倚的,这违反了(关于独立统计检验方法的)3.1 节的假设。”
尽管他们意识到了这个根本缺陷,但在公开发表的假阳性率分析中,却仍然使用了基于独立性假设的、过于乐观的计算模型。
普遍存在的问题
这个致命的错误并非 Meta 独有。对谷歌和 Adobe 研究论文的审阅发现,它们也犯了同样的错误。
- 谷歌
SynthID在其计算公式中也假设了数据的均匀(独立)分布,并且其论文刻意回避了对假阳性率的讨论。 - Adobe
TrustMark在其模型中使用的数学方法(二元交叉熵损失)在定义上就要求比特位之间相互独立。
这三家科技巨头、三个不同的研究团队,都在同一个基础问题上犯了错。
潜在用途与现实风险
尽管这些水印技术存在缺陷,但它们在某些内部场景下仍有一定价值。例如,公司可以用它来识别和排除自家 AI 生成的内容,以防止其“污染”未来的训练数据。在这种情况下,即使有 25% 的误判率,对于拥有海量数据的公司来说也是可以接受的。
然而,一旦将这种不准确的技术应用于高风险领域,后果将不堪设想。
“假阳性结果不会上法庭,但人会。”
- 法律与保险:保险公司如果使用这种技术来检测伪造的索赔照片,一个 1/20 的假阳性率就意味着每处理 20,000 个索赔,就可能错误地指控 1,000 个诚实的客户欺诈。这将引发巨大的法律风险和声誉灾难。
- 法律法规:欧盟、中国和美国加州等地正在立法,强制要求为 AI 生成内容添加水印。如果立法所依赖的技术基础本身就是不可靠的,那么基于这些技术进行的归属判断和欺诈检测将毫无公正性可言。
结论是明确的:目前由行业领导者推出的主流 AI 水印技术,由于其根本性的设计缺陷和被严重夸大的准确性,尚未准备好进入实际应用,尤其是在那些对可靠性有严格要求的领域。