Mercor 4TB 人工智能承包商语音样本被盗，涉4万名员工

黑客组织 Lapsus$ 泄露了约 4TB 的数据，其中包含 4 万名人工智能语音标注承包商的语音样本和身份证明文件。此次事件显著增加了 高质量语音克隆 和 身份盗用 的风险，这些数据可能被用于绕过银行的语音验证系统或实施各类电话诈骗。受影响者应立即采取行动，例如设置口头暗号、更新账户安全设置，并利用深度伪造检测工具来保护自己。

这次数据泄露为何与众不同

与以往依赖公开音视频资料不同，此次泄露的数据质量极高，包含了在录音室环境下录制的音频以及经过验证的个人身份信息。这意味着攻击者可以制作出远比以往更逼真、更具欺骗性的语音克隆。

攻击者能用被盗语音做什么？

以下威胁并非推测，而是在此次泄露事件发生前就已经在现实世界中被证实的技术。

银行验证绕过： 部分银行仍将声纹识别作为双重验证因素之一。克隆语音可以轻松通过语音验证，使攻击者只需攻破第二个（通常是基于个人信息的）验证环节。
针对雇主的语音钓鱼 (Vishing)： 攻击者可以冒充员工致电公司的人力或财务部门，试图更改工资发放账户、申请电汇或解锁工作站。
深度伪造视频通话： 2024 年，香港 Arup 公司一名财务人员在接到一个多人深度伪造视频通话后，转账了约 2500 万美元。Mercor 泄露的录音室级音频和已验证的身份，为制造此类骗局提供了比公共视频更优质的素材。
保险欺诈： 针对保险公司呼叫中心的合成语音攻击在 2025 年同比增长了 475%。汽车、人寿和伤残保险是主要目标，因为这些理赔通常通过电话处理。
针对家人的“亲情”和“祖父母”骗局： 冒充亲属并声称遇到紧急情况的诈骗电话是增长最快的类别之一。合成语音会让骗局听起来更像是家人真的遇到了麻烦。

如何检查你的语音是否被滥用

如果你曾向 Mercor 或其他 AI 训练平台上传过语音样本，请像对待泄露的密码一样对待你的声音。你无法“更换”它，但可以改变它能“解锁”的东西。

以下是你可以立即采取的措施：

自我审查公开的音频足迹： 在 YouTube、播客平台和旧的 Zoom 录音中搜索你公开的语音样本，并尽可能将它们下架。公开的参考音频越少，攻击者制作的克隆语音就越不准确。
与家人和财务联系人设立口头暗号： 选择一个从未在录音或聊天中出现过的短语。告知那些为你处理财务事务的人，任何要求转账的电话都必须先核对暗号。
更新所有使用声纹的服务： 立即删除并重新录制你在 Google Voice Match、Amazon Alexa Voice ID、Apple 个人语音以及任何银行服务中注册的声纹。最好在与泄露样本不同的声学环境中进行录制。
要求银行禁用声纹验证： 以书面形式要求银行启用结合了应用令牌或硬件密钥的多因素认证。许多银行允许客户选择退出语音验证，但很少主动宣传。
使用专业工具检测可疑录音： 如果你收到自称是熟人并要求转账、提供权限或催促你做决定的语音信息，请先使用深度伪造检测工具进行分析。

专家使用的伪造语音检测清单

当法证分析师收到一个样本时，他们会首先检查以下几个方面，这些都是合成语音即使听起来很真实也容易出错的地方：

编码器不匹配： 音频声称来自电话通话，但其频谱特征与任何已知的电话编码器都不符。
呼吸模式： 真人说话时会根据短语长度和肺活量在可预测的点吸气。合成语音常常会跳过呼吸或在错误的音节边界插入呼吸。
微小抖动： 真实声带的振动存在微小的不规则性，而生成音频在毫秒级别上往往过于“干净”。
共振峰轨迹： 在真实口腔中，元音之间的转换遵循物理发音器官的路径。克隆语音有时会在共振峰之间走不切实际的“捷径”。
房间声学不一致： 整个音频文件的混响特征应保持一致。而生成音频的语音部分通常是干的，而拼接处的背景声则可能有混响。
韵律平坦： 与真人在真实情境下的表达相比，合成语音的音高和能量变化范围通常更窄。
语速稳定性： 真人说话时会根据内容自然地加速或减速，而生成语音在长段落中倾向于保持节拍器般的恒定速率。