黑客组织 Lapsus$ 泄露了约 4TB 的数据,其中包含 4 万名人工智能语音标注承包商的语音样本和身份证明文件。此次事件显著增加了 高质量语音克隆 和 身份盗用 的风险,这些数据可能被用于绕过银行的语音验证系统或实施各类电话诈骗。受影响者应立即采取行动,例如设置口头暗号、更新账户安全设置,并利用深度伪造检测工具来保护自己。
这次数据泄露为何与众不同
与以往依赖公开音视频资料不同,此次泄露的数据质量极高,包含了在录音室环境下录制的音频以及经过验证的个人身份信息。这意味着攻击者可以制作出远比以往更逼真、更具欺骗性的语音克隆。
攻击者能用被盗语音做什么?
以下威胁并非推测,而是在此次泄露事件发生前就已经在现实世界中被证实的技术。
- 银行验证绕过: 部分银行仍将声纹识别作为双重验证因素之一。克隆语音可以轻松通过语音验证,使攻击者只需攻破第二个(通常是基于个人信息的)验证环节。
- 针对雇主的语音钓鱼 (Vishing): 攻击者可以冒充员工致电公司的人力或财务部门,试图更改工资发放账户、申请电汇或解锁工作站。
- 深度伪造视频通话: 2024 年,香港 Arup 公司一名财务人员在接到一个多人深度伪造视频通话后,转账了约 2500 万美元。Mercor 泄露的录音室级音频和已验证的身份,为制造此类骗局提供了比公共视频更优质的素材。
- 保险欺诈: 针对保险公司呼叫中心的合成语音攻击在 2025 年同比增长了 475%。汽车、人寿和伤残保险是主要目标,因为这些理赔通常通过电话处理。
- 针对家人的“亲情”和“祖父母”骗局: 冒充亲属并声称遇到紧急情况的诈骗电话是增长最快的类别之一。合成语音会让骗局听起来更像是家人真的遇到了麻烦。
如何检查你的语音是否被滥用
如果你曾向 Mercor 或其他 AI 训练平台上传过语音样本,请像对待泄露的密码一样对待你的声音。你无法“更换”它,但可以改变它能“解锁”的东西。
以下是你可以立即采取的措施:
- 自我审查公开的音频足迹: 在 YouTube、播客平台和旧的 Zoom 录音中搜索你公开的语音样本,并尽可能将它们下架。公开的参考音频越少,攻击者制作的克隆语音就越不准确。
- 与家人和财务联系人设立口头暗号: 选择一个从未在录音或聊天中出现过的短语。告知那些为你处理财务事务的人,任何要求转账的电话都必须先核对暗号。
- 更新所有使用声纹的服务: 立即删除并重新录制你在 Google Voice Match、Amazon Alexa Voice ID、Apple 个人语音以及任何银行服务中注册的声纹。最好在与泄露样本不同的声学环境中进行录制。
- 要求银行禁用声纹验证: 以书面形式要求银行启用结合了应用令牌或硬件密钥的多因素认证。许多银行允许客户选择退出语音验证,但很少主动宣传。
- 使用专业工具检测可疑录音: 如果你收到自称是熟人并要求转账、提供权限或催促你做决定的语音信息,请先使用深度伪造检测工具进行分析。
专家使用的伪造语音检测清单
当法证分析师收到一个样本时,他们会首先检查以下几个方面,这些都是合成语音即使听起来很真实也容易出错的地方:
- 编码器不匹配: 音频声称来自电话通话,但其频谱特征与任何已知的电话编码器都不符。
- 呼吸模式: 真人说话时会根据短语长度和肺活量在可预测的点吸气。合成语音常常会跳过呼吸或在错误的音节边界插入呼吸。
- 微小抖动: 真实声带的振动存在微小的不规则性,而生成音频在毫秒级别上往往过于“干净”。
- 共振峰轨迹: 在真实口腔中,元音之间的转换遵循物理发音器官的路径。克隆语音有时会在共振峰之间走不切实际的“捷径”。
- 房间声学不一致: 整个音频文件的混响特征应保持一致。而生成音频的语音部分通常是干的,而拼接处的背景声则可能有混响。
- 韵律平坦: 与真人在真实情境下的表达相比,合成语音的音高和能量变化范围通常更窄。
- 语速稳定性: 真人说话时会根据内容自然地加速或减速,而生成语音在长段落中倾向于保持节拍器般的恒定速率。