生成式人工智能正在改变网络信息的攻防格局。这项技术一方面为内容审核带来了前所未有的机遇,能够以接近人类的方式理解和处理信息,从而提高审核效率并减轻人类审核员的心理压力。但另一方面,它也为不法分子提供了强大工具,用于制造和传播合成图像、深度伪造视频和大规模虚假信息,形成了一场技术上的“军备竞赛”。尽管进攻手段变得更加廉价和高效,但业界仍看好 AI 在防御方面的潜力,例如实时监测暴力直播和部署智能聊天机器人引导用户行为。未来,信息安全领域的对抗将围绕生成式 AI 的攻防两端持续展开。
AI 进攻:虚假信息的制造机
生成式 AI 极大地降低了制造虚假信息和实施网络欺诈的成本,为恶意行为者提供了便利。过去需要一个团队才能完成的工作,现在可能只需一个人和免费的 AI 工具就能实现。
- 合成内容的泛滥: AI 可以轻松生成以假乱真的合成图像、深度伪造视频和自动编写的误导性信息,这些内容很难被传统的检测技术识别。
- 信息战成本骤降: 如同安全专家所指出的,建立“水军工厂”或发动信息战的成本已大幅降低。这使得一些组织和个人能够以极低的代价发动大规模的宣传或诈骗活动。
- 对选举的威胁: AI 生成的虚假内容已被用于干预选举。例如,斯洛伐克选举期间出现的伪造录音,以及美国大选前模仿总统声音的电话,都展示了 AI 在关键时刻制造混乱的潜力。
一个核心担忧是,创建“水军工厂”和其他形式信息战的成本现在将直线下降,使得一些政府和犯罪分子能够相当便宜地开展虚假信息宣传活动。
尤其值得注意的是,由于大多数 AI 模型的训练数据偏向于英语和西方社会,其在发展中国家的检测能力非常薄弱。这意味着,AI 滥用对贫穷国家造成的危害可能更大,更容易引发社会动荡或公共卫生危机。
AI 防御:内容审核的新希望
尽管 AI 的攻击能力令人担忧,但它在防御方面同样展现出巨大潜力,有望为内容审核提供规模化和精细化的解决方案。
从长远来看,AI 工具最终可能会提供人类审核员长期以来所需要的规模和精密度,从而更好地解决问题。
- 提升审核效率: 生成式 AI 能够以更接近人类的方式理解上下文,可以直接处理人类审核员的核心工作,而不仅仅是进行模式匹配。OpenAI 的报告显示,其模型在内容审查方面的表现已能媲美经过初步培训的人类。
- 实时干预成为可能: 在视频直播等领域,AI 技术已成为及时发现并阻止暴力事件传播的关键。例如,在处理大规模枪击事件的直播时,AI 可以在几秒钟内检测到暴力内容并将其关闭,这在几年前是无法想象的。
- 减轻人类负担: 自动化的 AI 工具可以过滤掉大量暴力、血腥和令人不适的内容,从而减轻人类审核员长期面临的巨大心理创伤。
Meta 的安全团队指出,虽然生成式 AI 带来了挑战,但它也正在帮助平台更有效地检测和阻止有害内容的传播。对虚假信息传播者而言,制造内容容易,但建立可信的受众依然困难。
新战场:作为“裁判”的 AI 机器人
未来的内容治理可能会引入由平台运营的 AI 机器人,它们将扮演一种全新的“裁判”或服务角色,直接与用户互动。
这种方法的核心是利用 AI 聊天机器人来处理处于“灰色地带”的内容——那些并未明确违规但可能引发争议的言论。
- 引导与降温: AI 机器人可以与用户展开对话,对他们的言论进行提醒,或在激烈的讨论中尝试“降温”,引导对话走向更理性的方向。
- 反击阴谋论: 已有研究表明,利用大语言模型与阴谋论者进行互动,有可能引导他们摆脱错误信念。
- 实现规模化互动: 面对左右两派对言论尺度的不同诉求,平台可以利用 AI 机器人采取一种既保留言论空间又积极干预的中间路线。
当然,这种做法也伴随着明显的风险。AI 机器人可能会出错,其行为有时难以预测,并且它们可能因训练数据而携带固有的偏见(如种族或性别歧视)。如何确保这些自动化系统的公正性和透明度,将是平台需要面对的重大伦理挑战。