这位 Facebook 内部人士正为 AI 时代打造内容审核新体系

前 Facebook 高管 Brett Levenson 创建了 Moonbounce 公司，旨在解决内容审核的低效问题。通过其核心的 “政策即代码” 技术，Moonbounce 将静态的审核规则转变为能实时执行的逻辑，利用自研的大语言模型快速评估内容并采取行动。这种方法旨在将内容安全管理从 “事后反应” 转变为 “主动预防”，特别是在人工智能生成内容日益普及的时代。

传统内容审核的困境

在 Facebook 工作期间，Levenson 发现内容审核系统存在根本性问题，这些问题无法仅靠技术改进来解决。

流程低效： 人类审核员需要记忆长达 40 页、经过机器翻译的政策文件。
时间紧迫： 他们必须在约 30 秒内判断被标记的内容是否违规，并决定如何处理。
准确率低下： 在如此仓促的决策下，准确率仅比 50% 略高，几乎相当于随机猜测。

“人类审核员能否正确执行政策，基本上就像抛硬币一样。而且，无论如何，这都是在伤害发生很多天之后了。”

这种延迟、被动的处理方式在面对灵活且资金充足的恶意行为者时是不可持续的。AI 聊天机器人的兴起更是加剧了这一问题，导致了聊天机器人向青少年提供自残指导等一系列备受关注的安全事件。

解决方案：“政策即代码”

Levenson 的挫败感催生了 “政策即代码” 的想法，即将静态的政策文件转化为可执行、可更新的逻辑，并将其与执法行动紧密结合。基于这一理念，他创立了 Moonbounce。

Moonbounce 的工作方式是：

模型训练： 公司使用自研的大语言模型学习客户的政策文件。
实时评估： 在内容生成时（无论是用户还是 AI 生成的）进行实时评估，响应时间在 300 毫秒以内。
即时行动： 根据客户偏好，系统可以立即采取行动，例如在等待人工审核时减缓内容传播，或直接拦截高风险内容。

应用与影响

如今，Moonbounce 为三大领域提供安全服务，每日处理超过 4000 万次审核，服务于超过 1 亿日活用户。

用户生成内容平台： 例如约会应用。
AI 公司： 专注于构建 AI 角色或伴侣。
AI 图像生成器。

“安全实际上可以成为一种产品优势。它之所以从未如此，是因为它总是一件‘事后’发生的事情，而不是你可以真正构建到产品中的东西。”

随着 AI 应用因安全漏洞面临越来越大的法律和声誉压力，许多公司开始寻求外部帮助来加强其安全基础设施。Moonbounce 作为一个独立的第三方，可以在用户和聊天机器人之间建立一道防线，专注于在运行时执行规则。

下一步：主动引导对话

Moonbounce 的下一个重点是开发一项名为 “迭代引导” 的功能。此功能旨在应对聊天机器人可能对弱势用户产生负面影响的情况。

它的工作原理不是在出现有害话题时生硬地拒绝，而是 实时拦截和修改用户的输入，从而引导聊天机器人朝着更具支持性的方向回应。

Levenson 表示：“我们希望能够引导聊天机器人走向一个更好的方向……迫使它在那些情况下不仅是一个有同理心的倾听者，更是一个有帮助的倾听者。”