對抗濫用內容的演算法筆記

为了应对色情广告、诈骗和内容农场等垃圾内容，平台针对不同类型的内容（短文、留言、长文）采用了差异化的治理策略。短文通过“白名单”申请机制和识别“水军团伙”来防治；留言则依靠志愿者团队、透明的删除记录以及多层自动化检测来减少骚扰；长文治理的核心原则是不删除内容，仅降低其可见度，并结合使用小模型与大语言模型（LLM）校正数据，以提高识别准确率并减少误伤。整个治理框架强调透明、可追溯，旨在保护社区环境的同时，避免算法滥用。

短文：白名单与团伙识别

短文因其内容简短、信号量少，单纯依靠内容检测模型很容易产生误判。尤其当正常的简短发言被错判为垃圾时，会严重影响用户体验。

主要挑战: 垃圾短文的识别难度高于长文，且容易出现伪阳性（误判）问题。
核心策略: 识别并打击“Ring”，即水军团伙。这些团伙通常会在短时间内发布大量相似或重复的内容，这种行为模式是识别的关键。
实施方案: 平台为短文聚合频道“闲聊”设立了 “opt-in”白名單制度。用户必须主动申请，经审核通过后其短文才能进入该公开频道。 > 这一社群设计机制比单纯依赖模型检测更经济、有效。自推出以来，它 100% 杜绝了垃圾内容进入“闲聊”频道，即便垃圾短文的总量占全站一半以上。

留言：多层防御体系

垃圾留言的侵扰性极强，因为它会直接出现在用户的文章下方，并触发通知，是用户抱怨最多的问题之一。因此，平台设计了更主动、更激进的防御体系。

平台的防治措施分为四层：

社群自治: 建立“守望相助队”，让受信任的志愿者用户获得删除色情或滥用广告留言的权限。
透明记录: 所有删除操作都会被自动记录在公开的“布告栏”上，以制衡权力滥用，并确保过程可追溯。
自动检测: 利用志愿者们标记的数百条垃圾留言数据，训练了一个轻量级的 AI 模型（multilingual-e5-small），该模型能自动巡查并处理符合特定模式的垃圾内容。
管理员监督: 所有自动化处理行为都会通知管理员，作为最后一道防线。

一个有趣的发现是，在处理留言这种极短文本时，一个参数量仅为 0.1B 的小模型，其表现优于更复杂、经过微调的大模型，错误率更低。

这种结合了社群力量、自动化工具和透明机制的设计，大幅降低了垃圾留言的出现频率和对正常用户的干扰。

长文：降低可见度，而非删除内容

对于长文，平台采取了一种相对“宽容”但有效的治理方式。其核心原则并非删除，而是管理其传播范围，这为可能发生的误判保留了可逆转的空间。

处置原则为“不删除内容，只是不再被看见”。被判定为可疑的文章会被排除在推荐、热门等公共流之外，但其原始页面和链接保持不变。

问题演变: 早期模型在持续学习新数据的过程中，逐渐被“污染”。一些被错杀的正常内容（如政治评论、学术文章）反过来影响了模型，导致误判率上升。
解决方案: 使用大语言模型（LLM）对数千条可疑数据进行重新校正。这一过程成本极低（仅 1 美元），却极大地提升了数据质量。
关键结论: “小模型微调 + LLM 校正数据” 的混合模式，在成本和效果上可能优于不断更换和训练更庞大的新模型。

校正后的模型伪阳性降低了 10 倍以上，有效减少了对正常内容的误伤，并能更精准地识别伪装成科普文的贷款广告等新型垃圾内容。

核心理念：走向透明的平台治理

记录这些防治垃圾内容的笔记，不仅仅是为了分享技术经验。更重要的是，作者坚信，最佳的平台治理应当是流程透明化的。

在机器人和算法大规模应用的时代，用户常常不清楚自己的内容为何被限制或账户为何被封禁。大型平台的不透明操作广受批评。因此，公开平台的治理算法、训练数据以及被误判的案例，是帮助整个社会理解和监督平台权力的第一步，也是建立可信赖数字环境的基础。