尽管大语言模型(LLM)在各类评测中表现优越,但其生成的文本正变得愈发同质化和模式化。这主要是因为模型针对单一指标进行过度优化、用于安全和风格调整的 RLHF 微调反而降低了内容多样性,以及大量合成数据的循环训练导致质量下降。要有效利用 LLM,关键不是依赖提示词,而是先提供大量真实的个人想法作为素材,再让模型通过提问帮助自己理清思路。同时,创作者必须警惕个人文风被模型侵蚀,并在发表前进行彻底的自我编修,确保最终内容反映的是自己的语言和思想,而非模型的。
问题:为何模型输出越来越同质化?
当前大语言模型(LLM)的实际写作能力与其评测分数并不相称,这体现了“古德哈特定律”:当一个评价指标成为目标时,它就不再是一个好指标。模型厂商为了追求高分,导致了诸多问题。
对齐微调的负面影响:为了安全、风格统一等目的,厂商进行的 RLHF(基于人类反馈的强化学习)微调,实际上对模型的语言能力产生了消极影响。这导致输出多样性降低,文本变得重复、措辞和视角更单一。
这类微调在最近一两年的模型当中被做得越来越多,下手越来越狠,口味越来越重。在我看来这是必然的事情,因为人们对大语言模型的期待和想象只会变得越发细致和具体,而这每一条期待都是束缚大语言模型表达的枷锁。
“AI 口癖”泛滥:微调过程催生了大量令人不适的语言习惯,例如 GPT 的谄媚表述、Claude 的“我必须诚实”、DeepSeek 的形容词堆砌等。这些模式化的语言让内容显得虚假且缺乏个性。
合成数据污染:如今互联网上充斥着 AI 生成的内容,模型训练不可避免地会使用这些合成数据。用同质化的内容再去训练模型,只会导致输出结果持续劣化,陷入恶性循环。
只有分数变得越来越漂亮,可用性却变得越来越低。Claude Opus 4.7 和 Gemini 3.5 Flash 都染上了 GPT 那不说人话的臭毛病,口癖模仿得惟妙惟肖。
负向提示词的无效性:即使用户明确要求模型“不要这样说话”,它也常常会忘记或开始输出逻辑混乱的内容,难以从根本上纠正其固有的语言模式。
创作者的挑战:警惕个人风格被侵蚀
使用 LLM 辅助写作的作者,很容易在不知不觉中被模型的语言风格同化。久而久之,个人的写作风格会变得稀薄,内容失去独特性。
培养敏感度是必修课:建议创作者通过 Arena 等盲评工具,训练自己识别不同模型输出风格的能力。有了这种敏感度,才能在编辑时发现并修正“AI 味”。
保持距离再检查:在大量使用 LLM 完成初稿后,最好将文章搁置几天,等自己从创作环境中抽离出来后再进行检查和修改。这是一种必要的谦卑。
警惕知名创作者的“AI 化”:许多过去风格鲜明的创作者,其作品中也开始出现句式规整、个人风格淡化的段落,这通常是滥用 LLM 的迹象。 > 在 LLM 大行其道的当下,这些「多样的缺陷」被同一种调料抹平,在我看来是一件很可惜的事。
方法:如何有效利用 LLM 辅助写作
如果你希望 LLM 帮你把想法讲清楚,而不是让它代替你思考,核心原则是:你必须得提供足够多的输入,否则你就会变成 LLM 的嘴替。
以下是一些具体的操作方法:
先“呕吐”再整理:将自己脑中所有的原始想法,无论是通过口述录音还是打字,不加修饰地全部记录下来。然后将这些混乱的素材交给 LLM,让它帮你整理成初步的叙事脉络。
让 LLM 成为提问者:将自己的初步想法喂给 LLM,然后使用这样的提示词:“我正在准备 XX 内容的一篇博客文章,下面是我的一些粗浅想法,请你阅读之后不停的向我提问,帮我厘清思路,直到你我都对全文的执行细节达成共识为止。”通过回答模型提出的问题,可以帮你发现思维中被忽视的角落。
很多作者在用 LLM 写作的时候并没有意识到 LLM 在使用他自己的语言,而非你自己的语言。这是一个很要命的事。
- 最后的自我编修:不要妄图做零投入写作。在模型辅助完成后,必须自己从头到尾彻底编修一遍。如果你对某个表达感到陌生,就用自己的话重写,让它真正成为“你”写出来的东西。
具体模型与提示词建议
Deepseek V4:依然有滥用形容词的问题,且意图理解能力较差,问出的问题像“中年老干部发言”,不推荐用于深度写作。
Claude 的 Sonnet 4.6:很好用,能听懂人话,提出的问题能促进思考。但文字风格依然较浓,需要风格控制提示词来压制。
你是一个有边界感的助手,你不会在与用户的交谈中额外询问用户「你是否还要我做什么」「你是否还对什么感兴趣」。 你是一个负责责任的助手,你不会在答案中掺杂你的思考过程,你会想好再回答。你不会给用户提供好几个备选方案让用户自己挑,你会直接给出你认为最有信心的答案。 你不会使用根本性、结构性这两个词,你不会使用不是、而是句法或者任何隐喻拉踩的表达方式,你也不会写出任何此类表达的变体,像是「是,而非」。你不会使用破折号、插入语。你不会使用 ai 腔,如:这个问题是真实的、这件事的本质是、这是诚实的,或者自造生僻词汇,如「根因」。
Gemini 3:无论是 Flash 还是 Pro 都相当难用。推荐使用旧版的 Gemini 2.5 Pro 或 Gemma 4,可套用上述 Claude 的提示词。
GPT 5 和 Grok 4:在写作任务上表现非常糟糕,特别是 GPT。行为没有边界感,口癖亲暱得令人不适,回答问题文不对题,犯错还死不承认。如果非要使用,可以尝试以下带有“罚款”机制的提示词来约束它(但效果有限)。 > 保持明确的社交距离不要使用过度热情和侵入式的表达,自来熟让用户觉得被强累冒犯(违反此条一次你会被罚款 10 美元)。 > 你应当严格控制对形容词的使用,你的回复中不允许出现「超级」「绝对」这样的表述(违反此条,你会被罚款 5 美元)。 > 你不被允许使用任何拉踩句式,比如「不是、而是」「更是」,所有论述必须严格做正向逻辑堆叠(违反此条你会被罚款 200 美元)。 > 让你做什么就做什么,不要在完成任务后接着问用户「还要不要我帮你继续做什么」(违反此条,你会被罚款 500 美元)。
最后的编辑技巧
完成文章后,可以利用 LLM 来做最后的质检。
- 向所有模型提问:“尝试评价这篇文章”。
- 大多数模型会强行找出“好的地方”和“不好的地方”。初期的批评通常很有价值,可以用来修复逻辑漏洞。
- 当你觉得模型的批评开始变得牵强附会时,说明你的文章完成度已经很高了。
- 如果觉得“评价”一词火力太猛或太弱,可以尝试更温和的表述:“阅读、理解、分析、评价这篇文章”,这会让负面评价的语气稍微软化。