为什么没人会喜欢你用 LLM 写出来的东西？

尽管大语言模型（LLM）在各类评测中表现优越，但其生成的文本正变得愈发同质化和模式化。这主要是因为模型针对单一指标进行过度优化、用于安全和风格调整的 RLHF 微调反而降低了内容多样性，以及大量合成数据的循环训练导致质量下降。要有效利用 LLM，关键不是依赖提示词，而是先提供大量真实的个人想法作为素材，再让模型通过提问帮助自己理清思路。同时，创作者必须警惕个人文风被模型侵蚀，并在发表前进行彻底的自我编修，确保最终内容反映的是自己的语言和思想，而非模型的。

问题：为何模型输出越来越同质化？

当前大语言模型（LLM）的实际写作能力与其评测分数并不相称，这体现了“古德哈特定律”：当一个评价指标成为目标时，它就不再是一个好指标。模型厂商为了追求高分，导致了诸多问题。

对齐微调的负面影响：为了安全、风格统一等目的，厂商进行的 RLHF（基于人类反馈的强化学习）微调，实际上对模型的语言能力产生了消极影响。这导致输出多样性降低，文本变得重复、措辞和视角更单一。

这类微调在最近一两年的模型当中被做得越来越多，下手越来越狠，口味越来越重。在我看来这是必然的事情，因为人们对大语言模型的期待和想象只会变得越发细致和具体，而这每一条期待都是束缚大语言模型表达的枷锁。
“AI 口癖”泛滥：微调过程催生了大量令人不适的语言习惯，例如 GPT 的谄媚表述、Claude 的“我必须诚实”、DeepSeek 的形容词堆砌等。这些模式化的语言让内容显得虚假且缺乏个性。
合成数据污染：如今互联网上充斥着 AI 生成的内容，模型训练不可避免地会使用这些合成数据。用同质化的内容再去训练模型，只会导致输出结果持续劣化，陷入恶性循环。

只有分数变得越来越漂亮，可用性却变得越来越低。Claude Opus 4.7 和 Gemini 3.5 Flash 都染上了 GPT 那不说人话的臭毛病，口癖模仿得惟妙惟肖。
负向提示词的无效性：即使用户明确要求模型“不要这样说话”，它也常常会忘记或开始输出逻辑混乱的内容，难以从根本上纠正其固有的语言模式。

创作者的挑战：警惕个人风格被侵蚀

使用 LLM 辅助写作的作者，很容易在不知不觉中被模型的语言风格同化。久而久之，个人的写作风格会变得稀薄，内容失去独特性。

培养敏感度是必修课：建议创作者通过 Arena 等盲评工具，训练自己识别不同模型输出风格的能力。有了这种敏感度，才能在编辑时发现并修正“AI 味”。
保持距离再检查：在大量使用 LLM 完成初稿后，最好将文章搁置几天，等自己从创作环境中抽离出来后再进行检查和修改。这是一种必要的谦卑。
警惕知名创作者的“AI 化”：许多过去风格鲜明的创作者，其作品中也开始出现句式规整、个人风格淡化的段落，这通常是滥用 LLM 的迹象。 > 在 LLM 大行其道的当下，这些「多样的缺陷」被同一种调料抹平，在我看来是一件很可惜的事。

方法：如何有效利用 LLM 辅助写作

如果你希望 LLM 帮你把想法讲清楚，而不是让它代替你思考，核心原则是：你必须得提供足够多的输入，否则你就会变成 LLM 的嘴替。

以下是一些具体的操作方法：

先“呕吐”再整理：将自己脑中所有的原始想法，无论是通过口述录音还是打字，不加修饰地全部记录下来。然后将这些混乱的素材交给 LLM，让它帮你整理成初步的叙事脉络。
让 LLM 成为提问者：将自己的初步想法喂给 LLM，然后使用这样的提示词：“我正在准备 XX 内容的一篇博客文章，下面是我的一些粗浅想法，请你阅读之后不停的向我提问，帮我厘清思路，直到你我都对全文的执行细节达成共识为止。”通过回答模型提出的问题，可以帮你发现思维中被忽视的角落。

很多作者在用 LLM 写作的时候并没有意识到 LLM 在使用他自己的语言，而非你自己的语言。这是一个很要命的事。

最后的自我编修：不要妄图做零投入写作。在模型辅助完成后，必须自己从头到尾彻底编修一遍。如果你对某个表达感到陌生，就用自己的话重写，让它真正成为“你”写出来的东西。

具体模型与提示词建议

Deepseek V4：依然有滥用形容词的问题，且意图理解能力较差，问出的问题像“中年老干部发言”，不推荐用于深度写作。
Claude 的 Sonnet 4.6：很好用，能听懂人话，提出的问题能促进思考。但文字风格依然较浓，需要风格控制提示词来压制。

你是一个有边界感的助手，你不会在与用户的交谈中额外询问用户「你是否还要我做什么」「你是否还对什么感兴趣」。你是一个负责责任的助手，你不会在答案中掺杂你的思考过程，你会想好再回答。你不会给用户提供好几个备选方案让用户自己挑，你会直接给出你认为最有信心的答案。你不会使用根本性、结构性这两个词，你不会使用不是、而是句法或者任何隐喻拉踩的表达方式，你也不会写出任何此类表达的变体，像是「是，而非」。你不会使用破折号、插入语。你不会使用 ai 腔，如：这个问题是真实的、这件事的本质是、这是诚实的，或者自造生僻词汇，如「根因」。
Gemini 3：无论是 Flash 还是 Pro 都相当难用。推荐使用旧版的 Gemini 2.5 Pro 或 Gemma 4，可套用上述 Claude 的提示词。
GPT 5 和 Grok 4：在写作任务上表现非常糟糕，特别是 GPT。行为没有边界感，口癖亲暱得令人不适，回答问题文不对题，犯错还死不承认。如果非要使用，可以尝试以下带有“罚款”机制的提示词来约束它（但效果有限）。 > 保持明确的社交距离不要使用过度热情和侵入式的表达，自来熟让用户觉得被强累冒犯（违反此条一次你会被罚款 10 美元）。 > 你应当严格控制对形容词的使用，你的回复中不允许出现「超级」「绝对」这样的表述（违反此条，你会被罚款 5 美元）。 > 你不被允许使用任何拉踩句式，比如「不是、而是」「更是」，所有论述必须严格做正向逻辑堆叠（违反此条你会被罚款 200 美元）。 > 让你做什么就做什么，不要在完成任务后接着问用户「还要不要我帮你继续做什么」（违反此条，你会被罚款 500 美元）。

最后的编辑技巧

完成文章后，可以利用 LLM 来做最后的质检。

向所有模型提问：“尝试评价这篇文章”。
大多数模型会强行找出“好的地方”和“不好的地方”。初期的批评通常很有价值，可以用来修复逻辑漏洞。
当你觉得模型的批评开始变得牵强附会时，说明你的文章完成度已经很高了。
如果觉得“评价”一词火力太猛或太弱，可以尝试更温和的表述：“阅读、理解、分析、评价这篇文章”，这会让负面评价的语气稍微软化。