Synth Daily

大模型神游时刻

大型语言模型(LLMs)尽管能力强大,却未能实现真正的突破性创新。这可能是因为它们缺乏人类思维的两个关键要素:持续学习的能力和用于背景思考的“默认模式网络”。为了解决这个问题,可以引入一种“白日梦循环”(DDL)机制。该机制让一个生成模型在后台持续、随机地组合概念以探索非显而易见的联系,再由一个批评模型筛选出有价值的想法。这些新发现会被反馈回系统,形成一个自我增强的循环。尽管这种“白日梦税”计算成本高昂,但它可能是实现创新的必要代价,并能为AI系统生成专有的训练数据,从而形成难以被复制的“数据护城河”

“但它们是无用的。它们只能给你答案。” — 巴勃罗·毕加索,谈论早期的计算机

尽管大型语言模型在各项基准测试中得分很高,知识储备也极其庞大,但它们似乎从未产生过重大的、出人意料的洞见。这是一个真正的谜题:当给予正确的提示时,模型可以整合信息,其方式已经非常接近真正的洞察力,但它们终究未能跨出那一步。问题是,到底缺少了什么?

缺失的能力

与人类研究者相比,LLMs在很多方面都存在差异,其中两个关键的缺失能力尤其突出。

  • 持续学习: 当代的LLMs是“冻结”的,无法从经验中学习。它们就像患有遗忘症的病人,被困在已有的知识中,无法真正超越已知的范畴。历史上,没有任何一个患有顺行性遗忘症的人能做出重大的创新。

  • 持续思考: 人类研究者几乎从不停止思考。即使在休息或睡眠时,我们的大脑仍在进行背景处理,这就是“默认模式网络”的作用。这种持续的、无意识的思考是许多灵感和顿悟的来源,比如在洗澡时突然想通一个问题。LLMs则完全没有这种机制;它们只在被调用时才进行计算。

假设:白日梦循环 (DDL)

为了模拟人类的这种背景思考能力,可以设计一个“白日梦循环”(Day-dreaming Loop, DDL)。这个机制的核心思想是让AI进行持续的、无目的的组合式探索。

它的工作方式很简单:

  1. 随机抽样: 系统从其知识库中随机抽取两个概念。
  2. 探索联系: 一个“生成器”模型尝试在这两个看似无关的概念之间建立新颖的、非显而易见的联系。
  3. 筛选评估: 一个“批评家”模型评估这些新产生的联系,判断其是否具有新颖性、连贯性和实用性
  4. 反馈循环: 真正有价值的想法被添加回系统的知识库中,成为未来新组合的种子,从而形成一个不断增强的反馈循环。

这个过程就像人类的大脑无意识地将不同想法连接起来,直到某个有趣的组合“冒泡”进入意识层面。

LLM如何实现“白日梦”

在实践中,这套机制可以通过具体的提示词来实现。

第一步:生成器提示

[系统] 你是一个富有创造力的综合者。你的任务是在以下两个概念之间找到深刻、不明显且可能具有突破性的联系。不要陈述显而易见的事实。生成一个假设、一个新颖的类比、一个潜在的研究问题或一个创造性的综合。你的推理要有根据但可以大胆推测。

概念1: {概念A} 概念2: {概念B}

请逐步思考以探索潜在的联系。

第二步:批评家提示

[系统] 你是一个有辨识力的批评家。请根据以下标准对下面的假设进行1-10分的评估:

  • 新颖性: 这个想法是否出人意料且不明显?(1=显而易见, 10=颠覆性)
  • 连贯性: 推理是否合乎逻辑且结构良好?(1=胡说八道, 10=严谨)
  • 实用性: 这个想法能否引出可验证的假设、新产品或问题的解决方案?(1=无用, 10=极具应用价值)

假设: {生成器的输出}

请提供你的评分和简要理由。

障碍与启示

这种方法的首要障碍是成本。由于绝大多数随机组合都是无用的,这种持续的背景计算会产生巨大的开销,可以称之为“白日梦税”。普通用户可能不愿意为他们的LLM服务支付高出20倍的费用,只为偶尔获得一个新颖的想法。

然而,这也带来了重要的战略启示:

  • 数据护城河: 只有少数高级用户、研究者或自主代理愿意支付“白日梦税”。这使得通过“白日梦”产生的独特见解和数据成为一种专有的训练资产。这些数据无法通过简单的API调用或模型蒸馏来复制,因为你根本不知道该问什么问题才能得到这些答案。

  • 未来的AI发展模式: 为了让面向大众的AI更便宜、更高效,我们可能首先需要构建昂贵的、会“浪费”大量算力进行白日梦的AI系统。这些昂贵的AI主要用于生成下一代高效模型的专有训练数据,从而绕过“数据墙”的限制。

最终,为了让AI变得更快、更便宜,我们或许需要先让它们学会如何变慢和变贵。