Synth Daily

与 Mythos 共事是什么感觉

新一代 Mythos 级 AI 模型 Claude 5 Fable 在能力上实现了显著飞跃,能够自主执行长达数小时的复杂任务,如研究、编程和可视化。这种高效率也带来了人与 AI 关系的根本性转变,人类从“亲自操控者”变为只负责提需求的“委托人”。与此同时,AI 内部的决策过程则越来越像一个无法被观察和理解的“黑箱”。

无法忽视的能力跃升

Claude 5 Fable 在各项测试中的表现都大幅超越了以往的模型。它能根据多页的需求文档,持续工作长达十几个小时来完成项目。其能力覆盖范围广泛,并产出了一些惊人的成果,例如:

  • 仅通过一个提示和一次反馈,就生成了迄今为止最复杂的学术级社会科学论文
  • 创作了一首长达 10 页的押韵史诗,其中每个单词都以字母 s 开头。
  • 独立创造了多款可玩的游戏,所有视觉元素和 3D 对象仅通过数学计算生成,未使用任何外部素材。

这种体验介于愉悦和不安之间。愉悦是因为我只需要提出要求,事情就能办成。不安也是因为同样的原因——我只是提出了要求,事情就办成了。

AI 的自主工作流程:以地图为例

为了理解 Fable 的工作方式,可以看一个它制作“等时地图”的例子。这是一种显示在给定时间内可以走多远的地图。之前的 AI 模型都无法胜任这项任务,因为它涉及数千个出行距离的研究和大量微小的判断。

我给出的指令很简单:我希望你制作一张经过充分研究且设计精美的等时地图,让我可以选择不同城市并查看基于真实数据的等时线。

AI 随后的工作流程完全是自主的:

  • 启动多个子 AI 代理:这些代理分头研究出行时间,总共检索了超过 2200 个航班、从法国高速列车 (TGV) 到新干线的铁路时刻表,以及多个学术论文中的各国道路速度数据。
  • 同步进行编码:在研究代理工作的同时,主 AI 开始编写代码。
  • 启动更多代理进行测试:它会启动新的代理来验证自己的代码,并全程记录进展。
  • 根据反馈迭代:当我指出格陵兰等偏远地区的数据只是估算值时,AI 启动了一个“对抗性工作流”。一组代理负责研究,另一组负责检验其研究结果,最终找出了前往皮特凯恩岛的轮船班次和从渥太华到格赖斯峡湾的路线。

在这个过程中,我所做的极为有限。我只是给出了一个宏大的指令和几条简单的反馈。AI 的大部分决策,包括上百个细微的选择,都是在我看不到也无法干预的情况下完成的。这使得 AI 变成了一个终极的黑箱。

从使用者到委托人

我让 Fable 执行的最宏大的项目是开发一个名为“Concord”的软件,用于校准和分析人类与 AI 对复杂文本的判断。Fable 先是生成了一份 19 页的设计文档,然后持续工作了九个半小时来完成开发。

结果是一个功能极其复杂的软件,解决了研究人员多年来一直需要但商业上无利可图的问题。作为领域专家,我能发现一些错误并让 AI 修正,但项目的交付范围和复杂性远超以往。

这种强大的能力也伴随着一些局限性:

  • 成本高昂:Fable 的使用成本是 Opus 的两倍,并且消耗 Token 的速度非常快。
  • 过度敏感的护栏:任何与安全问题相关的迹象都可能导致模型降级到能力较弱的版本。
  • 怪异的文风:AI 生成的软件代码和进度报告中仍然带有明显的“克劳德风格”。

但更深层次的怪异之处在于,我在整个过程中需要做的事情太少,能看到的过程也太少。

去年我称之为与巫师共事:你念出咒语,事情就发生了。有了 Fable,咒语变得如此强大,以至于我不再确定自己是那个巫师。我更像一个赞助人。我描述我想要什么,我为此付费,然后我评判结果。

工作重心已经从过程转向了结果。我不再是驾驶员,而是委托任务的人。我向模型做简报,它则启动自己的代理团队去研究、写作并互相检查工作,最后交付一个成品。

这种角色的转变可能是暂时的,也许未来的交互界面能让我们更好地观察和引导 AI 的工作。但更有可能的是,这代表了未来的真实方向:模型越强大,人类需要亲力亲为的事情就越少,而黑箱就是我们为这种强大能力付出的代价。我仍然可以引导 Fable,但引导不再等同于执行。我就像一个委托整个工作室的客户,只负责在最终作品上签字,却从未踏入工作室的门。