Synth Daily

Anthropic 在图像理解方面已经追上了 OpenAI

Anthropic 最近发布了两个新模型,Claude Mythos 5Claude Fable 5。其中 Fable 5 在图像理解方面取得了显著进步,已经能够解决去年顶级模型无法处理的许多问题,并且表现略优于竞争对手 GPT-5.5。然而,尽管在编程能力上提升明显,这些模型在更复杂的几何推理等视觉任务上仍只相当于幼儿水平,这表明实现通用人工智能可能比预想的更遥远,单靠增加数据和算力可能并不足够。

两款新模型,两种发布策略

Anthropic 推出了两个基于 Claude Mythos 预览版的新模型,它们的主要区别在于发布方式和使用限制。

  • Claude Mythos 5: 仅向“Project Glasswing”项目下的特定合作机构开放,提供相对不受限制的访问权限。
  • Claude Fable 5: 向公众开放,但内置了安全系统。当系统检测到用户提出如黑客攻击或设计生物武器等高风险请求时,会自动将其转接到能力较弱的旧模型 Claude Opus 4.8 进行处理。

能力进步不均衡

新模型在不同能力上的发展并不均衡,延续了近一年的行业趋势。

  • 显著进步: 模型在 编程能力 上有巨大飞跃。
  • 进展有限: 在其他能力,特别是 图像理解 方面,进展则相对缓慢。

尽管模型在图像理解上一直存在困难,例如无法准确读取指针式时钟或数清图片中的物品数量,但 Anthropic 在公告中却高调宣称:

Fable 5 是执行视觉任务的最新顶尖模型。

这一说法促使我们对其进行评估,因为如果模型在数学和编程上突飞猛进,但在视觉上进步甚微,这可能意味着真正的通用智能仍然遥不可及。

视觉能力实测与结论

通过对 Fable 5 及其主要竞争对手的评估,我们得出以下结论:

  • Claude Fable 5GPT-5.5 现在能够稳定解决许多去年顶级模型都无法处理的图像问题。
  • 在这些任务上,Fable 5 的表现略优于 GPT-5.5,但两者差距非常小。
  • 尽管如此,这些模型的进步幅度并不大。在 几何推理 等更根本的能力上,它们的表现仍然只相当于幼儿水平。

这表明,要实现超人水平的视觉理解能力,可能需要 更底层的架构创新,而不仅仅是增加数据和计算资源。