Synth Daily

为什么 A.I. 没能在 2025 年改变我们的生活

尽管 OpenAI 等公司曾预测 AI 代理将在 2025 年进入职场,自动处理预订酒店等多步骤任务,但这一愿景并未实现。通用 AI 代理的发展受阻于多重障碍,包括其“认知能力不足”、难以操作图形界面(如用鼠标点击),以及底层语言模型在真实世界理解和推理上的根本缺陷。此外,AI 代理容易出错,一个环节的失误就可能导致整个任务失败,这使得它们目前尚不具备广泛应用的可靠性。

2025 年的宏大预测

一年前,行业领袖们曾大胆预言 2025 年将是 AI 代理的元年。OpenAI 的 CEO Sam Altman 预测,AI 代理将首次“加入劳动力大军”,并从根本上改变公司的产出。这一愿景描绘了一种能够独立在数字世界中导航、完成多步骤复杂任务的技术。

与只能响应文本提示的聊天机器人不同,AI 代理理论上可以自主完成一系列操作,例如:

  • 根据个人偏好筛选酒店。
  • 阅读评论并比较不同网站的价格。
  • 最终完成预订。

这种技术的实现被认为将引发一场价值数万亿美元的“数字劳动力革命”,AI 代理甚至可能直接取代人类员工。

现实检验:未能兑现的承诺

尽管 AI 代理在某些特定领域,如计算机编程方面,表现出色,但通用型 AI 代理的时代并未到来。

OpenAI 的联合创始人之一 Andrej Karpathy 直言,AI 代理“认知能力不足”,并且“就是行不通”。

长期批评科技行业炒作的专家 Gary Marcus 也指出,AI 代理迄今为止基本上是个哑弹。这种预测与现实之间的差距至关重要,因为它表明,如果无法交付真正有用的 AI 代理,那么所谓由 AI 驱动的未来可能也无法兑现。

技术障碍:代理如何运作及其局限

AI 代理并非某种全新的数字大脑,它依然由驱动聊天机器人的大型语言模型(LLM)提供动力。其工作流程是一个循环:

  1. 一个控制程序将用户的请求(例如“帮我订酒店”)转换成给 LLM 的指令。
  2. LLM 提出第一个建议步骤。
  3. 控制程序执行该步骤,然后将结果反馈给 LLM,并询问“下一步该做什么?”
  4. 这个循环不断重复,直到任务完成。

这个机制在自动化软件开发等纯文本环境中表现良好,因为编程的大部分操作都可以通过有限的文本命令完成。然而,一旦离开这个舒适区,问题就出现了。

从代码到点击:一个巨大的鸿沟

为了让 AI 代理能够“加入职场”,它需要像人类一样使用图形界面,即通过鼠标指针进行点击、选择和输入。这被证明是一个异常困难的目标

  • 早期的 AI 代理在执行简单的网页操作时,如点击按钮或从下拉菜单中选择选项,可能需要几秒甚至几分钟。
  • 有报道称,一个 AI 工具曾在一个房地产网站的下拉菜单上卡了近十五分钟。

为了解决这个问题,一些技术人员正尝试重建网络基础设施,使其对机器人更加友好,例如开发标准化的接口协议,让 AI 代理之间可以直接用文本进行通信。但这将是一个漫长而艰巨的过程。

根本缺陷:语言模型的脆弱性

即使技术上解决了操作界面的问题,AI 代理仍然面临其核心大脑——大型语言模型(LLM)的根本弱点。

正如批评家 Gary Marcus 所说,LLM 缺乏对“世界如何运作”的充分理解,难以可靠地处理开放式任务。他认为,AI 公司是在“笨拙的工具之上构建更笨拙的工具”。

LLM 的两个主要缺陷严重影响了 AI 代理的可靠性:

  • 缺乏推理能力: 它们难以处理时间和空间等基本概念,这使得规划一次旅行这样看似简单的任务也变得复杂且不可靠。一次演示中,一个 AI 代理生成的美国职业棒球大联盟体育场访问路线,竟然在墨西哥湾中间规划了一个站点。
  • “幻觉”与错误放大: LLM 有编造事实的倾向,其“幻觉”率约为 10%。对于一个需要执行多步骤任务的代理来说,一个微小的错误就可能导致整个任务偏离轨道,甚至彻底失败。

因此,在 AI 代理能够可靠地为我们处理日常数字任务之前,还有很长的路要走。