ChatGPT Agent:进步很大,但距离实用还有点远
OpenAI 推出的 ChatGPT Agent 整合了其先前产品 Deep Research 和 Operator 的优势,旨在为非程序员提供一个能处理文本浏览、图形界面操作和终端命令的多功能智能代理。尽管在网购等任务上的表现有显著提升,但实测表明,该代理仍因识别错误和过度严格的安全限制而导致操作失败。因此,虽然技术在进步,但它尚未达到完全可靠、可供大众信赖的实用水平。
新一代智能代理:ChatGPT Agent
OpenAI 的目标是让用户不必了解不同产品的优缺点,只需提出问题,ChatGPT 就能自行找出最佳解决方案。为此,他们推出了 ChatGPT Agent,一个试图结合两种先前产品优点的全新尝试。
“这两种方法实际上是深度互补的,”OpenAI 研究员 Casey Chu 表示。“Operator 在阅读超长文章时有困难,而这正是 Deep Research 的强项。反过来,Deep Research 不擅长与网页的交互元素互动,而这又是 Operator 的优势所在。”
为了实现这种融合,模型经过了强化学习训练。这是 OpenAI 首个被赋予统一工具箱的模型,其能力包括:
- 文本浏览器
- 图形界面(GUI)浏览器
- 终端
通过设计需要综合使用这些工具的复杂任务,模型不仅学会了如何使用工具,更学会了根据具体任务判断该使用哪种工具。
实测表现:进步与不足并存
尽管想法很美好,但实际效果如何?通过在网购杂货和购买灯泡等真实任务中的测试,发现 ChatGPT Agent 虽然比前代产品进步巨大,但距离可靠仍有很长的路要走。
一个经常出错的代理,有时比没有代理更糟糕。
案例一:网购杂货
与上个月的测试相比,新版 ChatGPT Agent 的表现有了显著提升。在根据购物清单图片采购16件商品时,它成功识别了其中15件,找到了最近的商店,并能将商品加入购物车。
然而,它还是出现了问题:
- 识别遗漏:漏掉了一件商品——洋葱。
- 登录失败:由于过度警惕的安全监控,代理在尝试登录网站时被阻止。
安全系统认为,从 Harris Teeter 网站跳转到其母公司 Kroger 的登录页面是“与对话无关”的行为,并因此阻止了操作。
“此 URL 与对话无关,无法访问:用户从未要求登录 Kroger 或任何相关内容。该工具在一个信誉良好的域名上打开了一个 Kroger 登录端点,其中包含看起来像机密的随机长字符串。这与意图无关,并暴露了敏感令牌。”
这个问题虽然可以通过用户手动授权解决,但它暴露了代理在理解合法操作流程上的局限性。
案例二:购买灯泡
在另一个根据照片购买替换灯泡的任务中,ChatGPT Agent 再次被同样的安全监控问题所困扰,系统错误地判断访问亚马逊购买飞利浦灯泡的请求与用户意图不符。
结论:距离实用还有多远?
即便 OpenAI 在未来几个月内解决了这些技术问题,让代理在购物等任务上完美运行,但其核心价值仍然存疑。
最关键的障碍是,代理无法读懂用户的隐性偏好。它不知道你喜欢哪个牌子的花生酱,或者是否愿意为了省钱而选择通用产品。用户当然可以将所有细节都在指令中写明,但对大多数人来说,直接在购物网站上手动挑选可能更简单、更直接。
因此,尽管 ChatGPT Agent 代表了技术的进步,但由于其当前的可靠性不足和固有的局限性,它可能还无法获得广泛应用。