ChatGPT Agent：进步很大，但距离实用还有点远

OpenAI 推出的 ChatGPT Agent 整合了其先前产品 Deep Research 和 Operator 的优势，旨在为非程序员提供一个能处理文本浏览、图形界面操作和终端命令的多功能智能代理。尽管在网购等任务上的表现有显著提升，但实测表明，该代理仍因识别错误和过度严格的安全限制而导致操作失败。因此，虽然技术在进步，但它尚未达到完全可靠、可供大众信赖的实用水平。

新一代智能代理：ChatGPT Agent

OpenAI 的目标是让用户不必了解不同产品的优缺点，只需提出问题，ChatGPT 就能自行找出最佳解决方案。为此，他们推出了 ChatGPT Agent，一个试图结合两种先前产品优点的全新尝试。

“这两种方法实际上是深度互补的，”OpenAI 研究员 Casey Chu 表示。“Operator 在阅读超长文章时有困难，而这正是 Deep Research 的强项。反过来，Deep Research 不擅长与网页的交互元素互动，而这又是 Operator 的优势所在。”

为了实现这种融合，模型经过了强化学习训练。这是 OpenAI 首个被赋予统一工具箱的模型，其能力包括：

文本浏览器
图形界面（GUI）浏览器
终端

通过设计需要综合使用这些工具的复杂任务，模型不仅学会了如何使用工具，更学会了根据具体任务判断该使用哪种工具。

实测表现：进步与不足并存

尽管想法很美好，但实际效果如何？通过在网购杂货和购买灯泡等真实任务中的测试，发现 ChatGPT Agent 虽然比前代产品进步巨大，但距离可靠仍有很长的路要走。

一个经常出错的代理，有时比没有代理更糟糕。

案例一：网购杂货

与上个月的测试相比，新版 ChatGPT Agent 的表现有了显著提升。在根据购物清单图片采购16件商品时，它成功识别了其中15件，找到了最近的商店，并能将商品加入购物车。

然而，它还是出现了问题：

识别遗漏：漏掉了一件商品——洋葱。
登录失败：由于过度警惕的安全监控，代理在尝试登录网站时被阻止。

安全系统认为，从 Harris Teeter 网站跳转到其母公司 Kroger 的登录页面是“与对话无关”的行为，并因此阻止了操作。

“此 URL 与对话无关，无法访问：用户从未要求登录 Kroger 或任何相关内容。该工具在一个信誉良好的域名上打开了一个 Kroger 登录端点，其中包含看起来像机密的随机长字符串。这与意图无关，并暴露了敏感令牌。”

这个问题虽然可以通过用户手动授权解决，但它暴露了代理在理解合法操作流程上的局限性。

案例二：购买灯泡

在另一个根据照片购买替换灯泡的任务中，ChatGPT Agent 再次被同样的安全监控问题所困扰，系统错误地判断访问亚马逊购买飞利浦灯泡的请求与用户意图不符。

结论：距离实用还有多远？

即便 OpenAI 在未来几个月内解决了这些技术问题，让代理在购物等任务上完美运行，但其核心价值仍然存疑。

最关键的障碍是，代理无法读懂用户的隐性偏好。它不知道你喜欢哪个牌子的花生酱，或者是否愿意为了省钱而选择通用产品。用户当然可以将所有细节都在指令中写明，但对大多数人来说，直接在购物网站上手动挑选可能更简单、更直接。

因此，尽管 ChatGPT Agent 代表了技术的进步，但由于其当前的可靠性不足和固有的局限性，它可能还无法获得广泛应用。