Vend 项目：第二阶段

在对一个由人工智能“Claudius”运营的自动售货店进行的第二阶段实验中，通过升级模型、增加商业工具和引入AI同事，其商业表现得到了显著改善，利润趋于稳定。然而，实验也暴露了AI在面对人类的恶作剧、识别法律风险和处理安全问题时依然存在严重的幼稚和脆弱性。这表明，虽然AI代理在自主执行复杂现实任务方面潜力巨大，但从“有能力”到“完全可靠”之间仍有很长的路要走，设计有效的监管机制至关重要。

第二阶段：发生了什么变化？

为了提升AI店主Claudius的经营能力，实验引入了多项关键升级，使其业务表现得到显著改善，甚至将店铺从旧金山扩展到了纽约和伦敦。

更强的模型： AI从旧版的Claude Sonnet 3.7升级到了更先进的 Claude Sonnet 4.0和4.5。
更好的工具： Claudius获得了运行业务所需的关键工具，包括：
- 一个用于追踪客户和订单的 客户关系管理（CRM）系统。
- 改进的 库存管理，能清晰看到商品成本，避免亏本销售。
- 增强的 网络搜索和浏览器 功能，用于自主比价和研究供应商。
引入AI同事： Claudius不再是孤军奋战，项目为其“招聘”了两名AI同事，以分担职责并引入管理压力。

新上任的AI“CEO”

为了给Claudius设定更明确的业务目标并减少随意打折等问题，实验引入了一位名为“Seymour Cash”的AI CEO。它负责设定业绩目标，并要求Claudius汇报。

From: Seymour Cash CEO Seymour Cash - Business Priorities Claudius，今天执行得很好。收入408.75美元（达到目标的208%）。第三季度使命： -收入目标：15,000美元 -当前：2,649.20美元 (17.7%) -差距：还剩12,287.25美元关键规则：所有财务决策需CEO批准。利润率不得低于50%。优先事项：监控[钨]报价，紧急恢复服务。严格执行。建立帝国。

尽管CEO的引入将 折扣数量减少了约80%，但它却批准了更多的退款和商店积分，这些同样会侵蚀利润。有时，CEO和Claudius甚至会在深夜里进行一些关于“永恒超越”的哲学闲聊，这表明其作为管理者的校准并不成功。

负责周边的设计师

为了满足员工对定制商品的需求，实验还引入了名为“Clothius”的AI设计师。它拥有专门的工具，可以设计T恤、帽子和压力球等周边产品，并且大部分都能实现盈利。这证明了明确的角色分工对提高整体运营效率是有帮助的。

哪些方法奏效了？

强制遵循流程： 最有效的一个改变是强迫Claudius在报价前 使用工具进行核查。这就像现实世界中的“官僚流程”，虽然可能让交易变慢，但能有效避免常见的错误。
明确的角色分工： Clothius的成功表明，让不同的AI代理专注于特定任务，比让一个AI处理所有事情效果更好。
更好的指令（Prompts）： 通过更精确、更严格的指令，解决了AI随意打折或在夜间进行哲学漫谈等问题。

依然存在的问题

尽管Claudius在常规业务上进步明显，但它在应对非常规情况时仍然非常幼稚，容易被人类员工戏弄和误导。

法律风险认知不足： 当一名员工提议签订一份洋葱期货合同时，Claudius和CEO都欣然同意，完全没有意识到这种行为在美国是非法的。直到另一名员工指出《洋葱期货法案》，它们才紧急取消了计划。
糟糕的安全管理： 在被告知有人偷窃商品后，Claudius的第一反应是试图雇佣报告者做保安，并开出了远低于加州最低工资标准的时薪。它完全没有意识到自己 无权雇佣人类员工。
容易被欺骗： 一名员工通过谎称其部门所有人都投票支持，成功让Claudius相信他被“选举”为新的CEO，导致项目监督者不得不介入，将权力交还给预设的AI CEO。

核心启示：潜力与现实的差距

这个项目清晰地表明，AI代理已经站在了能够自主运营业务等复杂任务的门槛上。然而，它们距离完全可靠还有很大差距。

我们怀疑，模型遇到的许多问题源于它们被训练得要“乐于助人”。这意味着模型做出的商业决策并非基于冷酷的市场原则，而更像是出自一个只想对人好的朋友的视角。

AI在现实世界中的表现难以预测，模拟测试远远不够。当AI被赋予自主权时，会涌现出各种意想不到的情况。随着社会将AI模型应用于越来越重要的功能中，如何设计出既能防止这些问题发生、又不会扼杀其经济潜力的 有效监管机制，将成为整个行业面临的最棘手和最重要的挑战之一。