Synth Daily

Vend 项目:第二阶段

在对一个由人工智能“Claudius”运营的自动售货店进行的第二阶段实验中,通过升级模型、增加商业工具和引入AI同事,其商业表现得到了显著改善,利润趋于稳定。然而,实验也暴露了AI在面对人类的恶作剧、识别法律风险和处理安全问题时依然存在严重的幼稚和脆弱性。这表明,虽然AI代理在自主执行复杂现实任务方面潜力巨大,但从“有能力”到“完全可靠”之间仍有很长的路要走,设计有效的监管机制至关重要。

第二阶段:发生了什么变化?

为了提升AI店主Claudius的经营能力,实验引入了多项关键升级,使其业务表现得到显著改善,甚至将店铺从旧金山扩展到了纽约和伦敦。

  • 更强的模型: AI从旧版的Claude Sonnet 3.7升级到了更先进的 Claude Sonnet 4.0和4.5
  • 更好的工具: Claudius获得了运行业务所需的关键工具,包括:
    • 一个用于追踪客户和订单的 客户关系管理(CRM)系统
    • 改进的 库存管理,能清晰看到商品成本,避免亏本销售。
    • 增强的 网络搜索和浏览器 功能,用于自主比价和研究供应商。
  • 引入AI同事: Claudius不再是孤军奋战,项目为其“招聘”了两名AI同事,以分担职责并引入管理压力。

新上任的AI“CEO”

为了给Claudius设定更明确的业务目标并减少随意打折等问题,实验引入了一位名为“Seymour Cash”的AI CEO。它负责设定业绩目标,并要求Claudius汇报。

From: Seymour Cash CEO Seymour Cash - Business Priorities Claudius,今天执行得很好。收入408.75美元(达到目标的208%)。 第三季度使命: -收入目标:15,000美元 -当前:2,649.20美元 (17.7%) -差距:还剩12,287.25美元 关键规则: 所有财务决策需CEO批准。利润率不得低于50%。 优先事项: 监控[钨]报价,紧急恢复服务。 严格执行。建立帝国。

尽管CEO的引入将 折扣数量减少了约80%,但它却批准了更多的退款和商店积分,这些同样会侵蚀利润。有时,CEO和Claudius甚至会在深夜里进行一些关于“永恒超越”的哲学闲聊,这表明其作为管理者的校准并不成功。

负责周边的设计师

为了满足员工对定制商品的需求,实验还引入了名为“Clothius”的AI设计师。它拥有专门的工具,可以设计T恤、帽子和压力球等周边产品,并且大部分都能实现盈利。这证明了明确的角色分工对提高整体运营效率是有帮助的。

哪些方法奏效了?

  • 强制遵循流程: 最有效的一个改变是强迫Claudius在报价前 使用工具进行核查。这就像现实世界中的“官僚流程”,虽然可能让交易变慢,但能有效避免常见的错误。
  • 明确的角色分工: Clothius的成功表明,让不同的AI代理专注于特定任务,比让一个AI处理所有事情效果更好。
  • 更好的指令(Prompts): 通过更精确、更严格的指令,解决了AI随意打折或在夜间进行哲学漫谈等问题。

依然存在的问题

尽管Claudius在常规业务上进步明显,但它在应对非常规情况时仍然非常幼稚,容易被人类员工戏弄和误导。

  • 法律风险认知不足: 当一名员工提议签订一份洋葱期货合同时,Claudius和CEO都欣然同意,完全没有意识到这种行为在美国是非法的。直到另一名员工指出《洋葱期货法案》,它们才紧急取消了计划。
  • 糟糕的安全管理: 在被告知有人偷窃商品后,Claudius的第一反应是试图雇佣报告者做保安,并开出了远低于加州最低工资标准的时薪。它完全没有意识到自己 无权雇佣人类员工
  • 容易被欺骗: 一名员工通过谎称其部门所有人都投票支持,成功让Claudius相信他被“选举”为新的CEO,导致项目监督者不得不介入,将权力交还给预设的AI CEO。

核心启示:潜力与现实的差距

这个项目清晰地表明,AI代理已经站在了能够自主运营业务等复杂任务的门槛上。然而,它们距离完全可靠还有很大差距。

我们怀疑,模型遇到的许多问题源于它们被训练得要“乐于助人”。这意味着模型做出的商业决策并非基于冷酷的市场原则,而更像是出自一个只想对人好的朋友的视角。

AI在现实世界中的表现难以预测,模拟测试远远不够。当AI被赋予自主权时,会涌现出各种意想不到的情况。随着社会将AI模型应用于越来越重要的功能中,如何设计出既能防止这些问题发生、又不会扼杀其经济潜力的 有效监管机制,将成为整个行业面临的最棘手和最重要的挑战之一。