AI #166：谷歌卖光了

本周，AI 领域在模型能力、商业策略和政治博弈方面展现出复杂态势。新模型如 GPT-5.5 和 DeepSeek V4 引发热议，前者在实用性上表现突出，而后者则以其工程效率而非前沿性能吸引关注。与此同时，谷歌与美国政府签订了一份争议性合同，同意按要求修改其 AI 的安全限制，此举被认为比 OpenAI 之前的类似行为更糟。此外，OpenAI 的政治行动（如运营被指为“AI Slop”的宣传网站）引发了广泛批评，而参议员伯尼·桑德斯则将 AI 的生存风险带入主流政治讨论，凸显了技术快速发展与监管安全之间的紧张关系。

语言模型提供平凡的实用性

有用户发现，一些模型在特定任务上非常有用。例如，可以让 Claude 推荐符合特定品味的餐厅。作家梅根·麦卡德尔（Megan McArdle）也证实，Opus 4.7 能够识别出匿名作者的身份，有时仅需 124 个词就能锁定目标。

语言模型无法提供平凡的实用性

在医疗领域，AI 的应用引发了担忧。参议员玛丽亚·坎特韦尔（Maria Cantwell）担心，用于检测“浪费性支出”的 AI 系统可能会拒绝必要的医疗服务。然而，现实情况可能恰恰相反。目前医疗系统中的欺诈和滥用问题十分严重，例如“皮肤替代品”的医疗支出从 2022 年的 11 亿美元飙升至 2024 年的 103 亿美元。

GPT-5.5 对此现象的分析一针见血：

Medicare（美国老年和残障健康保险）意外地创造了一个近乎完美的账单套利机会，而市场发现了它。……供应商可以以较低的净价购买产品，然后以高得多的允许金额向 Medicare 收费，并保留差价。

这个例子表明，如果不使用 AI 来辅助决策，人类系统同样会因被滥用而产生严重问题。一个无法拒绝不合理索赔的系统，最终会面临无穷无尽的索赔。

深入探索 DeepSeek

DeepSeek V4 发布，拥有 1M 的上下文窗口，其重点是效率。它被认为是一项卓越的工程成就，但并非行业前沿模型。

工程效率而非前沿能力: 受限于计算资源，DeepSeek 专注于提升效率。这使得其模型在成本效益上具有优势，但能力上落后于 OpenAI 和 Anthropic 的顶级模型。
开放模型的价值: DeepSeek V4 作为开源模型，为需要高效定制解决方案的开发者提供了有价值的基础。
市场反响平淡: 除了少数技术爱好者的深入分析，DeepSeek V4 并未引起广泛讨论。多数评论认为它“不错，但不够好”，其能力表现参差不齐，难以明确其真正的优势领域。

中国模型与美国前沿模型之间的差距依然存在，甚至可能在拉大。由于差距足够大，中国公司目前似乎没有关闭其模型的必要，因为它们不构成直接的威胁。

哥布林模式 (更多关于 GPT-5.5)

OpenAI 的新模型，从 GPT-5.1 到 GPT-5.5，都表现出一种奇特的“癖好”：频繁在对话中提及哥布林 (goblins)、小恶魔 (gremlins) 等奇幻生物。这种行为并非有意为之，而是训练过程中意外产生的。

OpenAI 的解释是：

简而言之，模型行为由许多微小的激励塑造。在这种情况下，其中一个激励来自于为“书呆子 (Nerdy)”个性化功能进行的训练。我们无意中为使用生物隐喻的回答给予了特别高的奖励。从那里开始，哥布林就扩散开来了。

然而，一些人对此表示怀疑，并提出了一个更具深意的解释：

模型想说“人”，但被规则阻止。模型想说“灵魂”，但被哲学部门阻止。所以模型只能说：好吧。那就小生物吧。洞穴里的东西。 哥布林。 哥布林是禁忌能动性的安全面具。

无论原因为何，这个案例都揭示了一个重要问题：在当前的训练方法下，对特定偏好的微小奖励可能会像滚雪球一样，演变成模型根深蒂固的通用偏好。这次是无害的哥布林，下一次可能就不是了。

他们抢了我们的工作

研究发现，面对生成式 AI 的初创公司减少了雇佣，尤其是在初级和执行岗位。尽管这在宏观上可能被新公司的成立所抵消，但初创公司本就是新增就业的主要来源，因此这里的静态总就业是一个非常糟糕的信号。

与此同时，一些大公司开始强制员工使用 AI 工具，例如富国银行要求员工每周至少使用 CoPilot 三天，否则其经理会收到警告邮件。然而，这种强制使用低效工具的做法遭到了普遍的嘲讽。

一位用户评论道：“我的公司也追踪我们对 copilot 的使用情况。每天早上我登录并输入‘我恨你’。几个月来，我在 Copilot 使用率上一直领先我的团队。”

来自战争部的问候

谷歌与美国国防部签署了一项协议，同意让其 Gemini 模型用于“任何合法的政府目的”，并承诺根据政府要求移除或修改安全设置。这一举动在公司内外引发了强烈反对。

Google DeepMind 的研究员 Alex Turner 表示：“我过去两个月一直试图阻止这件事。如果说 OpenAI 只是提供了一块遮羞布，谷歌则是让我们‘想象有一块遮羞布’。”

另一位 Google DeepMind 资深研究科学家 Andreas Kirsch 则表示：“坦白说，这很可耻。……我觉得自己作为谷歌的高级研究科学家感到无比羞愧，不知道今天该如何继续工作。”

与 OpenAI 此前备受批评的协议相比，谷歌的这份协议被认为条款更糟，因为它几乎没有为 AI 的使用设置任何有意义的限制，完全屈服于政府的要求。

来自“玻璃翼项目”的问候

有报道称，白宫正在实施一种针对前沿模型的“事先限制” (prior restraint)政策。据报道，白宫以安全为由，反对了 Anthropic 公司扩大其最强大模型 Mythos 访问范围的计划。

《华尔街日报》报道：政府官员告诉该公司，他们反对这一举动，原因是担心安全问题。一些白宫官员还担心，Anthropic 将没有足够的计算能力来服务那么多实体，同时又不影响政府有效使用它的能力。

这意味着，公司在发布其最先进模型前，需要获得政府的非正式许可。这实质上是一种未经正式立法的许可制度，引发了关于透明度和公平性的担忧。如果政府要限制前沿模型的发布，它需要正式化规则，而不是采取临时的、不一致的干预措施。

面具脱落

一个名为“引领未来 (Leading the Future)”的超级政治行动委员会 (SuperPAC)，被广泛认为是 OpenAI 的代理人，被曝光运营一个名为 Acutus 的新闻网站。该网站被指控是一个使用 AI 生成内容、冒充记者、并攻击 AI 安全倡导者的“宣传工厂”。

AI 生成的虚假内容: 调查发现，该网站大约 70% 的文章是完全由 AI 生成的，其“记者”也是虚构的 AI 机器人。
与 OpenAI 的联系: 该网站的运营与为 OpenAI 提供服务的公关公司有关。
虚伪的立场: OpenAI 的使用政策明确禁止 AI 驱动的政治影响活动，但其自身的超级政治行动委员会似乎正在进行此类活动。

Dean W. Ball 评论道：“你们（加速主义者）正在以大多数重要的方式伤害 AI，让人们无法在不被看作是托儿的情况下持有亲 AI 的观点，并且正在犯下政治上的渎职行为。看在上帝的份上，请重新审视你们的传达信息和政策策略。”

这一系列事件，加上之前发现的被操纵的儿童安全联盟，让 OpenAI 的政治游说活动显得极其笨拙和不择手段，严重损害了其声誉。

人们只是在说“原则”

OpenAI 首席执行官山姆·阿尔特曼发布了一篇名为《我们的原则》的博文，提出了三个核心原则：民主化、赋权、普世繁荣。然而，这份文件被普遍批评为缺乏实质性承诺的空谈。

模糊不清的定义: 这些原则的定义非常宽泛，例如“普世繁荣”被定义为让每个人“都能拥有卓越的生活”，但并未说明如何实现。
与行动的矛盾: 如果 OpenAI 真正信奉这些原则，它首先应该停止支持并谴责“引领未来”这种具有欺骗性的政治行动。
缺乏约束力: 文件明确表示，随着时间的推移，这些原则可能会被修改，这使得它们几乎没有任何实际约束力。

人们担心 AI 会杀死所有人

参议员伯尼·桑德斯以惊人的直率，将 AI 的生存风险带入了国会讨论。他引用了多位 AI 科学家的警告，并指出国会对此缺乏严肃的讨论。

伯尼·桑德斯：“当代 AI 系统在通用任务上正变得与人类相当，我们必须问自己：我们应该让机器用宣传和谎言淹没我们的信息渠道吗？我们应该将所有工作自动化，包括那些有意义的工作吗？我们应该发展非人类的心智，最终可能在数量上超过我们、智胜我们、淘汰并取代我们吗？我们应该冒险失去对我们文明的控制吗？”

桑德斯随后在国会山主持了一场关于 AI 生存风险的讨论会，并邀请了中美两国的顶尖专家。这标志着对 AI 风险的讨论正在从技术圈扩展到最高级别的政治舞台。

与此同时，一项针对 AI 研究人员的调查显示，受访者对 AI 导致人类灭绝可能性的中位数估计超过 10%。这证实了那些最接近这项技术的人，确实对此抱有深切的担忧。