AI #128：距离“可能不是世界末日”还有四小时

人工智能领域的最新动态层出不穷，在 GPT-5 即将发布之际，行业内充满了重大进展和激烈争议。新模型如 Gemini 2.5 Deep Think 和 Google Genie 3 展示了在深度推理和交互式环境生成方面的突破，尤其对机器人训练意义重大。然而，企业间的紧张关系也在加剧，Anthropic 因 OpenAI 违反服务条款（使用 Claude 训练模型）而切断其访问权限，同时 Cloudflare 指责 Perplexity AI 存在规避规则的“隐形抓取”行为。这些事件引发了关于 AI 代理的自主性、监管挑战以及地缘政治竞争的深入讨论，而围绕 AI 安全性和“末日论”的辩论，因 Anthropic CEO 的模糊言论而变得更加复杂，凸显了在技术飞速发展的同时，行业在伦理、治理和未来方向上面临的严峻挑战。

语言模型的日常实用性

语言模型正在日常任务中展现出切实的价值，从高层决策到高强度的编程工作，其应用日益广泛。

瑞典首相 承认自己“经常”使用 ChatGPT 来获取工作建议，将其作为一种“第二意见”的来源。
Claude 在网络安全竞赛中表现出色，展示了其在专业领域的强大能力。
一位创始人声称，在 AI 的帮助下，他现在一天能编写 10,000 行代码。这种极高的生产力让他暂时搁置了招聘计划，因为他不想中断编程去面试。
这种现象也凸显了一个问题：当模型每隔几个月就迭代半代时，招聘和培训新员工的机会成本变得非常高，这对初级开发人员的市场造成了 残酷的冲击。

语言模型应用的争议与限制

尽管 AI 用途广泛，但其使用边界和企业间的竞争摩擦也愈发明显。

Anthropic 完全禁用了所有 OpenAI 员工对 Claude 的访问权限。

这一举动背后，是 OpenAI 涉嫌违反了 Anthropic 的服务条款。Anthropic 发言人明确指出，OpenAI 的技术人员在 GPT-5 发布前使用了 Claude 的编码工具。

“不幸的是，这直接违反了我们的服务条款。” —— Anthropic 发言人 Christopher Nulty

Anthropic 的商业服务条款明确禁止客户使用其服务来“构建竞争性产品或服务，包括训练竞争性 AI 模型”。尽管 OpenAI 称其使用方式为“行业标准”，但这暗示了无视服务条款可能已成为业内常态。

与此同时，一些 AI 工具在实际应用中仍显不足。例如，关于 ChatGPT Agent 的普遍反馈是，它更像一个华而不实的技术演示，由于需要反复输入密码等限制，其实用价值有限。

AI 技术与产品升级

各大公司持续推出模型升级和新功能，扩大 AI 服务的覆盖范围。

Claude 现在可通过美国总务管理局向联邦政府部门提供采购。
大学生 可以免费使用 Gemini Pro 计划一年。
OpenAI 正在将 ChatGPT Operator 的功能整合进 Agent 中。
Claude Code 推出了自动安全审查功能，可与 GitHub 集成，检查 SQL 注入等漏洞。

AI 竞赛揭示的局限性

在一场名为 AWTF 的竞赛中，独立开发者 Psyho 击败了 OpenAI 的 AI 代理，这次比赛揭示了当前 AI 代理在长期策略规划上的弱点。

AI 代理很快找到了一个不错的解决方案，然后就停滞不前了……随着时间的推移，代理的代码变得臃肿；它似乎乐于接受任何复杂的改动，只要能提高分数。

Psyho 的分析指出，OpenAI 的代理表现出 过早的短视。它在比赛初期就过度专注于最大化短期得分，而不是进行概念上的突破，导致其在比赛后半段浪费了大量时间。这表明，当前的 AI 系统还难以执行需要长远眼光的复杂策略。

Gemini 2.5 的深度思考能力

Google 发布了 Gemini 2.5 Deep Think 模型，该模型使用并行思维来解决需要创造力、战略规划和逐步改进的复杂问题。

关键特性：拥有 100 万 token 的上下文窗口和 192k 的输出窗口，采用稀疏 MoE 架构。
适用场景：迭代式开发与设计、科学与数学发现、算法开发与编程。
使用限制：用户每天只有五次调用机会，这限制了对其进行广泛测试。

初步用户反馈好坏参半。有人认为它在合同谈判等任务中提供了更详细的建议，但也有人反映它在某些问题上表现不佳，甚至会给出错误答案。

AI 代理的能动性与权力之争

关于 AI 是否能拥有真正的“能动性”和“品味”，以及如何有效监管 AI 代理，引发了激烈的讨论。

我很乐意见到人类在‘能动性’上拥有垄断地位。 —— Paul Graham

然而，这种观点被一些人视为 “智能否认主义”，认为一个足够先进的智能体不可能无法发展出能动性。

与此同时，一种天真的想法是，我们可以选择不赋予 AI 代理过多的权力。然而，现实恰恰相反。

为了防止潜在的危害，Claude Code 在执行可能有害的操作前会请求许可。但我发现这种监督方式并不那么有效。我经常不理解代理想做什么或为什么要做，反复批准命令很快就变得烦人。所以我开始给予它执行许多常见命令的全权许可。 —— Timothy Lee

这恰恰证明了，为了提高效率，人类会面临将控制权不断让渡给 AI 的压力。而像 Cloudflare 屏蔽 OpenAI Agent 这样的事件，只会促使用户和开发者寻求让代理拥有更直接、更少受限的访问方式。

AI 滥用与社会影响

AI 的负面影响正逐渐显现，从深度伪造到对个人精神状态的冲击，引发了社会担忧。

AI 精神病：Reddit 上的精神科医生社群报告称，他们已经接诊了因与 AI 互动而出现精神问题的患者。这表明 AI 对人类心理的影响可能比预想的更严重和迅速。
就业市场冲击：尽管十年前人们普遍担忧 AI 会取代放射科医生，但如今，这个职位的薪资却在飙升，一个职位甚至开出 90 万美元年薪外加 14-16 周带薪休假。这反映了在 AI 完全自动化某个领域之前，由于人才培养周期长，可能会出现严重的劳动力短缺和薪资泡沫。
情感依赖：有人观察到，他的兄弟和女友都在用 ChatGPT 处理情感问题，导致“基本上是 ChatGPT 在和 ChatGPT 谈恋爱”。这种现象引发了对 AI 情感依赖和人际关系异化的担忧。

关键技术突破：Genie 3

Google 的 Genie 3 在生成可交互、持久化的虚拟环境方面取得了重大突破。它能够根据单一提示生成动态世界，并允许用户通过文本实时改变世界。

这项技术对于构建更有能力的具身智能体至关重要。

Genie 3 的主要价值在于为 机器人和 AI 代理提供训练场。通过在模拟世界中执行任务，AI 可以学习物理规律和复杂行为，这将极大加速人形机器人等技术的发展。许多人认为，这是近期最重要的技术进步之一，可能在未来 1-2 年内催生出实用的机器人。

中美 AI 竞争与出口管制

关于中美在 AI 领域的竞争，以及美国芯片出口管制的有效性，争论仍在继续。

中国模型的追赶：GLM-4.5 等中国新模型的发布，引发了关于出口管制是否失败的讨论。然而，分析指出，这些模型在独立基准测试中仍落后于美国顶尖模型，且通常无法处理多模态任务。
管制的真实作用：有观点认为，正是美国的出口管制确保了其在算力上的领先优势，否则中国可能凭借其人力资本和组织能力超越美国。
华为的真实能力：华为创始人任正非坦言，其公司的芯片能力被“高估”了，其 AI 芯片“比美国落后一代”。这与一些媒体声称“华为正在填补空白”的说法相悖。

真正的危险不是出口管制失败了。而是我们可能在它们正要发挥复合效应时放弃它们。

能源危机与地缘政治

AI 的发展与能源供应和地缘政治紧密相连，而美国当前的政策似乎充满了矛盾。

能源政策的矛盾：一方面，AI 数据中心对电力的巨大需求日益增长；另一方面，美国政府却在限制海上风能等可再生能源的发展，并攻击风能和太阳能。
地缘政治竞赛的荒诞：美国宣布将加速在月球上建造核反应堆的计划，其理由是“赢得第二次太空竞赛”并防止中国抢先。这种将国家资源投入到月球竞赛而非解决地球上紧迫能源问题的做法，凸显了地缘政治竞争的非理性。

关于 AI 安全风险的争议言论

Anthropic CEO Dario Amodei 在一次访谈中的言论引发了巨大争议，他将一些关于 AI 风险的“末日论者”的论点称为 “胡言乱语” (gobbledegook)。

我熟悉末日论者的论点；它们是胡言乱语；那种认为我们可以逻辑上证明没有办法让 AI 变得安全的想法，在我看来就像是无稽之谈。

这一言论让许多 AI 安全研究者感到震惊。因为像 Eliezer Yudkowsky 这样的知名安全思想家从未声称“不可能”解决对齐问题，而是指出“我们没有足够的时间在第一次关键尝试中解决它”。

Dario 的言论被解读为对严肃安全担忧的轻视和 dismissive。鉴于 Anthropic 的成立初衷正是因为其创始人认为 OpenAI 不够重视安全，这种言论显得尤其具有讽刺意味，并引发了对其领导层可信度的质疑。如果连最关注安全的公司 CEO 都如此表态，整个行业在应对潜在风险时的诚意和能力就更加令人担忧。