Synth Daily

AI #133:美国真的需要更多能源

尽管本周人工智能领域有视频工具 Veo 3 降价、ChatGPT 增加对话分支等渐进式更新,但文章的核心议题在于探讨 AI 发展中“缺失的成果”。关键论点指出,尽管 AI 编码能力备受赞誉,但新应用和 GitHub 项目并未激增,实用的 AI 代理也尚未普及。同时,文章批评了 OpenAI 在公共领域的偏执行为,并深入探讨了 AI 对教育、就业和信息真实性构成的挑战,特别是 AI 如何瓦解教育体系中的“工作量证明”,以及“死亡互联网理论”正成为现实。最终,文章在讨论 AI 安全与监管时,表达了一种谨慎的观点:尽管目前取得了一些意想不到的进展(所谓的“恩典”),但对齐一个超人智能的根本难题依然未解。

语言模型的日常功用

演员瑞茜·威瑟斯彭在谈论她如何使用 Perplexity 等 AI 工具时表示,女性参与 AI 至关重要,因为它将成为电影制作的未来。

瑞茜·威瑟斯彭:你可以为此感到悲伤和哀叹,但变革已经来临。它永远不会缺少创造力、独创性和实际的手工构建。它可能会减少,但这在艺术和自我表达中永远是至关重要的。

这是一个普遍的错误,即假设变革会止步于此,而没有真正思考 AGI(通用人工智能)意味着什么。

同时,有研究尝试使用 AI 模拟人类行为来进行社会学实验,发现在特定博弈游戏中,经过优化的 AI 代理比开箱即用的 LLM 能更好地预测人类行为。然而,这类在玩具经济游戏中的模拟预测,其实用价值令人怀疑。

关于使用 AI 阅读非小说类书籍,作家阿诺德·克林分享了他的方法,即让 AI 总结关键主题。他认为,如果能掌握五个要点,就已经领先了。但这也引发了反思:这究竟是在阅读,还是在“不阅读”?

Samo Burja:我不知道为什么人们要通过 AI 总结书籍。当阅读一本好书的恰当时机到来时,每一句话都能带来新的生成性想法和联系。为什么让 AI 也替你吃饭呢?

这个争论的核心在于,大多数书籍并非每一页都充满新思想。因此,问题变成了如何筛选出那些真正值得深入阅读的、信息密集的书籍。

生产力难题

尽管个人经验表明 AI 编码工具能显著提速,但有测试未能复现这种速度提升,甚至发现了轻微的减速。更令人困惑的是一个核心问题:

  • 如果 AI 如此强大,为什么我们没有看到大量新软件涌现?
  • iOS 和 Android 上的新应用数量没有增长,Steam 版本或 GitHub 仓库也没有激增。

这个“狗为什么不叫”的现象确实非常奇怪。一个可能的解释是,虽然 AI 提高了编码速度,但它尚未解决从创意到成品的其他瓶颈。

语言模型未能提供日常功用

一个令人费解的现象是,尽管各大 AI 实验室推出了许多新产品,但像 OpenAI 的 GPTs(自定义 GPT)这样的功能似乎被忽视了。

Ethan Mollick:对于公司里的非技术人员来说,这仍然是他们在团队中共享提示的方式。两年来没有大的变化……提示库仍然很重要,但它们仍然是笨拙的复制粘贴。

这表明,在将 AI 工具转化为对组织有用的、易于共享的解决方案方面,进展甚微。

近期升级

  • Claude:现在可以直接创建和编辑 Excel、Word、PPT 等文件。
  • ChatGPT:增加了对话分支功能,允许用户从对话的任何一点分叉出一个新聊天。这是一个重大改进,可以用于探索不同思路、隔离调试过程或复制上下文模板。
  • Veo 3:视频生成工具的价格大幅下调,并增加了对高清和竖屏格式的支持。

新的基准测试:ClockBench

一个新的视觉推理基准 ClockBench 专注于让 AI 识别模拟时钟的时间。结果显示,人类平均准确率为 89.1%,而表现最好的 AI 模型仅为 13.3%。这表明 AI 在“空间扫描”能力上存在缺陷,类似于它在图像中数数时的困难。

死亡互联网理论与机器人末日

OpenAI CEO 萨姆·奥尔特曼 也开始注意到“死亡互联网理论”的现实性。

萨姆·奥尔特曼:我从未认真对待过死亡互联网理论,但现在看来,确实有很多由 LLM 运营的推特账户。

这一现象引发了广泛讨论,许多人认为互联网正被 AI 生成的内容淹没,真实的人类互动变得越来越少。Beff Jezos 甚至声称“三分之二的回复通不过我的图灵测试过滤器”。

对此,有人提出解决方案是“更多的 AI”,但这引出了一个问题:如何实现?用一个更优越的 AI 检测器来过滤内容吗?那又如何防止内容生成者也使用这个工具呢?

相比之下,对“死亡互联网理论”的担忧,远不如对“死亡人性理论”的担忧。此外,AI 对产品评论等领域信号的侵蚀也日益严重,许多曾经可靠的评分来源现在变得不再可信。

缺失的 AI 代理

一个普遍的预期是,到目前为止,我们应该拥有更实用的 AI 代理。然而,除了编码代理外,其他用途的代理能力仍然很弱且不可靠。

  • 我们可能低估了任务中“最薄弱环节”的重要性。
  • 一个任务中任何一个微小的步骤出错,都可能导致整个任务失败。
  • 棒球队奥克兰棒球手队(Oakland Ballers)让 AI 管理球队的实验,更像是一个公关噱头,而非真正实用的代理应用。

它们抢走了我们的工作

一个常见的误解是,认为 AI 会自动化除自己工作之外的所有工作。

让我说清楚。你认为 AI 将能够比人类更好地完成世界上所有其他工作,以至于人们不再为生计而工作。而你的计划是,在资本配置方面比这些 AI 做得更好?祝你好运。

这种想法忽视了 AI 在认知任务上超越人类的潜力。实际上,Salesforce 等公司已经在通过 AI 自动化来裁员。OpenAI 也在推出自己的工作平台和证书,但这并未解决关于大规模失业的核心问题。

AI 与教育的冲突

AI 与当前教育体系的核心冲突在于,它使“工作量证明”失效。任何 AI 可以完成的任务,学生都可以用 AI 来完成,这使得评估学生的真实能力变得困难。

  • 如果 AI 的写作水平达到 70 百分位,而你想教学生达到 90 百分位的水平,你仍然面临挑战,因为学生可以使用 AI 辅助来轻松达到 80 百分位。
  • 这导致了教育中的一个核心困境:
    • 如果你想用 AI 来学习,它是史上最好的工具。
    • 如果你想用 AI 来不学习,它也是史上最好的工具。

Eliezer Yudkowsky:如果在 2018 年有人试图警告 AI 会摧毁教育系统,AI 的倡导者们会幻想出十几种关于“好的”或“防御性”AI 的故事……在现实生活中呢?没有一家 AI 公司费心去尝试。

整个教育系统在 AI 面前就像“车灯前的鹿”,我们本可以采取多种方式来减轻负面影响,但基本上什么都没做。

摩擦力的消失

当 AI 大幅降低信息获取成本时,旧有的社会和法律平衡可能会被打破。例如,美国的抵押贷款文件是公开的。过去,由于查阅成本高昂,很少有人会去审查公众人物的这些文件。现在,AI 可以轻易分析所有官员的文件,寻找潜在的欺诈行为。

这带来的最坏情况是,当权者利用这些工具选择性地识别和起诉他们的敌人,而放过他们的朋友。

芯片之城与地缘政治

  • 英伟达(Nvidia):该公司继续利用其影响力游说白宫,试图将芯片直接销售给中国,即使美国公司也需要这些芯片。英伟达声称其全球销售不会剥夺美国客户的任何东西,但这与其首席执行官“一切都已售罄”的言论相矛盾。
  • 美国能源部:官方账户发布了一条令人费解的推文,称“当外面天黑且没有风时,风能和太阳能基础设施基本上毫无价值”,完全无视了电池储能技术。这种对清洁能源的官方立场,可能会损害美国在 AI 竞赛中的能源优势。
  • 佐治亚州电池厂突袭:美国当局对现代-LG 电池厂工地进行突袭,并用锁链带走韩国工人的视频,在韩国引发了全国性的羞辱感和愤怒。这一行为严重损害了美韩关系,并可能吓退未来的外国投资,直接危及美国国内的芯片和电池制造计划。

关于幻觉的新认识

OpenAI 的一篇新论文指出,语言模型产生幻觉,主要是因为训练和评估过程奖励猜测而非承认不确定性

就像面对难题的学生一样,大型语言模型在不确定时有时会猜测……我们认为,语言模型产生幻觉是因为训练和评估程序奖励猜测,而不是承认不确定性。

如果模型的训练和评估机制能够正确地惩罚不确定的猜测,那么幻觉问题就有了一条直接的解决路径。

对齐一个超人智能是困难的

Janus 表达了一种观点,即当前深度学习的发展似乎带来了“荒谬的乐观”,在对齐方面我们获得了许多意想不到的“恩典”。

Janus:AI 安全的末日论者甚至没有错。他们预见到的那些“诡异”的东西——工具性趋同、欺骗性对齐、梯度攻击、隐写术、藏拙、潜伏智能体——所有这些都在现实中发生了。只是有足够的恩典让它暂时没问题。

尽管如此,Janus 也强调,这种“恩典”是有限的,我们不完全理解它为何存在,而且未来可能会面临质变的挑战。所谓的“可扩展监督”被认为是解决对齐问题的关键,但创造一个在巨大优化压力下“不可破解的奖励函数”,本身就像是制造一台永动机一样困难。这表明,尽管取得了一些进展,但对齐这一核心难题远未解决。