Synth Daily

Import AI 445:决胜超级智能之时;AI 攻克前沿数学证明;机器学习研究新基准面世

这篇内容探讨了人工智能领域的几项关键进展。首先,经济学家分析指出,由于人们对 “人际接触” 的内在需求,AI 革命可能不会导致大规模失业,反而会促进人工服务业的繁荣。其次,Meta 公司发布了名为 Kunlun 的新型推荐系统,并成功为其建立了类似大语言模型的 “缩放定律”,显著提升了广告推荐效率。同时,哲学家尼克·博斯特罗姆(Nick Bostrom)提出,为了拯救更多生命,我们应加速研发超级智能,即便这伴随着风险,并建议仅在最后阶段才考虑暂停。最后,文章介绍了两个新的评估工具:用于测试 AI 独立科研能力的 AIRS-BENCH 基准,以及旨在检验 AI 创造力的未公开数学难题集 First Proof

AI 与“人际接触”的经济学

经济学家 Adam Ozimek 认为,即使 AI 技术能够胜任所有人类工作,人们对 “人际接触” 的偏好仍会确保某些人工岗位的存在。

  • 技术无法完全替代的需求: 许多早已可以被自动化的工作,如现场音乐表演、演艺、餐饮服务和部分销售岗位,至今仍由人类担任,因为消费者愿意为这种真人服务付费。
  • “人际接触”是一种正常商品: 经济学上,“正常商品”指收入增加时需求也会随之增加的商品。这意味着,随着社会整体变得更富裕,人们对高端餐厅、私人管家等需要人际互动的体验需求会上升。

“需求将永远存在于那些能提供我称之为‘人际接触’的特定工作岗位上。”

这一观点指出了一条穿过 AI 革命的可能路径:AI 自动化了大部分现有经济活动后,社会对 “人类工匠” 的需求可能会激增,这些新旧职业的薪资水平也可能因经济增长和政策支持而大幅提高。

Meta 的推荐系统突破:Kunlun 与缩放定律

Meta 公司公布了其新型推荐系统 Kunlun 的细节,它不仅比以往的系统效率更高,还为推荐模型领域建立了可预测的 “缩放定律” (Scaling Laws)。这对于以广告为核心业务的公司至关重要,因为推荐系统直接影响着数十亿用户的注意力和消费习惯。

  • 推荐系统与大语言模型的差异: 建立推荐系统的缩放定律比大语言模型更具挑战性,因为它们需要处理异构特征空间,导致计算效率低下。推荐系统的 模型 FLOPs 利用率 (MFU) 仅为 3-15%,远低于大语言模型的 40-60%。
  • Kunlun 的优化: 通过优化的架构设计,Kunlun 将在英伟达 B200 GPU 上的 MFU 从 17% 提升至 37%。
  • 为“金钱”建立缩放定律: Kunlun 模型的性能提升与投入的计算资源和模型层数之间存在可预测的幂律关系。这一发现让 Meta 能够更可预测地投入巨额计算资源以换取回报。

这一进展意味着,那些对社会影响最巨大的 AI 系统(引导数十亿人注意力的系统)的性能变得更加可预测。通过建立这些缩放定律,Meta 为自己投入更多资源、打造更强模型铺平了道路。

目前,Kunlun 模型已部署于 Meta 的主要广告模型中,并带来了 1.2% 的顶线指标提升

为何应加速研发超级智能

哲学家尼克·博斯特罗姆(Nick Bostrom)认为,即使研发超级智能存在导致人类灭绝的风险,我们也应该积极推进,因为它有潜力拯救和延长生命。

“正如有人坚持认为建造通用人工智能(AGI)会导致人人死亡一样,我们也可以同样坚持认为,如果不建造它,人人也都会死亡。……我们面临的选择不是在无风险的基线和有风险的 AI 冒险之间做决定,而是在不同的风险轨迹之间做出选择。”

追求超级智能的主要理由是,它可以极大地改善人类健康和预期寿命。每延迟一刻部署超级智能,就意味着人类(尤其是在发展中国家)要承受更多的痛苦。博斯特罗姆认为,只要安全研究能有效降低风险,加速研发就是有利的。

关于备受争议的 “暂停开发”,他持怀疑态度,并指出了几点潜在的负面影响:

  • 时机过早: 太早暂停会让人们觉得暂停措施无效。
  • 糟糕的监管: 可能会因不当的监管而扼杀未来的有益进展。
  • 军事化风险: 若只有军方可以继续研发,将产生巨大的社会风险。
  • 延长危险期: 世界将长期暴露于当前 AI 带来的风险中,却无法获得更高级 AI 提供的防御能力。

博斯特罗姆的最终观点是:“速于进港,缓于泊位”。我们应该快速推进 AGI 的能力建设,然后在接近部署的关键阶段,根据所掌握的信息,准备好放慢速度甚至短暂暂停,以进行审慎的调整。

AIRS-BENCH:测试 AI 的独立科研能力

研究人员发布了 AIRS-BENCH,一个用于评估 AI 系统独立完成前沿机器学习研究任务能力的基准。该基准包含 20 个来自近期机器学习论文的真实研究任务,涵盖分子、问答、时间序列、代码和数学等多个领域。

在测试中,尽管没有一个模型能达到顶尖人类研究员的水平,但一个有趣的发现是,AI 解决问题的方式可能与人类不同,而且通常更为复杂。例如,在一个文本分类任务中,人类的最佳方法是微调 RoBERTa 模型,而 AI 模型则构建了一个由多个模型组成的复杂集成系统。

这种复杂性本身就很有趣。它引发了一个问题:随着模型规模的扩大,它们提出的解决方案是否会变得更简洁?正如布莱士·帕斯卡所说:“我把这封信写得长了些,只因为我没有时间把它写得短一些。”

AIRS-BENCH 为我们提供了一个研究 AI 智能演进路径的独特视角。

First Proof:检验 AI 创造力的前沿测试

一个由多名数学家组成的团队创建了 First Proof,这是一个独特的数学测试基准,旨在检验 AI 能否解决那些人类已知答案但尚未公开发表的难题。

  • 真实的“未见”问题: 该基准包含 10 个来自不同数学领域的真实研究问题,其答案由作者持有,并将于 2026 年 2 月 13 日公开。
  • 保密性的优势: 由于这些问题的解法尚未出现在互联网或公开演讲中,它构成了对 AI 真实创造力的一次有效检验。
  • 当前 AI 的局限: 测试表明,目前最顶尖的 AI 模型还无法解决这些问题。

“与普遍认为研究只是解决明确定义的古老问题(如费马大定理)的观念相反,现代研究中最重要的部分其实是弄清楚问题本身是什么,并建立可以回答它的框架。”

First Proof 的重要性在于,它为我们提供了一个衡量 AI 是否能实现与人类相似的 创造性飞跃 的标尺。如果 AI 能通过这类测试,下一步的挑战将从“解决问题”转向“提出值得解决的问题”。