Synth Daily

引入 AI 439:AI 内核、去中心化训练与通用表征

这系列研究探讨了人工智能领域的几个前沿进展:Facebook 开发的 KernelEvolve 系统能利用大语言模型(LLM)自动优化底层 AI 代码,显著提升效率;去中心化训练虽然规模尚小,但正快速发展,有望改变 AI 算力格局;PostTrainBench 基准测试表明,顶尖 AI 已能有效训练其他模型,展现了自我改进的潜力;最后,研究发现不同 AI 模型在规模扩大后,对物质世界的内部表征会趋于一致,这预示着未来可能出现一个通用的世界知识表征库。

AI 自动编写和优化底层代码

Facebook 的 KernelEvolve 系统利用 AI 自动化设计和优化 AI 推理内核(kernel),这些内核是运行 AI 模型(如广告推荐系统)的基础软件组件。这标志着 AI 已开始用于加速自身部分核心环节的开发。

  • 工作原理: 系统接收用户指令(如“为某硬件生成一个 Triton 内核”),然后通过多种内部和外部的大语言模型(如 GPT、Claude、Llama)生成候选代码。这些代码经过评估和测试后,优秀的版本会被存入知识库,用于改进未来的代码生成。
  • 显著成效: KernelEvolve 将原本需要数周的内核开发时间缩短至 几小时。在生产环境中,它生成的内核性能与手动设计的相当,某些情况下甚至比现有基准 高出 17 倍。该系统已成功为英伟达 GPU、AMD GPU 及 Meta 自家的 MTIA 芯片部署了优化内核。
  • 高正确率: 在公开基准测试 KernelBench 上,KernelEvolve 在所有 250 个问题中实现了 100% 的通过率,展示了其高度的可靠性。

“我们设想的未来是,LLM 代理将成为异构 AI 系统的通用编译层,通过知识注入而非手动移植来自动适应新硬件。KernelEvolve 是实现这一愿景的第一步。”

在 Meta 这样规模的公司,微小的性能提升即可转化为数百万美元的成本节约。KernelEvolve 作为一个持续运行的自我完善系统,不断优化着服务于数十亿用户的数百个模型,这实质上是一个用于研究用户行为并投放更精准广告的合成系统。

去中心化训练的崛起与局限

去中心化训练,即集合分布在各处的计算资源来共同训练一个 AI 模型,正在快速发展。尽管它目前还无法与顶级公司的集中式训练规模相匹敌,但它为更广泛的群体参与模型开发提供了可能。

Epoch AI 的一项分析显示,去中心化训练的计算量正以每年 20 倍 的速度增长,远超前沿模型训练每年 5 倍 的增长率。然而,两者在绝对规模上仍存在巨大差距。

  • 规模差距: 目前最大的去中心化训练所用的计算量,比训练 Grok 4 这样的大型前沿模型要少约 1000 倍。最大的去中心化计算网络,其有效吞吐量也比前沿 AI 数据中心小约 300 倍
  • 增长潜力: 历史上像 folding@home(蛋白质折叠)和比特币这样的去中心化项目曾利用了远超当今 AI 训练的计算资源。这表明,去中心化 AI 训练的规模仍有 30 到 3000 倍 的增长空间。

从根本上说,去中心化训练是一种可能改变前沿 AI 计算政治格局的技术。目前,AI 的前沿由少数几家美国公司决定。去中心化训练为学术界、政府、独立研究者等群体提供了一个集合资源、改变这一动态的途径。

尽管去中心化训练可能永远无法完全追平最前沿的水平,但它越接近,其影响力就越大,尤其是在推动开源模型发展方面。

AI 能否训练另一个 AI?

图宾根大学发布了 PostTrainBench,这是一个新的基准测试,旨在评估顶尖大语言模型(如来自 OpenAI、Anthropic、Google 的模型)微调和改进其他开源模型的能力。

结果显示,顶尖 AI 已经能够将开源模型在特定基准测试上的性能提升 20% 以上,虽然这与人类专家能达到的 60% 以上的提升仍有差距,但已展示出强大的潜力。

  • 测试方式: 给定一个目标(如提升某个模型的数学能力)、计算资源(一个 H200 GPU 使用 10 小时)和工具,AI 代理(如 GPT 5.1 Codex Max)会自主完成微调过程,并输出一个优化后的模型。
  • 结果排名: OpenAI 的 GPT 5.1 Codex Max 表现最佳,在所有测试中取得了平均超过 30% 的性能提升。

这类基准测试就像是 AI 自我改进能力的一声“警报”。它衡量了 AI 执行复杂、多步骤、长周期的研究任务的能力。结果表明,今天的顶尖模型在 AI 研究的某些环节上,已经与人类的能力相差不远。

AI 正在形成对物理世界的通用表征

麻省理工学院(MIT)的一项研究发现,随着 AI 模型变得越来越大、越来越智能,它们对世界(特别是物质世界)的内部表征会变得越来越相似,最终趋于一致。

研究人员分析了近 60 个不同的科学模型,涵盖了从分子、材料到蛋白质等多种数据类型。他们发现:

  • 表征趋同: 随着模型性能的提升和训练规模的扩大,它们对物理现实的表征会 趋于一致。表现较差的小模型则会形成各种“奇特”且互不相通的表征。
  • 规模是关键: 研究再次印证了“规模法则”——扩大训练规模,而非依赖复杂的架构或归纳偏见,是通往更通用、更强大模型的途径。

这一发现的惊人之处在于,大规模 AI 模型或许能为我们创造一个关于世间万物的、细节丰富的“通用表征库”。我们可以通过验证这些表征与模型性能的相关性来确认其有效性。

未来,AI 系统可能让所有人都能调用对任何事物(无论是大象还是类星体)的深刻、有用的通用表征,从而极大地实现知识和想象力的民主化。