Synth Daily

当 AI 开始自己搭建自己时,会发生什么?

AI 研究者 Richard Socher 的新公司旨在构建一种能递归式自我改进的超级智能。这个系统的核心目标是让 AI 学会自动识别并修复自身的缺陷,无需人类干预,从而实现整个研究流程(从构思、实现到验证)的自动化。其独特方法是利用“开放式探索”的概念,并优先从 AI 研究和安全测试领域入手。最终,算力将成为驱动这类系统进化的唯一关键资源,人类面临的重大问题将转变为如何分配算力。

什么是递归式自我改进

递归式自我改进与普通的自动化研究不同。普通的自动化只是让 AI 改进某个东西,而真正的递归式自我改进是让 AI 具备一种自我意识,能够发现自身的短板并主动修正。

这个过程的目标是让 AI 能够自动化地完成整个研究循环:

  • 构思: 提出新的研究想法。
  • 实现: 将想法付诸实践。
  • 验证: 评估结果并发现新问题。

这种能力首先会应用于 AI 自身的研究,但最终可能扩展到任何科学领域,甚至物理世界。当 AI 开始研究和改进自己时,它的力量将尤其强大。

核心方法:开放式探索

团队实现这一目标的核心技术是“开放式探索”(open-endedness)。这个概念借鉴了生物进化,即在一个环境中,生物不断适应,其他生物再反向适应,这个过程可以持续数十亿年并不断产生新的复杂性,就像眼睛的进化一样。

开放式探索的一个关键应用是“彩虹攻防”(Rainbow Teaming)。传统的“红队测试”是让人类想办法诱导 AI 做出错误行为(例如,教人如何制造炸弹)。

而彩虹攻防则更进一步:

  • 第二个 AI 来攻击第一个 AI
  • 攻击者 AI 的任务是想出无数种方法,让被攻击的 AI 说出不该说的内容。
  • 两个 AI 在数百万次的迭代中共同进化,攻击者不断发现新的攻击角度(因此被称为“彩虹”),而被攻击者则通过学习这些攻击来弥补自己的安全漏洞。

这个过程使得 AI 能够变得越来越安全,因为它能发现并防御远超人类想象的攻击方式。

目标与未来

Socher 强调,他们不仅仅是一个研究实验室,更是一家致力于推出实际产品的公司。他预计在未来几个季度内就会发布首个成果,而不是数年。

随着这类自我改进系统的成熟,一个关键的转变将会发生:

算力将成为唯一的限制性资源。系统的改进速度只取决于我们能为其提供多快的计算能力。

未来,人类社会面临的最重要问题之一将是如何分配算力。我们需要决定:“这里有一种癌症,那里有一种病毒——我们想先解决哪个?我们愿意为此投入多少算力?” 这将彻底改变我们解决重大问题的方式,使其成为一个资源分配问题。