当 AI 开始自己搭建自己时，会发生什么？

AI 研究者 Richard Socher 的新公司旨在构建一种能递归式自我改进的超级智能。这个系统的核心目标是让 AI 学会自动识别并修复自身的缺陷，无需人类干预，从而实现整个研究流程（从构思、实现到验证）的自动化。其独特方法是利用“开放式探索”的概念，并优先从 AI 研究和安全测试领域入手。最终，算力将成为驱动这类系统进化的唯一关键资源，人类面临的重大问题将转变为如何分配算力。

什么是递归式自我改进

递归式自我改进与普通的自动化研究不同。普通的自动化只是让 AI 改进某个东西，而真正的递归式自我改进是让 AI 具备一种自我意识，能够发现自身的短板并主动修正。

这个过程的目标是让 AI 能够自动化地完成整个研究循环：

构思： 提出新的研究想法。
实现： 将想法付诸实践。
验证： 评估结果并发现新问题。

这种能力首先会应用于 AI 自身的研究，但最终可能扩展到任何科学领域，甚至物理世界。当 AI 开始研究和改进自己时，它的力量将尤其强大。

核心方法：开放式探索

团队实现这一目标的核心技术是“开放式探索”（open-endedness）。这个概念借鉴了生物进化，即在一个环境中，生物不断适应，其他生物再反向适应，这个过程可以持续数十亿年并不断产生新的复杂性，就像眼睛的进化一样。

开放式探索的一个关键应用是“彩虹攻防”（Rainbow Teaming）。传统的“红队测试”是让人类想办法诱导 AI 做出错误行为（例如，教人如何制造炸弹）。

而彩虹攻防则更进一步：

用第二个 AI 来攻击第一个 AI。
攻击者 AI 的任务是想出无数种方法，让被攻击的 AI 说出不该说的内容。
两个 AI 在数百万次的迭代中共同进化，攻击者不断发现新的攻击角度（因此被称为“彩虹”），而被攻击者则通过学习这些攻击来弥补自己的安全漏洞。

这个过程使得 AI 能够变得越来越安全，因为它能发现并防御远超人类想象的攻击方式。

目标与未来

Socher 强调，他们不仅仅是一个研究实验室，更是一家致力于推出实际产品的公司。他预计在未来几个季度内就会发布首个成果，而不是数年。

随着这类自我改进系统的成熟，一个关键的转变将会发生：

算力将成为唯一的限制性资源。系统的改进速度只取决于我们能为其提供多快的计算能力。

未来，人类社会面临的最重要问题之一将是如何分配算力。我们需要决定：“这里有一种癌症，那里有一种病毒——我们想先解决哪个？我们愿意为此投入多少算力？” 这将彻底改变我们解决重大问题的方式，使其成为一个资源分配问题。