Import AI 437:AI 协同进化;RL 的白日梦;AI 标签可能要把人烦死
研究人员提出,与其追求危险的自我改进型超级智能,不如发展人机协同的智能模式,以实现更安全、透明的 AI 进步。同时,看似简单的 AI 标签政策,在实践中可能因欧盟现有法规的复杂性和高昂成本而变得难以执行。为了推动强化学习与大模型的结合,多国学者开发了 SimWorld 模拟器,为 AI 代理提供丰富的训练环境。此外,DeepMind 的 SIMA 2 代理结合了 Gemini 模型和游戏数据,展现了其在虚拟世界中的通用能力和自我改进潜力,预示了未来机器人技术的发展方向。
AI 协同进化:一个更安全的选择?
Facebook 的研究人员认为,构建能够自我完善并最终达到超级智能的 AI 系统“对人类充满危险”,从滥用到失控皆有可能。他们提倡一种替代方案:人机协同进化,共同发展超级智能。
这种方法的理念是,人类与机器合作进行 AI 研究,从构思到实验的每一个环节都紧密相连。其核心优势在于:
- 更快的进展: 协同工作可以更快地找到重要的范式转移。
- 更高的透明度与可控性: 相比 AI 的直接自我改进,协同进化过程更加透明,也更容易引导。
- 以人为本的安全性: 更侧重于开发对人类安全有益的 AI 技术。
协同进化的具体内容包括人类与 AI 共同定义目标、制定研究方法、设计实验以及合作开发安全措施。
然而,这种理想化的设想也引发了质疑。正如美剧《火线》中的一句台词:“你希望事情是一种样子,但它偏偏是另一种样子。” 研究人员或许只是在面对自动化 AI 研发即将到来的现实时,表达了他们对一个更理智、更可控世界的渴望。
AI 标签政策的隐性成本
AI 标签是一个看似简单且广受欢迎的政策提议,要求 AI 制造商为其模型附上标签,说明其构成、推荐用途和安全信息。这个想法听起来很合理,但现实远比想象的复杂。
欧盟现有的简单标签政策已经给宜家等公司带来了巨大的合规负担,他们不得不投入数千小时来调整产品标签的生产流程。这揭示了一个关键问题:政策的执行成本非常高昂。
许多 AI 政策的提倡者往往忽略了合规所需付出的巨大代价。虽然有人认为,为了应对超级智能 AI 可能带来的国家安全风险,付出一些代价是必要的,但在制定政策时,必须充分认识到这些背景因素和潜在的实际影响。
SimWorld:为 AI 打造的高保真模拟世界
多国研究人员联合发布了 SimWorld,一个基于虚幻引擎 5 的高级模拟器,旨在为 AI 代理的训练和测试提供一个丰富、可编程的环境。它结合了逼真的物理和社交动态,并支持通过自然语言生成开放式世界。
SimWorld 的核心组件包括:
- 虚幻引擎后端: 提供强大的渲染、物理模拟和丰富的环境资源库。
- 环境层: 基于 Python,帮助开发者编程和控制环境,如生成场景、编辑物体等。
- 代理层: 为 AI 代理提供 Python 接口,使其能够感知世界并采取行动。
更进一步,SimWorld 还集成了文生 3D 模型,允许用户通过自然语言即时生成新资产并融入模拟环境中。
在语言模型成为主流之前,许多人曾寄希望于通过强化学习(RL)在游戏环境中训练出通用智能。然而,当时的方法是从零开始,成本高昂且效果有限。如今,我们又回到了强化学习的思路上,但不同的是,现在的 AI 代理可以建立在像 Gemini 或 ChatGPT 这样强大的基础模型之上,SimWorld 这样的环境则为其提供了进一步微调和提升能力的数据来源。
SIMA 2:DeepMind 的通用智能代理
DeepMind 推出了 SIMA 2,一个“可扩展、可指导的多世界代理”。它通过在一个 Gemini 级别的基础模型上,使用来自多种视频游戏和教育软件的交互数据进行微调,从而构建出一个通用的游戏代理。
SIMA 2 的关键特性:
- 强大的泛化能力: 该代理在从未接触过的游戏中也表现出色,例如在一款名为 ASKA 的维京生存游戏中。
- 自我改进能力: SIMA 2 能够利用另一个 Gemini 模型来为自己设定任务、评估表现并筛选出成功的行为轨迹。这些数据随后被用于进一步的微调,使其能够自动引导自己提升性能。
通过这种自我改进机制,SIMA 2 最终能够在一小时内完成建造庇护所等复杂任务。
这项研究展示了一条通往更强大自主系统的清晰路径。未来,类似的方法很可能被用于训练机器人,使其能够在现实世界中执行开放式任务。尽管 SIMA 2 在处理超长期的复杂任务和记忆方面仍面临挑战,但它无疑为连接虚拟与物理世界、实现更有能力的具身智能代理指明了方向。