世界模拟器的黎明
近年来,通过简单的因果预测任务,人工智能模型在语言和视频领域展现出了通用智能的潜力。类似 Odyssey-2 的世界模型通过分析海量视频和交互数据,学习世界状态及其动态演变,从而实现了无需手工编程规则的因果推理和长时记忆能力。与依赖固定规则的传统模拟器不同,这些新型模型能够动态分配计算资源,覆盖更广泛的现象,并支持实时、连续的多模态交互,标志着模拟技术正从静态工具向智能、持续的通用世界模拟器转变。
通过观察来学习世界
简单的因果预测目标可以催生出惊人的通用智能。在语言领域,通过训练模型预测下一个词,使其必须内化语法、语义和长程结构。如今,这一方法正从语言扩展到世界模型,催生了初期的世界模拟器。
一个早期的世界模拟器,如 Odyssey-2,通过预测世界如何逐帧演变来进行训练。它不依赖手工制定的规则,而是直接从观察中学习潜在的状态、动态和因果关系。
无论是预测下一个词还是下一帧画面,这种简单的预训练任务都要求模型直接从数据中学习世界是如何运作的。随着模型预测不确定性的降低,智能便开始涌现。
学习长时程与隐藏状态
世界模型需要通过推断世界的潜在状态及其随时间的变化来预测下一个观察结果。大规模、通用的视频是实现这一目标的最佳数据来源,它能促使模型学习关于物理、因果关系和物体持久性的结构。
这一点在长时程场景中尤为明显。想象一个场景:
- 有人开始给浴缸放水。
- 他离开房间几分钟。
- 在这期间,虽然浴缸不在视野内,但水位持续上升,水温发生变化,浴缸最终可能溢出。
为了在人回来时做出合理的预测,模型必须维持一个关于世界的内部状态,并推断在其未被观察期间该状态如何演变。
如果我们希望世界模型能够逐帧观察并学习世界,并在数十分钟或数小时内保持连贯,我们就需要跨越这些时间跨度的训练数据和程序。
正如在语言模型中延长上下文长度解锁了新能力一样,随着数据、架构和训练算法向更长的时间尺度推进,我们预期世界模型在表示持久状态、因果关系和长时程动态方面的能力也将出现类似的阶跃式变化。
从狭义模拟到通用模拟
传统的模拟技术有其局限性。多数现实世界的模拟都极大地简化了问题,仅用专门的、手工制作的模型来复现特定行为,而忽略无关细节。
- 领域限制: 每个模拟器都受限于特定领域和固定的假设。例如,一个刚体物理引擎对模拟天气毫无用处。
- 高昂成本: 随着系统变得越来越复杂,构建可靠的模拟器需要大量的人力投入。
世界模型则从一个全新的视角来处理模拟问题。我们不再为每个领域设计模拟器,而是用大量视频和交互数据来训练一个通用的因果模型,让它去预测接下来会发生什么。
这种方法改变了模拟的扩展方式。传统模拟器成本随保真度提升而增加,而世界模型在固定的计算预算下运行,并学会动态分配其能力,专注于最能减少预测不确定性的潜在结构。这使得单个模型能够以更少的人工干预覆盖更广泛的现象。
以自然的方式与模拟互动
如今的模拟大多是作为离线验证工具使用,交互是间接的。世界模型通过将模拟转变为一个持续进行的过程来改变这一点。当模型根据过去的观察和用户行为实时生成视频流时,模拟本身就变得具有交互性。
这意味着一种全新的交互方式成为可能。用户可以与一个能随时间保持状态的模拟系统持续互动,而不是发出命令后等待结果。
一个简单的例子是模拟导师:
- 一位模拟导师以视觉方式解释一个概念。
- 它能回应口头问题,在被打断时暂停。
- 它还能根据你的面部表情进行调整。
为了实现这一点,模型必须从长时程的视频、语言和交互数据中进行联合学习。这表明,从大量多模态数据中学习到的世界模型,可以产生感觉上连续且有状态的交互系统,支持比传统模拟器更丰富的互动形式。
与我们共建世界模拟器
Odyssey 作为一个 AI 实验室,正专注于研发通用的世界模型:即能够在长时程上学习、预测并与世界互动的因果多模态系统。这项探索仍处于极早期,最艰难的问题仍有待解决。我们期待更多研究者加入,共同推动这一前沿领域的发展。