这款 AI 模型能“读懂”物理世界的运行规律
Meta 开发的人工智能模型 V-JEPA 通过观看海量视频来学习物理世界的运作方式,其方式类似于婴儿通过观察建立对物体恒常性的直觉。该模型不预测单个像素,而是学习事物的高层次抽象表示,使其能更准确地判断事件是否符合物理规律。尽管它在测试中表现出色,甚至会因不合逻辑的现象而“惊讶”,但仍存在记忆短暂等局限性,未来的发展方向是创造更智能的机器人。
超越像素的更高层抽象
传统的视频理解 AI 通常在“像素空间”工作,平等对待视频中的每一个像素。这种方法的局限性在于,模型很容易被无关细节(如风中摇曳的树叶)干扰,而忽略了关键信息(如交通信号灯的颜色或车辆的位置)。
“当你处理图像或视频时,你不想在像素空间工作,因为有太多你不想建模的细节。”
V-JEPA 架构旨在解决这一问题。它不追求预测被遮挡区域的具体像素,而是专注于学习和重现更高层次的抽象概念,即“潜在表示”。
潜在表示只捕捉数据的核心细节。例如,对于一张圆柱体的图像,模型只需学习其高度、宽度、方向和位置等几个关键数值,而不是记住成千上万个像素点。V-JEPA 的工作流程大致分为三部分:
- 编码器 1: 处理被部分遮挡的视频帧,将其转换为潜在表示。
- 编码器 2: 处理未经遮挡的完整视频帧,同样将其转换为潜在表示。
- 预测器: 利用编码器 1 生成的(不完整的)潜在表示,来预测编码器 2 将会生成的(完整的)潜在表示。
通过这个过程,模型学会了关注视频中的核心动态和重要对象,而不是无关的背景细节。正如 Meta 的研究科学家 Quentin Garrido 所说:“这使得模型能够丢弃不必要的信息,专注于视频中更重要的方面。”
模拟物理直觉
为了测试 V-JEPA 对物理世界的理解,研究人员进行了一项名为 IntPhys 的测试。该测试要求模型判断视频中的事件是否符合物理逻辑(例如,物体是否会凭空消失或穿墙而过)。
- 结果惊人: V-JEPA 的判断准确率接近 98%。
- 对比鲜明: 一个基于像素预测的知名模型,其表现仅略好于随机猜测。
更有趣的是,V-JEPA 表现出了类似婴儿的“惊讶”反应。当一个滚动的球在被物体遮挡后没有按预期重新出现时,模型的预测错误率会急剧飙升。这表明模型基于已学到的物理规律,对未来产生了预期,并在预期落空时感到“惊讶”。
认知科学家 Micha Heilbron 对此印象深刻,他指出:“我们从发展心理学中知道,婴儿不需要大量接触就能学会这些直觉物理学。V-JEPA 的研究证明了这些规律是可以被学习的,而无需天生的先验知识。”
当前的局限与未来展望
尽管 V-JEPA 取得了显著进展,但它并非完美。计算神经科学家 Karl Friston 认为,该模型目前还缺少一个关键要素:对不确定性的恰当编码。例如,当过去的信息不足以准确预测未来时,模型无法量化这种不确定性。
2024 年 6 月,Meta 发布了新一代模型 V-JEPA 2,并将其应用于机器人技术。研究表明,该模型在经过少量机器人操作数据(约 60 小时)的微调后,可以用于规划机器人的简单动作,为未来更智能的机器人铺平了道路。
然而,新模型也暴露了其核心局限。在一个更难的物理直觉测试中,V-JEPA 2 的表现同样只比随机猜测好一点。主要原因是它的记忆力非常有限。
“在某种意义上,这个模型的记忆力让人想起一条金鱼。”
目前,V-JEPA 只能处理大约几秒钟的视频输入,并预测未来几秒钟的情况,更长远的事情则会被遗忘。克服这一短时记忆的限制,是该技术走向更广泛应用的关键。