Synth Daily

全自动机器人离我们比你想象的更近——Sergey Levine

机器人专家 Sergey Levine 预测,通用机器人将在未来五年内开始实现自我提升的“飞轮效应”,并有望在 2030 年前完全自主地管理家庭事务。与自动驾驶相比,机器人技术的发展速度可能更快,因为它们可以在限定范围内从小任务开始,并且能够通过人机协作和从错误中学习来持续改进。这些机器人基于结合了视觉、语言和动作的基础模型,利用预训练模型的先验知识进行感知和控制。尽管硬件成本和可靠性仍是挑战,但随着技术进步和规模化生产,机器人将极大地提升制造业和建设等领域的生产力,推动社会走向高度自动化和富裕。

何时迎来机器人时代?

机器人技术正处在一个“自我改进飞轮”的开端。这意味着机器人一旦被部署到现实世界中,它们就能通过收集经验来不断提升自身能力。

  • 启动时间: 这个飞轮效应可能在 未来一到两年内 启动。最初,机器人将被部署用于执行一些范围有限但有实际价值的任务。
  • 中期目标: 一个合理的预期是,在 五年内(大约 2028-2030 年),机器人将能够完全自主地管理一个家庭,处理洗衣、做饭、购物等日常事务。
  • 发展路径: 机器人的发展将类似于 AI 编程助手。它们最初只能完成小范围、具体的任务(如“折叠这件 T 恤”),随着能力的提升,它们将被赋予越来越大的自主权和责任范围(如“管理整个咖啡店”)。

“你真正想要的不是告诉机器人‘请折叠我的 T 恤’。你想要的是告诉它:‘嘿,机器人,你现在为我处理所有家务……每周一向我确认购物清单。’然后机器人应该能持续执行这个任务六个月或一年。”

为什么机器人会比自动驾驶发展更快?

尽管自动驾驶汽车已经发展了十多年,但通用机器人的普及速度可能会超过它。这主要有几个原因:

  • 技术起点更高: 2025 年的感知系统和对物理世界的理解能力,远比 2009 年自动驾驶刚起步时强大得多。我们现在拥有更好的工具来构建 可泛化、可扩展 的系统。
  • 从错误中学习: 机器人处理的大多数任务(如打扫卫生)允许犯错并从中学习。如果机器人弄乱了 T 恤,它可以反思并改进。而自动驾驶的错误可能是灾难性的,这使得学习过程非常困难。
  • 任务范围可控: 我们可以先让机器人在一个非常小的范围内工作,然后逐步扩大其任务范围。自动驾驶从一开始就必须应对复杂且不可预测的开放道路环境。
  • 常识的运用: 现代模型可以利用大型语言模型(LLM)的常识来推理和预测。例如,它们能理解“地面湿滑”标志的含义,这是早期 AI 系统无法做到的。

机器人如何“思考”和学习?

现代机器人并非从零开始学习,而是建立在强大的AI基础模型之上。

  • 核心架构: 它们是 视觉-语言-动作(VLA)模型。可以将其想象成一个大型语言模型,但额外连接了“视觉皮层”(用于看)和“运动皮层”(用于行动)。
  • 利用先验知识: 通过使用像 Gemma 这样的开源语言模型作为基础,机器人可以直接利用这些模型已经学到的关于世界的抽象知识,例如识别物体和理解指令。
  • 数据飞轮: 当前,机器人训练数据量远小于互联网文本数据。关键不在于一次性收集所有数据,而在于收集足够的数据来启动一个 自我维持的数据飞轮 ——让机器人在实际工作中不断学习和改进。
  • 人机协作: 人类可以通过语言指令来监督和指导机器人,这本身就是一种高效的数据来源。机器人可以从指令、观察和与人类的互动中学习。

涌现能力与未来挑战

就像大型语言模型会表现出未经专门训练的“涌现能力”一样,机器人也表现出类似的行为。

当机器人意外地一次抓起两件 T 恤时,它会开始折叠第一件,然后把碍事的第二件扔回篮子里。我们并没有专门教它这样做。这种 组合式泛化 是规模化学习的关键。

尽管前景光明,但仍有许多挑战需要解决:

  • 硬件瓶颈: 当前的硬件在 可靠性成本 方面仍是主要限制。不过,硬件成本正在迅速下降,从十年前的 40 万美元降至如今的 3000 美元,并且未来可能更低。
  • 效率问题: 如何在 模型大小、推理速度和记忆长度 之间取得平衡是一个巨大的挑战。人脑在这方面远比当前的模型高效,这表明算法和硬件架构还有很大的改进空间。
  • 产业生态: 要实现机器人产业的爆发,需要一个平衡的生态系统,同时推动软件和硬件的创新。这不仅是技术问题,也涉及投资、供应链和国家层面的长期规划。

最终,机器人和人工智能的融合将极大地提高生产力,甚至可以帮助加速构建未来 AI 所需的基础设施(如数据中心和工厂)。社会需要为这一高度自动化的未来做好准备,而 教育 是帮助人们适应这种变革的最重要工具。