为何当今人形机器人难以学会灵巧操作

尽管获得了巨额投资,但目前的人形机器人无法学会灵巧操作。其根本原因在于它们缺乏人类所拥有的丰富触觉和力觉反馈系统,而仅通过视频进行学习的训练方法无法捕捉这些关键的感官信息。此外,现有双足机器人的行走方式使其在人类环境中存在严重的安全隐患,物理缩放定律更意味着大型机器人将变得极其危险。因此,未来15年内的机器人将演变为带有轮子和专用工具的特化形态,而非当前试图模仿人类的通用型机器人。

期望与现实的巨大鸿沟

当前,人形机器人领域充满了巨大的期望和投资。许多公司认为,与其为不同任务制造数百万种专用机器人,不如创造一种能完成数百万种任务的通用人形机器人。特斯拉的CEO甚至预测,其人形机器人 Optimus 可能创造30万亿美元的收入。

这种设想的基础是,人形机器人将能无缝融入为人类设计的环境,直接接管人类的体力劳动。然而,要实现这一点,机器人必须具备与人类相当的灵巧操作能力

认为这在未来几十年内能够实现,纯属幻想。

灵巧操作:一个长达65年的挑战

自人工智能概念诞生以来,研究人员就一直在努力让机器人掌握物体操控。然而,时至今日,工业领域最主流的机器手仍然是简单的平行双爪夹具,与几十年前的设计差别不大。

尽管研究人员制造了许多模仿人手的多关节机械手,但没有一款能够在现实世界的应用中展现出真正的、通用的灵巧性。它们或许能在精心设计的视频中完成特定任务,但无法泛化到其他场景。

    • 挑战的艰巨性: 想象一下让机器人完成一个8岁孩子能做的任务,比如将袖子内外翻反的衬衫挂起来,或者清理自己手上的花生酱。
    • 通用性的缺失: 当前的机器人无法应对人类日常生活中无数种变化多端的灵巧任务。

学习方法的根本缺陷:为何“端到端学习”会失败

目前,许多公司和研究项目试图通过让机器人观看人类操作视频来“学习”灵巧性。他们认为,只要有足够多的视觉数据,就能训练出熟练的机器人。

特斯拉已经转向一种纯视觉的训练方法,让工人佩戴摄像头记录折叠T恤等日常任务,然后用这些视频来训练 Optimus。

这种方法看似借鉴了近年来在语音识别、图像标注和大型语言模型(LLM)上取得巨大成功的“端到端学习”模式。然而,这种借鉴是建立在一个错误的理解之上。

一个惨痛的教训 (A Bitter Lesson): 顶尖研究者认为,依赖人类知识和偏见来构建系统是错误的,应让大规模计算和学习来解决问题。

一个更好的教训 (A Better Lesson): 作者反驳说,所有成功的案例都不是纯粹的“端到端”。它们都依赖于精心设计、模仿人类生理结构的前端处理系统。

    • 语音识别: 系统并非直接处理原始音频,而是先通过复杂的信号处理技术(如傅里叶变换、梅尔滤波器)来模拟人耳处理声音的方式。
    • 图像识别: 系统使用“卷积神经网络”,这种结构模仿了动物视觉皮层的组织方式,使其能够以平移不变的方式识别图像中的特征。
    • 大型语言模型: 系统在处理文本前,会使用“分词器”(tokenizer)和“嵌入”(embedding)技术,这些都是基于人类对语言结构的深刻理解而设计的。

这些成功的应用都依赖于对相应人类感官系统的模拟。但对于触觉,我们还没有开发出能够捕捉、存储、传输和回放其复杂信息的技术。因此,试图在没有触觉数据的情况下教会机器人灵巧操作,注定会失败。

触觉:灵巧操作不可或缺的核心

人类的灵巧操作在很大程度上依赖于极其丰富的触觉和力觉反馈,而不仅仅是视觉。

一个简单的实验清晰地证明了这一点:一个正常人可以轻松地从盒中取出火柴并点燃。但如果将此人的指尖进行麻醉,使其失去触觉,这个简单的任务就变得异常困难和笨拙,耗时是原来的四倍。

    • 丰富的感觉输入: 人手皮肤拥有约 17,000个 低阈值机械感受器,能够感知压力、振动、拉伸等多种信息。
    • 超越视觉的信息: 触觉提供了视觉无法捕捉的关键信息,例如物体的材质、重量分布、滑动趋势等,使我们能够实时调整握力和姿态。
    • 错误的训练数据: 仅收集视觉数据,完全忽略了触觉和力觉,相当于试图在没有味觉数据的情况下教机器烹饪。这从根本上就是错误的。

行走的安全隐患:一个被忽视的物理问题

除了操作难题,现有的人形机器人在行走方面也存在巨大的安全风险。人类行走是一种高效、弹性的被动动态过程,而机器人行走则依赖高能耗的电机不断进行僵硬的平衡校正。

这种僵硬的行走方式意味着,一旦机器人失衡摔倒,其腿部会携带巨大的动能,对周围的人或物体造成严重伤害。

更关键的是 物理缩放定律 的影响:

如果将一个物理系统的尺寸放大一倍,其质量会变为原来的八倍($2^3$)。这意味着要控制它需要八倍的能量,其破坏力也呈指数级增长。

因此,一个半人高的“安全”机器人,在被放大到成人尺寸后,将变得极其危险。在开发出更安全的行走机制之前,人形机器人无法被认证在与人类共享的空间中部署。

人形机器人的真正未来

“人形机器人”这个词的含义将会改变,就像“飞行汽车”现在指的是电动垂直起降飞行器(eVTOL)一样。未来的机器人将会朝着更加实用和专业化的方向发展。

    • 形态的演变: 机器人将拥有轮子而非双腿,手臂数量和末端工具(夹爪、吸盘等)将根据任务需求而变化。
    • 传感器的多样化: 它们会配备超越人类视觉的传感器,例如主动光源、非可见光摄像头,甚至在手上或身体其他部位安装“眼睛”以更好地感知环境。
    • 从通用到专用: 未来将会有许多形态各异的机器人,它们被设计用来高效完成特定的任务,而不是试图成为一个“万能”的人类替代品。

今天我们所看到的、试图完全模仿人类形态的机器人,最终将被这些更高效、更安全的专用机器人所取代。