一款名为 EMO 的机器人通过自我观察和观看大量 YouTube 视频,学会了模仿人类说话时极其逼真的唇部动作。这项技术让 EMO 在不理解语言或情感的情况下,仅通过模拟口型就获得了人类的信任感。尽管这有望提升机器人在护理和教育领域的互动体验,但也引发了深刻的伦理担忧,即人类基于面部表情的信任机制可能被机器轻易模仿和利用。
一个靠“照镜子”和“刷视频”学习的机器人
EMO 的学习过程分为两个核心阶段,完全无需人工编程指导其嘴部如何运动。
第一步:自我探索 EMO 是一个由 26 个内部马达控制的硅胶人脸。研究人员让它对着镜子,通过不断尝试成千上万种微小动作,自主学习其内部信号如何转化为外部可见的面部表情。
第二步:模仿学习 随后,研究人员让 EMO 观看了数小时的 YouTube 视频,内容是人们用不同语言说话和唱歌。EMO 并不理解词语的含义,但它成功地将听到的声音与它已掌握的面部动作联系起来,从而学会在发出特定声音时做出相应的口型。
效果出奇地好
为了验证 EMO 的说服力,研究团队向超过 1300 人展示了它说话的视频。
- 在对比测试中,EMO 通过自我学习实现的口型同步效果远超其他传统技术方法。
- 参与者普遍认为,EMO 的嘴部动作最接近真实人类,最具说服力。研究人员自己也承认,其逼真程度“令人不安”。
即便是像“B”和“W”这样需要复杂唇部动作的辅音,EMO 在经过持续练习后,准确性也在不断提高。
逼真的嘴形为何如此重要?
人类在判断他人是否“真实”时,极度依赖面部表情,这关乎信任的建立。
- 信任的基石: 眼动追踪研究表明,我们在对话时会高度关注对方的面部,其中很大一部分注意力都集中在嘴上。
- 影响感知: 嘴部动作的准确与否,甚至会影响我们对所听到内容的理解和感受。当口型同步时,我们会感到舒适并产生信任;反之,则会感到别扭和不安。
- 应用前景: 研究人员表示,这项技术可以使用于护理、教育或陪伴的机器人与人类的互动更加顺畅自然。
模拟人类行为引发的担忧
这项技术的背后隐藏着一个更深层次的问题。
EMO 并没有学习语言、情感或意图,它只是通过观察和海量数据,学会了如何“表现”得像人。这是一个为了看起来可信而设计的系统,但它本身并不具备任何真正的人类特质。
我们一直依靠面孔来判断是否可以信任他人。现在,这种判断方式似乎变得不再可靠了。