这个诡异的机器人靠刷 YouTube 学会了像人类一样说话

一款名为 EMO 的机器人通过自我观察和观看大量 YouTube 视频，学会了模仿人类说话时极其逼真的唇部动作。这项技术让 EMO 在不理解语言或情感的情况下，仅通过模拟口型就获得了人类的信任感。尽管这有望提升机器人在护理和教育领域的互动体验，但也引发了深刻的伦理担忧，即人类基于面部表情的信任机制可能被机器轻易模仿和利用。

一个靠“照镜子”和“刷视频”学习的机器人

EMO 的学习过程分为两个核心阶段，完全无需人工编程指导其嘴部如何运动。

第一步：自我探索 EMO 是一个由 26 个内部马达控制的硅胶人脸。研究人员让它对着镜子，通过不断尝试成千上万种微小动作，自主学习其内部信号如何转化为外部可见的面部表情。
第二步：模仿学习 随后，研究人员让 EMO 观看了数小时的 YouTube 视频，内容是人们用不同语言说话和唱歌。EMO 并不理解词语的含义，但它成功地将听到的声音与它已掌握的面部动作联系起来，从而学会在发出特定声音时做出相应的口型。

效果出奇地好

为了验证 EMO 的说服力，研究团队向超过 1300 人展示了它说话的视频。

在对比测试中，EMO 通过自我学习实现的口型同步效果远超其他传统技术方法。
参与者普遍认为，EMO 的嘴部动作最接近真实人类，最具说服力。研究人员自己也承认，其逼真程度“令人不安”。

即便是像“B”和“W”这样需要复杂唇部动作的辅音，EMO 在经过持续练习后，准确性也在不断提高。

逼真的嘴形为何如此重要？

人类在判断他人是否“真实”时，极度依赖面部表情，这关乎信任的建立。

信任的基石： 眼动追踪研究表明，我们在对话时会高度关注对方的面部，其中很大一部分注意力都集中在嘴上。
影响感知： 嘴部动作的准确与否，甚至会影响我们对所听到内容的理解和感受。当口型同步时，我们会感到舒适并产生信任；反之，则会感到别扭和不安。
应用前景： 研究人员表示，这项技术可以使用于护理、教育或陪伴的机器人与人类的互动更加顺畅自然。

模拟人类行为引发的担忧

这项技术的背后隐藏着一个更深层次的问题。

EMO 并没有学习语言、情感或意图，它只是通过观察和海量数据，学会了如何“表现”得像人。这是一个为了看起来可信而设计的系统，但它本身并不具备任何真正的人类特质。

我们一直依靠面孔来判断是否可以信任他人。现在，这种判断方式似乎变得不再可靠了。