Synth Daily

寻找完美对口型机器人的终极探索

哥伦比亚大学的研究人员利用受人脑启发的 AI 模型,开发出一种能流畅进行多语言对口型的机器人。该系统通过复杂的唇部动作,旨在让机器人与人类的交流更自然,避免“恐怖谷效应”带来的不适感。尽管这项技术在教育和老年护理领域前景广阔,但研究也强调,需要警惕机器人与人类建立的情感连接被滥用的潜在风险。

为什么流畅的口型至关重要

为了能与机器人进行有效沟通,它们必须学会更好地对口型。嘴唇的复杂动作是人类建立联系的关键,尤其是在嘈杂的环境中。

长期以来,研究人员一直难以制造出能够与音频巧妙同步的机器人嘴唇。

传统的机器人存在 机械限制,这限制了其唇部运动的范围和速度,并且常常出现 指令延迟

一种受大脑启发的解决方案

哥伦比亚大学的团队利用了受人脑启发的 神经网络 AI 模型,让机器人能够做出与各种词语同步的平滑口部动作。

  • 物理设计:机器人脸部覆盖着柔软的硅胶“皮肤”,并拥有 10 个自由度,可以实现各种复杂的唇部动作。
  • AI 训练:研究团队首先让机器人进行各种唇部运动并录制下来,然后将 AI 生成的“理想”口型视频作为范本,对模型进行训练。

该系统最终能让机器人嘴唇形成与 24 个辅音和 16 个元音 相关的口型。

成果:跨越语言和“恐怖谷”

这项新技术让机器人与人类的互动更加逼真,有助于减轻人们在面对仿真机器人时可能产生的不适感。

“形成复杂唇形的能力……增强了更细致的语音同步,提供了更逼真的互动,从而减轻了‘恐怖谷效应’的某些风险。”

  • 超越现有技术:与现有方法相比,该系统的口型与 AI 生成的“理想”视频最匹配。
  • 支持多种语言:机器人能够令人信服地“说出”包括韩语、法语和阿拉伯语在内的 10 种不同语言。
  • 表现形式多样:它甚至还能表演卡拉 OK。

未来应用与伦理警示

尽管还有改进空间,但这项技术已展现出巨大的应用潜力。研究人员认为,它未来可用于 教育领域照顾有认知衰退的老年人,因为它有助于我们在“人的层面上”与机器人建立联系。

然而,研究者也提出了严肃的警告。

与机器人增强的情感联系可能“被利用来获取毫无戒心用户的信任,尤其是儿童和老人”,设计者必须采取措施防范这些风险。

尽管目前的机器人还远非完美自然,但这无疑是朝着跨越“恐怖谷”、创造能与人类建立情感联系的机器迈出的重要一步。