Synth Daily

谷歌全新的“万物转万物”AI 模型太炸了

谷歌推出的 Gemini Omni Flash 视频模型,允许用户将自拍视频等素材与文本指令结合,生成看似真实的 AI 短片。尽管该模型在视频连贯性和编辑能力上优于前代,但实际测试暴露出角色形态混乱、细节跳变等明显的 “AI 破绽”。通过对玩偶和作者本人进行深度伪造实验发现,虽然生成的效果足以在社交媒体上以假乱真,甚至骗过家人,但整体仍充满诡异感,表明 AI 视频生成技术虽已非常逼真,却依然深陷“恐怖谷”。

新一代的“万物转万物”模型

Omni 是一个全新的生成模型系列,其首个发布的模型 Omni Flash 已在谷歌的 AI 视频平台 Flow 上线。与之前的 Veo 模型相比,Omni 在几个方面有所改进:

  • 支持视频输入: 用户可以上传自己的视频,并结合文本提示作为创作起点。
  • 更好的连贯性: 模型据称能利用更多真实世界知识,从而在视频中保持角色的一致性。
  • 更强的编辑能力: 支持通过文本指令对已生成的视频进行修改。

用玩偶测试:进步与诡异并存

为了验证这些新功能,作者再次使用毛绒玩具鹿“巴迪”进行了一系列实验,结果好坏参半。

一方面,视频的连贯性和对指令的遵循度确实比五个月前测试 Veo 时要好得多。例如,当要求模型创作一个“巴迪打包去度假”的短片时,AI 甚至构思出了“把蜂蜜当成防晒霜”的有趣情节。

但另一方面,即使是最好的片段也充满了 “AI 跳变”

  • 在跳伞的场景中,巴迪的朝向会突然切换。
  • 在度假短片里,蜂蜜瓶的形态在罐子和不同类型的挤压瓶之间反复变化。
  • 视频的最后一帧常常是前面所有元素的混乱堆砌,毫无逻辑。

编辑功能与高昂的成本

通过文本指令修改视频的功能虽然比 Veo 有所进步,但结果依然不稳定。当作者要求模型移除巴迪头上意外出现的鹿角时,模型照做了,但却在所有其他场景中都给它加上了鹿角。

此外,这一切都不是免费的

  • 生成视频需要消耗 15 到 40 个积分,具体取决于视频长度和输入素材。
  • 进行一轮修改则需要 40 个积分
  • 作者在使用每月 20 美元(含 1000 积分)的套餐下,仅生成了约 20 个片段并进行数次修改,就几乎耗尽了所有积分。

如果你对想生成的视频有非常具体的想法,你可能需要与模型进行大量昂贵的反复沟通,才能得到接近你设想的视频。

深度伪造自己:真实到令人不安

Omni 的一个核心优势是将 AI 生成的元素添加到真实视频中。作者用自己的一段自拍视频进行了测试,指令模型生成了自己在吃意大利面、坐在飞机上以及在埃菲尔铁塔前吃法棍面包的视频。

我真的可以说,我对我所看到的一切毫无准备。

尽管视频中存在一些微小的 “AI 破绽”,例如餐具碰撞声过于做作,或背景里出现重复的人物,但整体效果 “该死的有说服力”

  • 足以骗过家人: 作者将吃意面的视频展示给了她的丈夫。在不知道哪些是 AI 生成的情况下,他完全相信了视频的真实性,唯一让他起疑的只是那个看起来不熟悉的碗。
  • 足以以假乱真: 其他深度伪造视频也达到了可以在社交媒体上蒙混过关的水平。虽然有些片段略带卡通感,但其中一个效果非常逼真,需要反复观看才能发现是 AI 生成的。

深陷“恐怖谷”

制作一个 AI 生成的电影杰作,并不像谷歌宣传的那么容易。但 Omni 模型确实在某些方面取得了显著进步。任何拥有谷歌账户和信用卡的人,都能轻易地将一段在家拍摄的视频,变成看起来像在飞往毛伊岛的航班上。

这项技术带来的真实感和易用性,让人感到震惊又不安。我们或许还未到达“奇点”的边缘,但可以肯定的是:

我们绝对是深陷于恐怖谷之中。