谷歌全新的“万物转万物”AI 模型太炸了

谷歌推出的 Gemini Omni Flash 视频模型，允许用户将自拍视频等素材与文本指令结合，生成看似真实的 AI 短片。尽管该模型在视频连贯性和编辑能力上优于前代，但实际测试暴露出角色形态混乱、细节跳变等明显的 “AI 破绽”。通过对玩偶和作者本人进行深度伪造实验发现，虽然生成的效果足以在社交媒体上以假乱真，甚至骗过家人，但整体仍充满诡异感，表明 AI 视频生成技术虽已非常逼真，却依然深陷“恐怖谷”。

新一代的“万物转万物”模型

Omni 是一个全新的生成模型系列，其首个发布的模型 Omni Flash 已在谷歌的 AI 视频平台 Flow 上线。与之前的 Veo 模型相比，Omni 在几个方面有所改进：

支持视频输入： 用户可以上传自己的视频，并结合文本提示作为创作起点。
更好的连贯性： 模型据称能利用更多真实世界知识，从而在视频中保持角色的一致性。
更强的编辑能力： 支持通过文本指令对已生成的视频进行修改。

用玩偶测试：进步与诡异并存

为了验证这些新功能，作者再次使用毛绒玩具鹿“巴迪”进行了一系列实验，结果好坏参半。

一方面，视频的连贯性和对指令的遵循度确实比五个月前测试 Veo 时要好得多。例如，当要求模型创作一个“巴迪打包去度假”的短片时，AI 甚至构思出了“把蜂蜜当成防晒霜”的有趣情节。

但另一方面，即使是最好的片段也充满了 “AI 跳变”：

在跳伞的场景中，巴迪的朝向会突然切换。
在度假短片里，蜂蜜瓶的形态在罐子和不同类型的挤压瓶之间反复变化。
视频的最后一帧常常是前面所有元素的混乱堆砌，毫无逻辑。

编辑功能与高昂的成本

通过文本指令修改视频的功能虽然比 Veo 有所进步，但结果依然不稳定。当作者要求模型移除巴迪头上意外出现的鹿角时，模型照做了，但却在所有其他场景中都给它加上了鹿角。

此外，这一切都不是免费的。

生成视频需要消耗 15 到 40 个积分，具体取决于视频长度和输入素材。
进行一轮修改则需要 40 个积分。
作者在使用每月 20 美元（含 1000 积分）的套餐下，仅生成了约 20 个片段并进行数次修改，就几乎耗尽了所有积分。

如果你对想生成的视频有非常具体的想法，你可能需要与模型进行大量昂贵的反复沟通，才能得到接近你设想的视频。

深度伪造自己：真实到令人不安

Omni 的一个核心优势是将 AI 生成的元素添加到真实视频中。作者用自己的一段自拍视频进行了测试，指令模型生成了自己在吃意大利面、坐在飞机上以及在埃菲尔铁塔前吃法棍面包的视频。

我真的可以说，我对我所看到的一切毫无准备。

尽管视频中存在一些微小的 “AI 破绽”，例如餐具碰撞声过于做作，或背景里出现重复的人物，但整体效果 “该死的有说服力”。

足以骗过家人： 作者将吃意面的视频展示给了她的丈夫。在不知道哪些是 AI 生成的情况下，他完全相信了视频的真实性，唯一让他起疑的只是那个看起来不熟悉的碗。
足以以假乱真： 其他深度伪造视频也达到了可以在社交媒体上蒙混过关的水平。虽然有些片段略带卡通感，但其中一个效果非常逼真，需要反复观看才能发现是 AI 生成的。

深陷“恐怖谷”

制作一个 AI 生成的电影杰作，并不像谷歌宣传的那么容易。但 Omni 模型确实在某些方面取得了显著进步。任何拥有谷歌账户和信用卡的人，都能轻易地将一段在家拍摄的视频，变成看起来像在飞往毛伊岛的航班上。

这项技术带来的真实感和易用性，让人感到震惊又不安。我们或许还未到达“奇点”的边缘，但可以肯定的是：

我们绝对是深陷于恐怖谷之中。