谷歌发了个新模型，顺手证明Sora才是最菜的 - AI

热门话题

白天

搜索

资讯

谷歌发了个新模型，顺手证明Sora才是最菜的

6 天前 / 阅读约5分钟

来源：36kr

看来，在这场AI战争中，还有的是逆转的好戏。

在OpenAI发布会还在“产品雕花”的时候，谷歌继续努力更新基础模型。半个月前是3D场景生成基础模型、一周前是大杀四方的Gemini 2，而今天则是视频生成模型。

北京时间12月17日，谷歌发布了其文生视频模型Veo的下一个版本Veo 2。此次升级距离谷歌在今年5月的I/O大会上首次宣布Veo已经过去7个月。

但Veo仅在十几天前的12月3日才登上Axtrix，在这之前，用户只能利用VideoFX中的实验工具小规模试用这一视频生成软件。

这一版本主要带来三个核心升级。首先是真实感和保真度大为增加，它支持对长度为8s、清晰度为4K视频的输出，并在细节、真实性和伪影减少方面提升巨大。

其次，Veo以其对物理学的理解及遵循详细指令的能力，能够高度精确地捕捉运动。这正是前几日Sora频频翻车的点。

第三，Veo 2还提供了更多的相机控制选项，你可以输入诸如“镜头缓慢推进她的面庞”、“摄像机在追逐车辆的过程中趋于稳定”、“极近的特写镜头”来去描述你需要的镜头模式。

当然，从目前谷歌给出的范例来看，Veo 2 对物理世界的理解确实达到了相当的高度，尤其是人类乃至昆虫的动作表现，这些动作与世界交互的自然感都很强。比如这只用喙捕猎的火烈鸟，它激起的水花就不想Sora前两天演示时那种火山爆发般的夸张。

在实际的测试中，Veo也得到了SOTA的水平。谷歌选取了其他包括Sora在内的顶尖模型，在Meta发布的基准数据集MovieGenBench 上比拼了 1003 条提示及其对应视频。

从整体表现上看，Veo占优的情况都接近或超过了50%，不占劣势的情况则能达到70%左右。

比较有趣的事，Sora Turbo在谷歌测试的所有模型中居然是表现最差的，而表现最好的是可灵1.5。

在指令遵循上，Veo表现也达到了SOTA，其他个个模型也和整体表现排名差异不大。

在报告中，谷歌承认了自己的模型也有短板。在复杂场景或复杂运动中保持完全的一致性仍然没法被突破。在他们自己给出的范例中，依然会出现凭空出现的人物。在运动中，人也可能依然出现那种不自然的“AI扭曲”。

在推特上，已经有一些网友做了测试。表明Veo 2的镜头控制和运动能力所言不虚。在提示词为“一个人坐在咖啡馆里喝咖啡的视频。过了一会儿，镜头切换到另一个视角，显示旁边桌的人正在给他们写信。”的情况下，Veo 2可以很好的完成导演叙事的镜头切换，写作的动作也非常自然。

而将同一个提示词给到Sora，它首先无法实现镜头切换，对于提示词中两个人对坐也未跟随，画面中只有一个人。而且写作动作也有点像是悬空画笔。

之后我们还测试了其他的顶尖模型。比如海螺，它无法实现镜头切换，但用变焦实现了部分镜头切换的逻辑，空间和两个人物的关系也符合提示词。

混元的影视氛围感直接拉满，也完成了切镜。但视频中两人的关系交代没有那么清晰。

可灵确实是表现最好的一个，切镜、两人的关系都把握住了。除了审美和细节上不如Veo 2外，其它部分都近乎完美。

在另一个测试中，用同样的提示词

这是Veo 2的结果

这是Sora的结果

就算Veo 2的输出是有瑕疵的，但Sora这个迟缓、空荡的场景已经输太多了。

至于其他模型，可灵输出的场景感不错，但弄臣的现实非常刻意，从空间关系上看也不太可能，其中还有很多残影。

而海螺则是在提示词遵循上仅次于Veo 2，只是没有满足“镜头从女王背后取景”这点。但细节还原就较Veo 2差不少了。

看了这么半天，谷歌评测中说的Sora最差不无道理。

2025年还没开始，OpenAI的王冠看起来就有点不稳了。怪不得连微软CEO最近在采访中都豪言“没有OpenAI，我们也能开发出最一流的模型。”

看来，在这场AI战争中，还有的是逆转的好戏。

不过谷歌这回还是没改画饼的毛病。Veo 2 现在依然在内测阶段，只能在VideoFX上排队申请。希望它在25年全量和新产品发布的速度都能提起来。把画饼大师的定位让给OpenAI。毕竟Sora花了9个月才发出来，也和过去的谷歌不相上下了。

相关新闻