为什么Sora不能成为世界模型？ - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

为什么Sora不能成为世界模型？

2025-03-05 / 阅读约11分钟

来源：36kr

Sora视觉优但缺物理逻辑，世界模型需真实数据

写完一篇空间智能文章，发到群里，聊它如何用虚拟空间数据训练机器人，帮人类理解世界。

结果有朋友提出个问题：

文生视频算不算空间智能？它也能生成虚拟场景，为什么不是最佳途径？这问题挺有意思，我第一反应就想到了Sora。

文生视频“新星”崛起速度太快，几句话能生成一个视频，两年内字节、腾讯、甚至其他模型厂商纷纷压住该赛道。

不过，两年过去，有人发现它没那么完美，生成人像总带着“恐怖谷”的诡异，连Facebook首席人工智能科学家Yann LeCun也点评说：Sora不过是画得好看，压根不懂物理规律。

于是，我带着疑问研究了一下：看似强大的Sora，为什么不能成为真正的世界模拟器？它和空间智能的差距到底在哪？

01

爱因斯坦有句经典的名言：

“如果不能简单地解释一件事，那就说明还没有真正理解它。”（If you can't explain it simply, you don't understand it well enough.）

所以，想深入探究，就必须从深层次技术原理出发。

Sora的核心是“扩散模型”（Diffusion Model）；从一堆随机噪点开始，通过AI一步步去掉杂乱，最终生成清晰的画面，再将这些画面串联成视频，听起来像魔法，其实背后是数学原理在支撑。

另外，它还有个帮手是“Transformer”，这个词不少人听说过。什么意思呢？它擅长处理序列数据，把零散的信息连成一条线。在Sora中，它将文字指令拆解，再把一帧帧画面串联成流畅的动作。

举个例子：

如果你输入“船在咖啡杯里航行”，Sora会先理解“船”和“咖啡杯”，然后，把船、水波荡漾、船身倾斜这些相关的词汇、场景串联起来。

这背后依赖海量视频数据和强大的算力，才能在几秒钟内生成几十秒的画面。

可是，你有没想过，仅仅依赖数据堆砌出来的结果，真的能理解物理世界吗？答案是不会。问题就出在架构上。

扩散模型擅长从数据中学习像素规律，预测下一步画面应该是什么样子；Transformer则能让帧与帧衔接得天衣无缝。所以从视觉上看，Sora很“聪明”，能够模仿真实视频的连续感，但仔细一想，问题就来了。

船怎么可能塞进杯子？我试过输入「猫跳到桌上」，画面流畅得没话说，结果猫腿直接穿过了桌面，就像游戏里的穿模。为什么会这样？

因为Sora的生成逻辑是“画得好看”，而不是“画得对”。

它不懂重力如何让脚落地，也不懂桌子为何会挡住猫腿，生成“恐怖谷”人像时，更一目了然，脸部细节一放大就崩了，它只知道靠像素预测，却没有考虑现实规则。

所以，Sora的强项和弱点是一枚硬币的两面。

视觉流畅是它的本事，不合理也是它的命门。正如Yann LeCun所说，它“不懂苹果为何落地”，我觉得这个观点很对：Sora的架构根本就没想去理解物理世界，只是想把画面糊弄得像真的。

既然Sora不懂物理世界，那它能否成为世界模拟器呢？

我认为有点悬。为什么？

世界模拟器是一个能够运行物理规则的虚拟环境，帮助机器人学习现实中的因果关系，但Sora生成的视频虽然看起来像回事，却毫无真实性。

你想想看，“船在杯子里”这样的视频去怎么去教机器人，机器人可能会以为杯子能装下万吨巨轮，这根本没好用。

因此，扩散模型和Transformer的目标是视觉生成，而不是物理模拟，Sora更像一个艺术工具，追求“好看”的画面，而不是“对”的世界，这让我觉得Sora局限性在于其架构没有对准目标。

02

既然这样问题来了：世界模拟器要具备哪些关键特性？

我觉得最基础的有三点：

一，得知道现实物品规则是什么样，搬到虚拟场景中，不能差太多；二，理解物品与物品之间怎么相互影响的；三，还得能把不同物品整合到一起，相互推理。

这么说，有点抽象，我举个例子：

你在教一个机器人怎么拿东西，世界模拟器里面的“虚拟杯子”，得模仿出真实杯子的重量、材质、形状，这样机器人才知道该用多大的力气去抓。

模拟器把重力以各指标模仿的不准确，机器人就会抓得太紧或者太松，东西就会掉下来，甚至还会被弄坏。

再聊聊智能交通。

现实中，堵车是个大难题。要解决它，得靠算法、数据分析，比如错峰出行。

假设有个世界模拟器，如果它没法模拟红绿灯时长、车辆速度，就无法预测哪里会堵车、什么时候堵，也做不了错峰规划。

同样，如果模拟器不清楚车辆摩擦力，就判断不了车子能不能在绿灯时顺利起步或红灯时及时停下；如果搞不清车辆之间的相互影响，交通就会乱套，甚至可能出事故。

所以，世界模拟器的作用，是把复杂的物理规则和物体之间的关系都搞清楚，这样才能让机器人、智能交通这些高科技的东西更好地工作。

对比来看，Sora在关键特性上明显不足。它在视觉生成方面做得很棒，但没办法满足世界模拟器对物理规则和因果关系推理的要求。

这种问题不只出现在Sora上，一些国产大模型也有类似架构缺陷。我刷抖音时经常看到有人用图生视频模型，结果人突然变成狗，看起来很搞笑，但明显不符合现实逻辑。

原因很简单，架构无法为世界模拟器提供真实的物理理解能力，因此，在具身智能或其他领域的应用就会受到很大限制。

可以得出一个结论：世界模型和文生视频的架构完全不一样。世界模型要模拟真实世界，必须懂物理规律和现实逻辑；文生视频主要生成画面，在逻辑和真实性上没那么严格。

03

我认为，相比之下，真正值得关注的，是更注重物理规则建模和具备因果关系推理方向的模型。比如：李飞飞的World Labs、黄仁勋的世界模型（Cosmos WFMs），以及群核科技的空间智能。

为什么拿他们举例呢？有三点：

先看目标，黄仁勋提出的 Cosmos WFMs（世界模型）是希望打造一个能模拟真实世界的「虚拟大脑」。这个大脑要懂物理规则，要知道物体怎么动、力怎么作用，还要明白事情的前因后果。

李飞飞的 World Labs 目标是让人工智能真正理解世界。它通过模拟物理规则、因果关系和复杂场景，让AI不仅能“看到”，还能“理解”世界。

比如：一个AI产品可以在虚拟场景中预测事情的发展，或根据不同情况做出合理决策。这种能力对提升机器人、自动驾驶等领域的智能化至关重要。

群核科技的空间智能，目标是希望把真实世界搬到数字世界里，让AI能看懂、能用，然后用数据帮助家居设计、建筑规划、以及AR、VR这些领域，帮行业更高效的干活。

说得直白点，是希望打造一个“数字孪生”的世界，让人、AI、空间里面思考和行动，解决实际问题。

既然有了目标，再看看三家技术实现路径。

Cosmos WFMs 的技术实现路径是通过构建生成式世界基础模型（WFMs），结合高级分词器、安全护栏和加速视频处理管道等关键技术，为开发者提供高效的开发工具。

具体来说，它利用NVIDIA NeMo对基础模型进行调优，并通过 GitHub 和 Hugging Face 提供开源支持，帮助开发者生成高仿真的物理数据。

此外，Cosmos 还专注于多视角视频生成、路径规划、避障等任务，进一步提升物理AI在机器人、自动驾驶等领域的应用能力。

报告里面的东西是不是很难懂？

通俗的说：他们做的这套系统，能让AI学会像人一样看路、规划路线、避开障碍物，还能生成各种角度的视频，特别适合用在机器人和自动驾驶这些领域。

李飞飞的World Labs的技术实现路径是，开发一种从2D到3D的智能转化技术，让AI不仅能看懂平面图片，还能生成完整的三维空间。

他们的系统从一张普通照片出发，估算出场景的3D结构，然后补全图片中看不到的部分，最终生成一个用户可以自由探索和互动的虚拟世界。

简单讲，用AI把平面图像变成立体空间，让人像在真实世界一样能走进去、四处看看。这种技术对机器人导航、虚拟现实等领域特别有用，因为它们都要“空间智能”来理解和应对复杂的3D环境。

群核科技搞空间智能，简单来说：

1万台GPU服务器，用计算能力帮家居和建筑行业快速做出大量3D模型，顺便攒了一堆2D和3D的设计数据；把数据整合到一个平台上，能生成特别逼真的虚拟场景。

最后，企业可以用这个平台来训练机器人，比如：扫地机器人或者自动驾驶设备，让它们在虚拟世界里模拟真实环境，学会怎么动、怎么避障，变得更聪明。

因此，无论黄仁勋的Cosmos WFMs、飞飞的World Labs，还是群核科技的空间智能，技术核心目标是通过模拟真实世界的物理规则和因果关系，让AI在空间内训练更聪明、更能解决实际问题。

04

我认为，要实现这一目标，离不开一个关键因素：高质量数据。数据是构建世界模型和空间智能的基础，可它也是发展里最大的「拦路虎」。

为什么？

我们说具身智能有点抽象，换一个更具体的词：“虚拟训练”。虚拟训练有两个重要方面：

一个是生成式的海量数据。就像GPT这样的文字模型，靠超大规模的数据和强大的算力来学习和推理；另一个是真实数据。枕头的大小、重量、材质，或者光线怎么反射、物体怎么碰撞，这些是物理交互场景。

这种真实数据来源于现实世界，直接决定虚拟训练能否模拟出符合实际逻辑的行为和反应；

换句话说，虚拟训练要两种数据：一种是“虚拟生成”的大数据，另一种是“真实场景”的物理数据，而后者，往往成为发展的瓶颈。

原因很简单：文生视频、文生图等生成式技术虽然能生成丰富的内容，但很难直接获取真实的物理规则和精确的交互细节。

比如，文生视频可以生成一个“滚动的球”，但它可能无法准确模拟球在不同材质地面上的摩擦力、弹跳高度或碰撞反应。

那真实场景的数据从哪儿来呢？只能从真实世界里来。

通过传感器、摄像头、激光雷达等设备，从现实环境中采集；你开车时，传感器会记录车辆的运动轨迹、力度变化、光线反射，还有车辆间距、行人行为，甚至天气对路况的影响。这些信息会被上传到平台，用来分析和训练。

但有了数据还不够。

平台的数据不能保证下一次操作一定精准，还得在虚拟环境里进行大量训练；自动驾驶汽车，要在虚拟环境里反复模拟行驶，可能要跑成千上万次，直到能应对各种复杂场景，才能用到现实世界里。

明白这些，你也就明白了，这不仅是自动驾驶、机器人领域的问题，其他行业也一样。

不管医疗、制造还是农业，世界模型和空间智能都需要海量的真实数据来支撑，并且要通过虚拟环境的反复训练来验证和优化能力。

换句话说，无论是自动驾驶、机器人导航，还是其他行业的具身智能应用，核心挑战都在于如何获取高质量的真实数据，再通过虚拟和现实的结合，让AI真正能解决实际问题；这才是未来技术落地的关键。

谁有底层架构、谁有数据，谁才有上牌桌的机会。

上一篇：奥尔特曼能松口气了：美地方法官驳回马斯克阻止 OpenAI 转型营利公司的请求

下一篇：即梦 AI 上线 “动作模仿” 功能：照片 + 参考视频即可让人物动起来

返回列表

01

02

03

04

相关新闻