揭秘AI的“世界模型”:它们是什么,为何如此重要?
3 周前 / 阅读约7分钟
来源:TechCrunch
世界模型(world models)受人类思维启发,在AI领域受到关注。AI先驱Fei-Fei Li和DeepMind等公司正在投入巨资研发。世界模型可用于生成视频、预测和规划等领域,但面临计算量大、数据不足等技术挑战。

图片来源:Getty Images

世界模型,或称世界模拟器,正被许多人视为AI领域的下一个重大突破。

AI先驱Fei-Fei Li的世界实验室(World Labs)已筹集2.3亿美元用于构建“大型世界模型”,而DeepMind则聘请了OpenAI视频生成器Sora的创建者之一,专注于“世界模拟器”的研发。(Sora于周一发布,以下是一些初步印象。)

那么,这些究竟是什么呢?

世界模型灵感来源于人类自然形成的世界心理模型。我们的大脑从感官信息中抽象出表征,并形成对周围世界的具体理解,这些我们称之为“模型”。基于这些模型,大脑做出预测,影响我们对世界的看法。

AI研究人员David Ha和Jürgen Schmidhuber在论文中举了一个棒球击球手的例子。击球手只有几毫秒的时间决定如何挥棒,这比视觉信号传递到大脑所需的时间还短。Ha和Schmidhuber认为,击球手之所以能击中时速100英里的快速球,是因为他们能本能地预测球的运动轨迹。

“对于职业球员来说,这一切都是潜意识地发生的,”这两位研究人员写道,“他们的肌肉会根据内部模型的预测,在正确的时间和位置反射性地挥棒。他们可以根据对未来事件的预测迅速采取行动,而无需有意识地设想未来情景来制定计划。”

正是这种潜意识推理能力,让一些人认为世界模型是实现人类水平智能的先决条件。

建模世界

尽管这一概念已存在数十年,但世界模型最近因其在生成视频领域的潜在应用而备受瞩目。

大多数(如果不是全部)AI生成的视频都会进入恐怖谷。观看时间一长,就会出现四肢扭曲融合等奇怪现象。

虽然一个在多年视频上训练的生成模型可能准确预测篮球会反弹,但它并不知道为什么会这样——就像语言模型并不真正理解单词和短语背后的概念一样。而一个对世界模型有基本理解的模型(比如为什么篮球会这样反弹),将能更好地展示这一点。

为了获得这种洞察力,世界模型在各种数据(包括照片、音频、视频和文本)上进行训练,旨在创建世界运作的内部表征,并具备推理行为后果的能力。

来自AI初创公司Runway的Gen-3视频生成模型样本。图片来源:Runway

“观众期望他们观看的世界与现实世界相似,”Snap前AI主管、Higgsfield首席执行官Alex Mashrabov说,“如果一根羽毛像铁砧一样落下,或者一个保龄球飞向空中数百英尺,这会让人感到震惊,并脱离那一刻。有了强大的世界模型,创作者就无需定义每个物体的预期移动方式——这既繁琐又耗时,而且是对时间的不当使用——模型将自动理解。”

但更好的视频生成只是世界模型的冰山一角。包括Meta首席AI科学家Yann LeCun在内的研究人员表示,这些模型有朝一日可用于数字和物理领域的复杂预测和规划。

在今年早些时候的一次演讲中,LeCun描述了一个世界模型如何通过推理来帮助实现期望的目标。一个具有“世界”基本表征的模型(例如,一个脏房间的视频),给定一个目标(一个干净的房间),可以提出一系列行动来实现这一目标(如部署吸尘器清扫、清洗餐具、倒垃圾),不是因为它观察到了这种模式,而是因为它在更深层次上知道如何从脏变干净。

“我们需要能够理解世界的机器;能够记忆事物、有直觉、有常识——与人类具有相同推理和规划水平的机器,”LeCun说,“尽管你可能从一些最热情的人那里听说过,但当前的AI系统并不具备这些能力。”

虽然LeCun估计,我们离他设想的世界模型至少还有十年时间,但今天的世界模型作为基础物理模拟器的应用前景已十分瞩目。

Sora在《我的世界》中控制玩家并渲染世界。图片来源:OpenAI

OpenAI在博客中指出,它认为Sora是一个世界模型,可以模拟像画家在画布上留下笔触这样的动作。像Sora这样的模型(包括Sora本身)也可以有效地模拟视频游戏,例如渲染类似《我的世界》的用户界面和游戏世界。

在a16z播客的一集中,World Labs联合创始人Justin Johnson表示,未来的世界模型可能能够按需生成3D世界,用于游戏、虚拟摄影等。

“我们已经能够创建虚拟的、交互式的世界,但这需要数亿美元和大量的开发时间,”Johnson说,“[世界模型]将让你不仅获得图像或片段,还能获得一个完全模拟的、充满活力的、交互式的3D世界。”

高门槛

虽然这个概念很吸引人,但许多技术挑战阻碍了其发展。

与世界模型相关的训练和运行需要巨大的计算能力,即使与当前生成模型所使用的计算量相比也是如此。虽然一些最新的语言模型可以在现代智能手机上运行,但Sora(可以说是早期的世界模型)的训练和运行需要数千个GPU,特别是如果其使用变得普遍的话。

与世界上的所有AI模型一样,世界模型也会产生幻觉,并在训练数据中内化偏见。例如,一个主要基于欧洲城市晴朗天气视频训练的世界模型,可能难以理解或描绘雪天条件下的韩国城市,或者只是错误地这样做。

Mashrabov说,训练数据的普遍缺乏可能会加剧这些问题。

“我们见过一些模型在生成某一类型或种族的人群时非常有限,”他说,“世界模型的训练数据必须足够广泛,以涵盖各种场景,但也要足够具体,以便AI能够深入理解这些场景的细微差别。”

在最近的一篇帖子中,AI初创公司Runway的首席执行官Cristóbal Valenzuela表示,数据和工程问题阻碍了当今的模型准确捕捉世界居民(如人类和动物)行为的能力。“模型需要生成环境的一致地图,”他说,“以及在这些环境中导航和交互的能力。”

由Sora生成的视频。图片来源:OpenAI

然而,如果克服了所有主要障碍,Mashrabov认为,世界模型可以“更稳健”地将AI与现实世界联系起来——不仅在虚拟世界生成方面取得突破,而且在机器人技术和AI决策方面也是如此。

它们还可以产生更强大的机器人。

今天的机器人在功能上受到限制,因为它们没有意识到周围的世界(或自己的身体)。Mashrabov说,世界模型可以给它们这种意识——至少在一定程度上。

“有了先进的世界模型,AI可以对它所面临的任何场景形成个人理解,”他说,“并开始推理出可能的解决方案。”

TechCrunch有一份专注于AI的新闻通讯!点击这里订阅,每周三发送到您的收件箱。