揭秘AI的“世界模型”：它们是什么，为何如此重要？ - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

揭秘AI的“世界模型”：它们是什么，为何如此重要？

3 周前 / 阅读约7分钟

来源：TechCrunch

世界模型（world models）受人类思维启发，在AI领域受到关注。AI先驱Fei-Fei Li和DeepMind等公司正在投入巨资研发。世界模型可用于生成视频、预测和规划等领域，但面临计算量大、数据不足等技术挑战。

图片来源：Getty Images

世界模型，或称世界模拟器，正被许多人视为AI领域的下一个重大突破。

AI先驱Fei-Fei Li的世界实验室（World Labs）已筹集2.3亿美元用于构建“大型世界模型”，而DeepMind则聘请了OpenAI视频生成器Sora的创建者之一，专注于“世界模拟器”的研发。（Sora于周一发布，以下是一些初步印象。）

那么，这些究竟是什么呢？

世界模型灵感来源于人类自然形成的世界心理模型。我们的大脑从感官信息中抽象出表征，并形成对周围世界的具体理解，这些我们称之为“模型”。基于这些模型，大脑做出预测，影响我们对世界的看法。

AI研究人员David Ha和Jürgen Schmidhuber在论文中举了一个棒球击球手的例子。击球手只有几毫秒的时间决定如何挥棒，这比视觉信号传递到大脑所需的时间还短。Ha和Schmidhuber认为，击球手之所以能击中时速100英里的快速球，是因为他们能本能地预测球的运动轨迹。

“对于职业球员来说，这一切都是潜意识地发生的，”这两位研究人员写道，“他们的肌肉会根据内部模型的预测，在正确的时间和位置反射性地挥棒。他们可以根据对未来事件的预测迅速采取行动，而无需有意识地设想未来情景来制定计划。”

正是这种潜意识推理能力，让一些人认为世界模型是实现人类水平智能的先决条件。

建模世界

尽管这一概念已存在数十年，但世界模型最近因其在生成视频领域的潜在应用而备受瞩目。

大多数（如果不是全部）AI生成的视频都会进入恐怖谷。观看时间一长，就会出现四肢扭曲融合等奇怪现象。

虽然一个在多年视频上训练的生成模型可能准确预测篮球会反弹，但它并不知道为什么会这样——就像语言模型并不真正理解单词和短语背后的概念一样。而一个对世界模型有基本理解的模型（比如为什么篮球会这样反弹），将能更好地展示这一点。

为了获得这种洞察力，世界模型在各种数据（包括照片、音频、视频和文本）上进行训练，旨在创建世界运作的内部表征，并具备推理行为后果的能力。

来自AI初创公司Runway的Gen-3视频生成模型样本。图片来源：Runway

“观众期望他们观看的世界与现实世界相似，”Snap前AI主管、Higgsfield首席执行官Alex Mashrabov说，“如果一根羽毛像铁砧一样落下，或者一个保龄球飞向空中数百英尺，这会让人感到震惊，并脱离那一刻。有了强大的世界模型，创作者就无需定义每个物体的预期移动方式——这既繁琐又耗时，而且是对时间的不当使用——模型将自动理解。”

但更好的视频生成只是世界模型的冰山一角。包括Meta首席AI科学家Yann LeCun在内的研究人员表示，这些模型有朝一日可用于数字和物理领域的复杂预测和规划。

在今年早些时候的一次演讲中，LeCun描述了一个世界模型如何通过推理来帮助实现期望的目标。一个具有“世界”基本表征的模型（例如，一个脏房间的视频），给定一个目标（一个干净的房间），可以提出一系列行动来实现这一目标（如部署吸尘器清扫、清洗餐具、倒垃圾），不是因为它观察到了这种模式，而是因为它在更深层次上知道如何从脏变干净。

“我们需要能够理解世界的机器；能够记忆事物、有直觉、有常识——与人类具有相同推理和规划水平的机器，”LeCun说，“尽管你可能从一些最热情的人那里听说过，但当前的AI系统并不具备这些能力。”

虽然LeCun估计，我们离他设想的世界模型至少还有十年时间，但今天的世界模型作为基础物理模拟器的应用前景已十分瞩目。