空间智能技术,旨在让机器理解并应对三维的真实物理环境。World Labs的投资者包括a16z、Adobe、AMD、Databricks、英伟达等。
作者 | 宋子乔
当地时间12月3日,“AI教母”李飞飞联合创办的空间智能初创企业World Labs(世界实验室)展示首个成果——一张图、一句话就能生成3D世界的AI系统,堪称“虚拟世界生成器”。World labs将其称为迈向空间智能的第一步。
其亮点在于:直接生成3D场景,且场景具有交互性、可编辑、可扩图。
交互性:用户可以通过W/A/S/D键来控制上下左右视角,或者用鼠标拖动画面探索所生成的世界,不过目前的可移动范围仍然受限于较小的区域。
可编辑:该工具配备了可控的摄像机效果和可调节的模拟景深,用户可改变其中物体颜色、动态调整背景光影、手动变焦、调节景深、在场景中插入其他对象、添加动画效果。
可扩图:这指该AI工具的可预测3D场景能力,可预测3D场景是利用AI技术对3D空间中的物体、环境结构及其动态变化进行预测和理解的能力,即让AI工具仅凭部分图片就能“扩图”,想象出整个3D场景。
将梵高、霍珀、修拉和康定斯基等作家的知名画作中的场景扩展
其中,可预测3D场景,是将World Labs与其他致力于3D内容生成的AI公司区别开的主要能力,World Labs表示,大多数生成模型都会预测像素,而预测 3D 场景有许多好处:
持久现实:3D场景一旦生成,它就会一直存在。即使你把视线移开然后又回来,场景也不会改变。
实时控制:3D场景生成后,用户可以在其中实时移动。你可以仔细观察花朵的细节,也可以窥视藏在角落里的物体。
正确的几何形状:生成的世界遵循 3D 几何的基本物理规则。它们兼具真实感和深度感,与某些AI生成视频的梦幻感形成了鲜明对比。
▌空间智能 AI领域的下一个“北极星”
李飞飞对空间智能的定义是:空间智能是机器在3D空间和时间中感知、推理和行动的能力。在她看来,空间智能是AI领域的下一个前沿技术方向。
今年9月份,在成功融资2.3亿美元后,由著名计算机科学家、斯坦福大学人工智能实验室联合主任、斯坦福大学教授李飞飞联合创办的World Labs正式启动。据介绍,World Labs的目标是开发一种能够理解实体世界的模型。今年7月,有消息称在完成两轮融资后,World Labs的估值已超过10亿美元,该公司的投资机构可以说是耳熟能详,包括安德森•霍罗威茨(Andreessen Horowitz,又名a16z)、Adobe、AMD、Databricks、英伟达、AI基金Radical Ventures等。
同月,在接受a16z的访谈时,李飞飞表示,空间智能是她的下一个北极星,该技术将改变AI的发展进程。她认为,空间智能与语言智能一样重要,甚至在某些方面可能更古老、更基础,AI的发展不会局限于处理平面图像或文本,而是会迈向对三维世界的理解,这是智能发展的自然延伸。
电影、游戏等内容创作将是空间智能技术的重要应用领域,该技术有望降低3D内容制作的成本、激发更多的沉浸式体验。World Labs的目标客户便包括视频游戏开发商和电影制片厂。除了互动场景之外,World Labs还计划开发一些对艺术家、设计师、开发人员、电影制作人和工程师等专业人士有用的工具。
李飞飞还补充了增强现实(AR)和虚拟现实(VR)的应用场景。她曾提到:“这种技术将成为AR/VR的‘操作系统’,帮助人类增强能力。”她举例说,未来,佩戴AR眼镜的人可能不需要任何专业技能,就能修理汽车或完成复杂的操作。通过空间智能,虚拟世界与现实世界的融合将大大增强人类与机器的互动能力。
李飞飞的博士生、World Labs联合创始人贾斯汀•约翰逊则指出,随着这项技术的成熟,未来我们可能不再需要使用手机、平板等不同尺寸的屏幕。他表示:“如果你能够将虚拟内容与物理世界无缝融合,那么对所有这些屏幕的需求就会减少。”