新智元报道
编辑:Aeneas 好困
【新智元导读】李飞飞、谢赛宁团队又有重磅发现了:多模态LLM能够记住和回忆空间,甚至内部已经形成了局部世界模型,表现了空间意识!李飞飞兴奋表示,在2025年,空间智能的界限很可能会再次突破。
就在刚刚,李飞飞、谢赛宁等发现:多模态大语言模型居然能记住和回忆空间。
更震撼的是,MLLM的空间推理能力虽然仍是瓶颈,但这些模型中,已经出现了局部世界模型和空间意识的迹象!
论文地址:https://arxiv.org/abs/2412.14171
共同一作:Jihan Yang,Shusheng Yang,Anjali W. Gupta,Rilyn Han
李飞飞表示,非常喜欢这项「空间思维」(Thinking in Space)的研究。空间推理对于人类智能来说,至关重要。在2025年,空间智能的界限很可能会再被突破。
谢赛宁也表示,大家和李飞飞进行的关于空间智能的有趣头脑风暴,已经发展成了NYU、耶鲁和斯坦福之间的惊人合作。
他们相信,视觉空间智能在现实世界中的应用,比以往任何时候都更近了。比如AI眼镜,它可以向我们显示去过的地方,还能定位、导航。
因此,这个领域实在太令人着迷了。
前不久Ilya曾说,预训练结束了,数据如同化石燃料般难以再生,但不少研究者出来反驳说,人类只是用完了文本,海量的视频还在眼前。
此时李飞飞和谢赛宁的研究,可谓相当应景了。
更巧的是,就在不久前,谢赛宁还和LeCun等人合作完成了一项MetaMorph的工作。他们发现:LLM离理解和生成视觉内容已经不远了。
这些测试,大模型被人类完败
在项目主页一开始,团队就放出了非常有趣的人类AI大pk。
内容就是,和Gemini来比拼空间智能能力。
- 相对方向
比如这道题是,「如果我站在冰箱旁,正对着洗衣机,那么炉子是在左边、右边,还是在后面?」
备选答案是:A. 后面 B.右边 C.左边
简体中文 繁體中文 English 日本語 Deutsch 한국 사람 русский بالعربية TÜRKÇE português คนไทย Français