中国人工智能领军科学家、上海交大清源研究院研究员刘志毅:具身智能是打开未来智能新形态的钥匙 | 2025 AI Partner大会
1 天前 / 阅读约10分钟
来源:36kr
2025AIPartner大会刘志毅聚焦具身智能六大趋势,探索AI超级应用未来。

2025年是AI应用爆发的元年,当全球AI竞赛步入“中国时刻”,一场深刻的技术变革正悄然改写产业格局。在此关键节点,行业面临核心命题:如何跨越AI技术到规模化应用的鸿沟?下一个颠覆性的AI超级应用将诞生于何处?

4月18日,由36氪主办的2025 AI Partner大会于上海模速空间盛大启幕。本次大会以“Super APP来了”为主题,聚焦AI应用对千行百业的颠覆性变革。大会分为“Super App来了”和“谁是下一个超级应用”两大篇章,覆盖“在AI世界中长大”“2025卷AI就卷超级应用”等七大话题,涵盖10+场主题演讲、3场圆桌对话与两大优秀AI案例企业名册发布环节,深度剖析AI技术如何重构商业逻辑、重塑产业格局,探索AI超级应用带来的无限可能。

当日,中国人工智能领军科学家、上海交大清源研究院研究员刘志毅带来了《具身智能:通用人工智能的反思,现状与未来》的视频主题分享。

以下为演刘志毅讲内容,经36氪整理编辑:

各位现场的观众大家好!非常荣幸参与此次大会,虽然无法亲临现场,但仍希望能与大家进行分享交流。由于时间有限,我们直接进入主题——《具身智能,通用人工智能的反思、现状与未来》。之所以选择这个题目,与我的研究方向密切相关。我的研究主要涵盖两个领域:一方面是技术实践,多年来在多家人工智能企业的工作经历,让我对技术实践与工程有了诸多深刻思考,并将其凝练为工程与技术层面的见解;另一方面是技术趋势研究,我始终认为技术能够改变经济和社会系统的发展节奏与历程,因此会将技术置于宏观的社会系统中进行探讨。这种技术与非技术相结合的研究方式,是我们的特色所在。

中国人工智能领军科学家、上海交大清源研究院研究员刘志毅

自人工智能进入大模型时代,我们可以得出两个基本判断。其一,这一轮人工智能创新的核心依然围绕深度学习展开,其技术思想并未发生根本性改变。Foundation Model(基础模型)所构建的深度学习计算理念,是由深度学习三巨头奠定的。从 2018 年至今,业界围绕具身智能和人工智能的智能上限,开展了大量工程化创新。简单来说,就是通过语言构建世界模型,并在此基础上持续创新和工程化实践。

这就引出一个关键问题:智能究竟是什么?经过大规模调研,业界和学术界普遍认可,智能是信息系统在知识与资源不足的情况下适应环境的能力。这里包含三个关键要素:以计算机系统为核心的信息系统;在知识与资源受限的条件下,通过特定算法解决问题;以及适应环境的能力,即如何以有限资源应对无限需求。

基于此,我们对智能有了更深入的理解:一方面,智能是认识世界、理解世界、主动影响世界并持续学习迭代的能力;另一方面“具身”指的是具备物体实体,对真实世界中物理本体的控制是关键。任何具备感知、计算、执行能力的硬件系统,都可视为具身。从学科角度来看,具身智能涉及信息科学、工程与材料科学、数理科学等多个领域。具身智能的实体不仅包括人形机器人(这可能是其终极形态之一),还涵盖宠物机器人、自动驾驶汽车、四足机器人等。

从技术原理层面分析,感知、规划、控制、执行是具身智能的核心特点,相应的具身智能系统主要由三个部分构成。我们的研究重点聚焦于“大脑”部分,而大语言模型的出现,正是对负责感知、理解和规划的大脑系统的升级。该系统由大语言模型、视觉模型或空间智能模型驱动。另外两个部分分别是负责动作执行的物理实体操作系统(即“身体”,由机器人本体支持),以及负责运动控制和动作生成的反馈系统。

那么,随着人工智能技术的发展,具身智能呈现出哪些发展趋势和方向呢?

趋势一:多模态融合

多模态技术旨在解析世界的真实面貌,实现“三成万物”。人类认知世界的方式本就是多模态的,从语言、图片、视频到 3D,技术也正从单一的文本、图像、视频,拓展到声光电,甚至分子、原子等各种模态,并实现跨模态迁移。这将为具身智能赋予更强大的“大脑”。未来理想的框架,是多模态的融合,加上统一的编码和解码器。目前,从大语言模型向多模态扩展,从专业的文生图视觉系统向更智能的视觉系统演进,都是这一趋势的具体体现。

趋势二:智能体时代来临

Agent(智能体)是具身智能发展的关键。如果说 2023 年的核心工作是大模型的工程化,2024 年侧重于编程数理相关工作,那么 2025 年将迎来智能体时代。我即将出版的新书《智能体时代》,将深入探讨 Agent 技术范式对软件工程的影响,以及如何推动人工智能和具身智能技术的发展。

趋势三:端侧模型加速部署

以苹果 Apple intelligence 手机终端、汽车公司智能系统为代表,端侧大模型的应用潜力巨大。无论是原生 AI 端侧模型,还是将大模型作为独立 APP 嵌入,亦或是接入即时通信软件作为 chatbot,都是端侧应用的重要方式。端侧算力的提升,将进一步增强模型的实践能力,使其有望成为重要的交互入口。

趋势四:AI4S(第五范式)

AI4S 也被称为第五范式。第四范式是大数据驱动范式,由 Jim Gray 在 2007 年提出。第五范式则由微软全球 AI4S 院长于 2022 年提出。我在 2022 年底《经济观察》发表的文章《第五范式的出现:科学智能+机器猜想 》中,也对这一概念进行了探讨。目前,围绕第五范式,一系列 AI4S 机构正在构建科学协作平台、人工智能平台和科学数据平台,广泛应用于物质科学、分子科学等领域,其中材料科学(如电解质、涂层涂料)和药物分子研发、制造是最核心的商业化方向。

趋势五:大模型价值对齐成为核心

价值对齐是大模型发展的必由之路,也是 AI 产品的核心竞争力。当我们开发出具身智能后,如何使其与人类价值观保持一致至关重要。为此,业界提出了多种工程和技术方案,包括训练数据干预、可解释大模型落地,以及基于检索 Web 工具的对齐等。例如,OpenAI 首席科学家 Ilya Sutskever 曾在 OpenAI 内部组建超级人工智能对齐团队,投入 20% 的算力用于该领域研究;他离开后创立的 Safe Superintelligence 公司,也专注于价值对齐。价值对齐的核心目标,是确保 AI 系统(无论是软件系统还是具身智能实体)能够与人类价值观相契合。我们认为,“code is law”(代码是真实社会的映射方式)比 “law is code” 更为重要。

趋势六:加速人形机器人进化

大模型的应用显著推动了人形机器人 “手、脑” 的进化。大模型的嵌入提升了机器人分解任务、规划子任务和与环境交互的能力,为具身智能机器人赋予了新的 “大脑”。同时,多训练平台通过云端和终端分布式计算,强化了机器人的训练和分析效率;多感知、多自由度功能融合加速了机器人产业化进程,微操作技术和灵巧手的发明,进一步提升了机器人的操作能力。随着视、听、触等多模态端侧算力和运动控制技术的进步,人形机器人将朝着更柔性、智能、轻巧的方向快速迭代。

尽管具身智能发展迅速,但也面临商业化挑战。部分专家和企业家认为,基于数据的深度学习大模型存在能力边界。我们认为,未来智能提升的关键在于脑复杂系统和计算神经科学的研究。通过计算神经科学连接神经科学与人工智能,推动脑启发智能计算和信息处理机制的发展,将助力真正通用人工智能时代的到来。目前的通用人工智能大模型,如 OpenAI 首席执行官所言,更多是工具化产物。未来,通用人工智能需要具备更强的自主能力、灵活性、鲁棒性、创造力和更低的能耗,而这依赖于脑科学研究的深化与优化。

总结而言,具身智能不仅是当前人工智能技术的重要研究方向,更将塑造未来智能的全新形态。深度学习范式为我们理解具身智能打开了大门。第一,具身智能通过与物理世界的感知交互和自主决策行动,有助于我们更好地改造客观世界,理解智能的本质;第二,具身智能已成为业界共识,众多研究机构和企业都在积极探索。我去年出版了《具身智能》一书,今年还将翻译《Deep Learning:Foundations and Concepts》,这本书得到了Geoffrey Hinton、Yann LeCun和Bengio三位深度学习领域权威的推荐,翻译过程让我深刻感受到深度学习的持续发展潜力,它仍是人工智能研究创新的关键。

具身智能,中译出版社2024年出版

展望未来,机器人产业与通用人工智能将相互促进,推动具身智能在未来 5 - 10 年实现重大突破,使智能体具备自主规划、决策、行动和执行能力,真正实现对物理世界的改造,这也将是下一代通用人工智能的关键所在。关注具身智能发展,既要聚焦物理实体技术,也要重视智能逻辑和深度学习体系的演进。预计五六月份《Deep Learning:Foundations and Concepts》翻译版将与大家见面,欢迎关注。我们虽已迈入通用人工智能时代,但前路依然漫长。短期内,技术可能无法满足我们的所有想象,但从长远来看,它必将引领我们进入下一个创新浪潮。

以上就是我的分享,感谢大家!期待未来能与各位线下交流!