AI时代,AI基础模型的能力越强,AI应用就能解锁更多的功能,解决更复杂的问题。具身智能的出现,则解锁了机器人的通用智能,不仅提高机器人的感知能力,决策能力,控制能力,而且让机器人可以跨平台,跨环境完成各种不同的复杂任务。这种通用能力,由机器人通用基础模型提供。
一家叫Skild AI的公司,致力于打造机器人通用基础模型,试图创造具身智能领域的“GPT-3”时刻。
Skild AI于2023年获得Lightspeed Venture Partners和Sequoia Capital投资的1450万美元种子轮融资,2024年7月获得Lightspeed Venture Partners、Coatue、软银和Bezos Expeditions领投的3亿美元A轮融资,最近,据彭博社和金融时报报道,软银正计划向Skild AI投资5亿美元,使它的估值从A轮的15亿美元提升到40亿美元。
在Skild AI的投资人名单上,还有Felicis Ventures、Menlo Ventures、General Catalyst、CRV、SV Angel、卡内基梅隆大学等知名机构和大学。
Skild AI联合创始人兼CEO Deepak Pathak表示:“我们正在构建的大规模机器人基础模型展现出跨机器人硬件和任务的泛化能力,为现实环境中的自动化应用开辟了巨大潜力。我们相信Skild AI标志着机器人规模化应用的技术跃迁,或将彻底改变实体经济的运行方式。”
过去十年,机器人开始能够完成极限跑酷,用双手操控物体,以自然流畅的姿态移动。这些重大突破,多数与Skild AI的两位创始人Deepak Pathak(CEO)和Abhinav Gupta(总裁)有关,他们共同拥有超过90000次论文引用。
Deepak Pathak在伯克利攻读AI博士期间加入FAIR,之后成为CMU机器人研究所助理教授(AP),他还是MIT科技评论的35 U 35科技创新者;Abhinav Gupta是CMU机器人研究所终身教授,FAIR Robotics创始成员与研究负责人。他们相识十年后,于2023年双双离开CMU,投身具身智能创业,并组建了由Meta、Tesla、NVIDIA、Amazon、Google以及CMU、斯坦福大学和加州大学伯克利分校等高校的机器人和人工智能专家组成的顶尖团队。
Deepak Pathak和Abhinav Gupta出身计算机视觉与深度学习领域,他们不拘泥于机器人的传统路径。当业界仍执着于采集特定数据来训练单一场景下的专用机器人时,他们已通过自适应架构与Transformer模型,利用海量数据构建机器人基础模型。这一开创性方法解锁了物理世界的具身智能,创造出通用性强、鲁棒性高且能自主进化的模型。
在追求机器人通用智能的征途中,核心挑战始终是:如何在缺乏规模化数据的情况下构建训练模型,与大语言模型不同,机器人领域没有现成的“数据互联网”。为此,Deepak Pathak和Abhinav Gupta探索在线视频、远程操控、现实数据、模拟训练等多元路径。
2015年,他们首次实现机器人数据规模千倍突破;随后,率先尝试人类远程操控与低成本机器人操作平台;2017年提出著名的“好奇心驱动”自主学习算法;2021至2022年,凭借大规模自适应SIM2REAL(虚拟到现实训练)技术再度突破,斩获机器人学习大会最佳系统奖。
而这些技术基石,导向了Skild AI的技术愿景,打造可适应任意任务与环境的机器人通用基础模型。这些技术思想也在重塑人们对AGI的认知——仅靠数字知识无法构建真正的AGI,机器智能体通过“实践”学习:在新环境中尝试新任务,将即时反馈与既有知识融合,从而理解世界运行规律。
“机器人领域的GPT-3时刻即将到来,这将引发一场巨大的转变,将我们在数字智能领域看到的进步带到物理世界。”红杉资本合伙人Stephanie Zhan表示。
当前美国劳动力市场缺口达170万(数据来源:美国商会),医疗、建筑、仓储与制造业尤为严峻——专家预测至2030年制造业岗位缺口将达210万(数据来源:全美制造商协会)。
而根据《福布斯》预测,到2030年全球人才缺口可能达到8520万人,造成8.5万亿美元经济损失。
Skild AI的技术可让机器人代替人类执行危险任务,或与人类协同应对新挑战。
“通过打造能够安全执行任何自动化任务、在任何环境中运行并具有任何类型实体的通用机器人,我们既能扩展机器人能力边界,又能降低其成本门槛,缓解劳动力短缺危机。”Skild AI联合创始人Abhinav Gupta指出。
与为特定应用设计或仅在孤立或受限环境中部署的传统垂类机器人不同,Skild AI打造的是机器人通用基础模型,相当于“机器人大脑”,将成为各种机器人形态、场景和任务的共享通用大脑,包括操作、运动和导航。
这个模型通过接触海量真实世界的数据进行训练,训练数据点比竞争模型多至少1000倍,包括文本、图像和视频。Skild AI的“大脑”还接受了机器人控制任务的训练,其中包括人类远程操作员控制机器人完成简单任务的过程。这一过程教会了AI如何处理物理动作,同时还在随机任务中通过试错学习,进一步提升了其能力。
这种对不同类型数据的综合处理使得Skild AI的模型展现出了“涌现行为”的迹象。这意味着它能够执行一些并未出现在其训练数据中的动作和技巧。这些行为非常微妙,例如接住滑落的物体,或将正在操作的物体旋转到正确的方向。
尽管这些细微的“修正”几乎是人类下意识完成的动作,但正是这些能力让人类工人在通用型任务中表现得如此出色。一个能够整合这些更精细运动技能的机器人,将比传统汽车工厂中那些高速、高精度但依赖工具和对象精确位置的工业机器人更加灵活。
在产品方面,Skild AI首先开发的是安防/巡检机器人平台,适用于工业场景的机器人,执行检测、监控与精细操作等任务。
还有Skild AI移动操作平台,在机器人通用模型的支持下,这个移动操作平台让机器人开发变得像调用API一样简单。
而且,Skild AI可以兼容市售机械组件,使其在工业领域获得显著竞争力,并为进军消费级市场奠定基础。从能够掌握恶劣物理条件的弹性四足机器人,到执行复杂家庭和工业任务中灵巧物体操作的人形机器人,Skild AI 的终极目标是让智能机器人像智能手机般普及。
商业模式方面,目前Skild AI将效仿OpenAI,通过开放其机器人AI大脑接口供客户定制开发。
最近一年,具身智能这个机器人和人工智能的交叉领域吸引了大量投资。
去年11月,打造“机器人大脑”的Physical Intelligence获得了杰夫·贝索斯、Lux Capital和Thrive Capital领投的4亿美元融资,估值20亿美元;去年2月,Figure AI获得了微软、OpenAI创业基金、英伟达、亚马逊工业创新基金和杰夫·贝索斯投资的6.75亿美元融资,估值26亿美元。
还有Sanctuary AI(人形机器人)、Robust AI(智能机器人系统)和 Brightpick AI(仓储机器人)等公司,也都获得了金额不小的融资。
有趣的是,Figure AI原本使用的是OpenAI的定制模型来打造人形机器人,但是最近它宣布停用OpenAI模型,而自己打造端到端机器人AI模型,并将在近期公布其新模型,这表明具身智能的基础模型(机器人大脑)和大语言模型之间并不完全通用,其内在原因,是具身智能基础模型需要的训练数据与大语言模型有本质差异。
对于中国的具身智能行业,机器人基础模型确实重要,目前也有一些创业公司在这个方向耕耘。但具身智能行业想要发展,其内在逻辑与AI行业类似,需要打造更聪明,更能解决具体场景中实际问题的垂类机器人。
有了机器人基础模型,可以让机器人更聪明,做到很多之前无法做到的复杂动作,但是只有进入到垂类场景,机器人才能更好地落地和商业化,产生更多价值。
对于具身智能创业,中国创业者具有独特优势,一方面,中国的机器人制造产业链更完整也更集中,另一方面,中国不仅拥有丰富的机器人使用场景,而且每一个使用场景都具有足够大的市场空间。作为天使投资机构,阿尔法公社希望发现具身智能领域的非凡创业者,希望帮助下一个世界级的机器人公司发展壮大。