如何把理想汽车转型为AI巨头? 李想回归三场直播万字实录
1 周前 / 阅读约44分钟
来源:凤凰网

“消失”在公众视野九个月后,李想回来了!

和从前大家熟知的理想汽车产品“天花板”形象不同,这一次,李想对AI侃侃而谈,他将人工智能视为“未来的全部”,认为大模型的出现会让人类发生根本性的改变,也聊了聊理想汽车智能驾驶和理想同学应用人工智能技术的最新进展。

从车企CEO转变为人工智能企业CEO,他真的懂AI吗?有AI的理想汽车未来会是怎么样?

2024年理想智能驾驶发生了什么变化?关键节点上为何总能“领先一步”?

李想,这位公认的理想汽车产品“天花板”,怎么就觉得自己成了“瓶颈”?

李想不想造车了?理想AI Talk访谈实录01

AI意味着未来的全部

Q:别人都在做纯电的时候,你开始做增程,现在很多人开始做增程了,你怎么又不想造车了,要做人工智能企业?

A:造车肯定是要造的,电动化是上半场,智能化是下半场,但我认为,这个智能化讲的不是传统的软件智能,而是真正的人工智能,这是造车往下延续的一个必经之路。汽车将从工业时代的交通工具,进化成为人工智能时代的空间机器人。

Q:你第一次对内说要做一个全球领先的人工智能企业这句话的时候,是在去年1月份,是ChatGPT刚好诞生了两个月之后,你这是跟风吗?

A:不是跟风。在2022年9月,我们就已经确定了,要把人工智能作为真正重要的一个方向,并且我们认为这是未来竞争的关键。

在2023年年初发布战略(愿景)的时候,我们做了一个根本性的变化,把人工智能从一个隐藏的战略,变成一个开放的阳谋的战略,因为这样我们才能吸引到足够多的人才。

Q:但是你也可以说,你现在要做的,是一个人工智能技术驱动的电动车企业,或者是一个,拥有人工智能技术的自动驾驶企业,为什么一定要说是一家人工智能企业呢?你觉得他们之间的本质区别是什么?

A:其实做汽车之家,有我人生中最大的一个遗憾。

我们在移动互联网时代,选了一个非常垂直的领域,虽然你做得很好,但是某种程度你可能为了一棵树,错过了一个森林,所以在选择进行第三次创业的时候,我很重要的一点是,我要选择一个森林,我要做那个森林里最大的,无论它需要我经历什么样的困难,我绝对不只做一棵树了。

Q:所以你是觉得把它叫做人工智能企业,这是一个更大的故事,这是一个更大的梦想?

A:我觉得不是更大的故事,如果你看到我们到底在做什么东西,你就会相信了,我们一年超过100亿的研发投入,有接近一半是投在了人工智能方面。

我们是自己做基座模型,端到端和VLM(Vision Language Model 视觉语言模型)的,从最开始的论文到技术的研究,到最后研发和产品的交付,也是全世界非常早做出来的,我们不仅仅在做智能驾驶,我们还有理想同学,智能商业和智能工业,我们真的是这么在做的。

当大模型出现后,我最大的感觉是,人类会发生根本性的改变。

Q:怎么变呢?

A:一定会变得更好。互联网实现了信息的平权,人工智能开始帮助大家实现知识认知和能力的平权。我们通过人工智能将物理世界和数字世界进行融合,让有限的空间实现无限的延伸。

Q:你觉得AI对于理想意味着什么?

A:(在愿景上)意味着未来的全部。

让用户用上体验一致的人工智能产品

Q:你既然说AI这么重要,在你创业之初就已经决定要做了,那为什么你们开始做智驾,是同行里最晚的?

A:作为一个连续创业者,一个最大的好处是知道整个企业发展的节奏,就是从0到1先解决什么问题,有了收入以后,从1到10要做什么事情,这个其实是我跟新进入行业的创业者,一个根本性的不同。

理想汽车在早期的时候融资能力是最差的,在我们只有很少的钱的情况下,第一个步骤是想着如何把产品做好,我们也获得了非常好的市场的认可,在2020年和2021年,我们分别在美国和香港进行了IPO,有了更多的钱,所以我们从2020年初开始,就开始来做整个技术的平台化,像我们的自动驾驶的平台AD Max 和AD Pro ,包括我们的座舱平台SS,也包含我们整车的域控制器XCU ,再往后,我们还会去做模型和电机的碳化硅,这是我们演进的过程。

它是一个创业公司往上成长、资源有限的情况下,和资源增长以后,你分别去投资什么的一个进展。

Q:乔布斯说,如果硬件是产品的大脑和肌肉,软件就是灵魂,你表达的也是这个意思对吗?

A:当然是了,我最开始创业的时候,投资人经常问我一个特别有意思的话题,就是凭什么你能做出来。因为那时候我们还没有产品出来,我当时讲了一个重要的观点,我说我会比传统的汽车企业,更懂得怎么做互联网和大型软件,我会比这些互联网和大型软件公司,更懂得怎么去制造一辆车,这是我当时认为自己的优势。

Q:理想同学以前是一个车机的个人助手,现在要进入手机,变成一个App,未来还会上更多的终端,那这意味着,你们一个电动车企业,要进入通用个人助手这场红海战役了,是这样吗?

A:如果我们是一家纯硬件公司,是符合你刚才说的这个定义的,但就像苹果不是一家只卖Mac的公司,所以它才有了后边的可能性,今天的这些企业也不能以一个硬件来定义。

我们之所以去做很多的硬件,其实很多时候,是为了更好地控制硬件体系,以及性能再高一点点,但是大型软件是不一样的,不是所有人都能做操作系统,不是所有人都能做大型的云服务,这个就变成一个更大的挑战了。

回到人工智能也是一样的,今天你能看到几百家电动车企业,是因为中国有非常完善的供应链,但是这几百个企业里边,未来有哪些企业能去做基座模型?

Q:你觉得基座模型是一个分水岭是吗?

A:当然是。

Q:现在谁做了?

A:至少我们做了,至少我们一直在做基座模型,无论多么难,而且这是非常坚定的,我认为基座模型是人工智能时代的操作系统加编程语言,你就知道它有多么重要了。

Q:它是一个新入口的可能性?

A:我觉得基座模型所构建出来的,是人工智能的超级产品,是新一代的入口,它会在所有的设备之上,会在所有的服务之上。

Q:理想同学从车机进入手机,这是一个战略级的决定,还是你们只是想试试看?

A:我觉得没那么复杂,还是两方面。长远来看,在掌握基座模型前提下的,一个真正的大模型产品,一定是能够去自主使用所有的设备,会拥有所有的服务,这才是真正的人工智能。

在用户需求角度,很多理想用户的孩子,第一个接触的人工智能产品就是理想同学,在和理想同学对话的过程中,帮助他们解决一些问题,比如用理想同学来画画,或者和理想同学聊作业......我们希望可以让理想汽车的100多万用户,再加上这些用户的家庭,大概300-500万的人,不仅可以在车上,还可以在手机、电脑,甚至后边还可以在眼镜上,都体验到一致的人工智能产品,我觉得这是我们必须要做的。

相信有生之年,我们能实现人工智能的第三个阶段

Q:很多人说你是超级产品经理,能不能从产品的角度来讲讲,随着人工智能的能力演进,它的产品形态会发生怎么样的迭代?

A:我觉得做产品很重要的一点,是把用户的需求和你所有的能力进行结合。

人工智能AGI(通用人工智能)实现到最终阶段,我经常用三种方式来描述。第一个阶段,叫“增强我的能力”,意味着其实它是我的一个辅助,但最后的决策权在我这里。包括L3的自动驾驶,我们叫有监督自动驾驶,其实还是需要我在车上进行监督,和最后的兜底,核心的原因是,第一个阶段能力还不够,负责任的是我,所以叫增强我的能力,但它确实会让我变得非常方便,让我的效率变得非常的高。

到了第二个阶段,就是智能体所描述的一个阶段,我称之为“成为我的助手”,就是我只要给它发任务,甚至可以发连续的任务,它就可以独立完成,并对结果承担责任。比如我可以跟一辆L4的车讲,你去帮我接孩子,我不需要坐在车上,它就可以到学校帮我接孩子,并进行面部识别打开门让孩子上车。这个阶段比较好的是它会变成大规模的应用,是真正的iPhone 4的阶段。汽车企业,只有实现了L4,才是真正的iPhone 4的阶段,但今天还不是。

第三个阶段是我想的AGI的终极阶段,因为理想汽车的使命是“创造移动的家,创造幸福的家”,所以我称之为“硅基家人”,就是我不需要再给它任何的指示了,我也不需要给它分配任务了,它就是我们的家庭成员,甚至是家庭重要的组织者,它不但了解我,它还了解我的孩子,了解我身边的朋友,甚至比我还了解。

它会主动去干很多事情,可以自主的衡量,帮我把这个家管理好。当AGI发展到第三阶段,是我的硅基家人后,我觉得很重要的点是说,我的记忆也会被它得以延续,可能我的肉体不存在了,但是我的记忆会变成它的一部分。

我自己最兴奋的一件事情是我认为,我和我们的团队能够在有生之年实现第三个阶段。

Q:所以你怎么看个人助手的战争呢,在这个红海市场中?

A:我觉得今天还是非常初级的阶段,大家还是要去拿AGI(通用人工智能)的L3的门票,以及自动驾驶的L4的门票,由于我们在这两个领域同时都做,我们还看到了一个更有意思,我们更相信、更坚定会去做的一个机会。

我们在做的理想同学和自动驾驶,按照行业的标准其实是分割开的,处于早期阶段。我们做的 Mind GPT,其实是大语言模型,我们在做的自动驾驶,我们自己内部叫行为智能,但是像李飞飞的定义,叫空间智能。只有你真正大规模去做的时候,你才知道,这两个之间,有一天一定会连在一起,我们自己内部叫VLA(Vision Language Action Model,视觉语言行动模型)。

我们认为,基座模型到一定时刻,一定会变成VLA。因为语言模型,它也要通过语言和认知去理解三维的世界,这个三维世界不是只有图片,因为它(图片)并不能还原真实的物理世界,它需要真正向量的,用Diffusion(扩散模型)的方式,用生成的方式。对于自动驾驶也是一样的,它真正能够变得更强,走向L4,是它要有极强的认知能力,当这些东西发生变化的时候,它能够有效理解这个世界,而不只是端到端背后的那些压缩记忆,这是我们看到的一个变化。

所以我对团队的要求,是至少在中国的范围之内,未来几年必须得保证,我们大语言模型的基座模型,要做行业前三。根据这样的要求,需要什么的训练算力,我们都愿意来投资,我们要真正去跟头部企业去PK,去竞争。核心还是说,我们得把这个能力真正构建起来,而不只是在汽车行业里比一比。

Q:如果资源有限,理想同学和智能驾驶必须二选一,你放弃哪个?

A:我会减别的,不会减这两个。

只要所有的中国企业不放弃,一切皆有可能

Q:你们会像马斯克一样做Robotaxi吗?既做车也做Robotaxi。

A:我不想做,因为我们的使命是“创造移动的家,创造幸福的家”。

Q:那会不会Robotaxi到来以后就没有人开车了呢?

A:我们为什么要去构建一个家,我们为什么要去买一所房子,是因为我们需要高质量的陪伴,我们需要为我们的家人创造一个稳定安全和舒适的环境。车也是一样,我觉得实现L4自动驾驶以后,家庭用车也会变得更便宜,成本变得更低,所以我会相信另外一个方式,就是愿意拥有一辆车的人会变得更多。

可能5年后,10年后大家重新来看,到底是Robotaxi成为了主流,还是更多人能够拥有一辆自动驾驶的车,并且使用率很高,能够为自己的家人朋友所享用是一个主流,未来几年是个分水岭。但我相信,当一个空间变得更好,效率更高,体验更好的时候,我更应该拥有这个空间,这是我的感觉。

移动的家其实终极是L4,幸福的家是我刚才讲的“硅基家人”。

Q:很多人在问,理想会做机器人吗,特别是人形机器人?

A:概率上肯定是100%,但节奏不是现在。如果我们连L4级跟自动驾驶的汽车都解决不了,怎么去解决更复杂的?因为车是个无接触机器人,而且道路是标准化的,包括道路上的提示和参与者都是标准化的,而且每个人都受交通规则的训练,我觉得这已经是最简单的机器人了,如果车没法实现,其实其他人工智能机器人,还是非常有限的。

Q:理想汽车未来还会叫理想汽车吗?如果它要变成人工智能企业。

A:理想是一家人工智能企业,我们要做的不是汽车的智能化,而是人工智能的汽车化,并将推动人工智能普惠到每一个家庭。

我们的LOGO一直没有把汽车两个字写上去,甚至今天我们的运营公司还是叫“北京车和家信息技术有限公司”。但是硬件对我们非常重要,如果讲我们的愿景的话,一个更完整的称呼方式应该是“连接物理世界和数字世界”,从而能够成为领先的人工智能企业。

Q:你的一个00后员工想问你,在当前不利的外部环境,特别是地缘环境之下,怎么能成为一个全球领先的人工智能企业呢?

A:它是成长的一个过程,不是直达的一个过程。我觉得做一个创业者,很重要一点是我们要看不同的阶段。今天,哪怕我们做汽车不涉及人工智能,我也没有办法直接讲我会成为全球领先的汽车企业,所以我们要先在中国市场获得第一,然后再考虑下一步,在受美国限制的以外的市场,能不能做成第一。

其实人工智能也是一样的。我给团队提的要求是,我们到明年的时候,目标是要在中国的空间智能领域成为第一,在语言智能、大语言模型方面,以及所提供的服务方面进入到前三。团队按照这个要求来制定自己的目标,构建能力,以及确定我们的组织和投资,我觉得这个节奏还是非常重要的。

再往后我们看到的机会是,我们如何把语言模型和空间智能合成一个更大的VLA的模型,然后到了全面的Agent(智能体)阶段,以及到了L4自动驾驶阶段,你所具备的能力,以及站在今天还要去看我们去搞什么样的研究,匹配什么样的组织,以及怎么提前去准备一些投资,这是我们看到的解决方式。

Q:中国企业能成为全球领先的AI企业吗?

A:我觉得一切都有可能,只要所有的中国企业不放弃,一切皆有可能。过去的时候,我们也认为全世界最好的汽车都是德国人制造的,但今天大家不再有这样的一个观点了,最好的智能汽车都是中国企业制造的,是中国企业和特斯拉提供了全世界最好的智能汽车。在人工智能方面也是一样的,只要我们不放弃,我们把所有的心思和精力用在去改变和投入这些能力上面,结果一定会变得非常的好。

体验也是本身

Q:你为什么买法拉利?它又不AI,又不自动驾驶。

A:我觉得体验对我是很重要的,因为体验也是本身,就像我做预训练的一部分。我只有通过体验,来看它到底是怎么做的,经过我自己的体验,它才能变成我的认知和能力。

Q:理想同学会上法拉利吗?

A:我觉得如果我没买法拉利之前,我会说我们永远不会上法拉利,但买了法拉利以后,我认为这是一个可能性。我能想象到当实现L4的时候,大家一定会把车做成方盒子,里面有非常好的空间,但是谁来满足乐趣,想自动驾驶就自动驾驶,想自己开就自己开,但又是非常好的智能车,人工智能的车为什么不可以?

所以我今天的想法是,可能到2030年的时候,我们会有50%的概率做一辆非常有趣的超级跑车,但它一定是人工智能的跑车。

Q:你觉得法拉利这样的车企应该拥抱AI吗?

A:我觉得最重要的还是得继续延续它了不起的设计,不受约束的设计,以及保持它的稀有。因为这些价值还是属于它独有的,我觉得哪怕到了下个时代,它应该还是会变成一个更好的法拉利,而不是变成一个科技企业,只是科技企业里,也可能会出现有意思的车型。

理想汽车到底谁懂智驾?理想AI Talk访谈实录02

理想智驾一号位的职业危机

张小珺:听说李想对智驾发了很大的火,你怎么还能留在这?

郎咸朋:当时想哥说了一句很狠的话,他说郎博下半年如果我还看不到变化,咱们还是拿不到头部位置的话,那你这个负责人就可以不用干了。

张小珺:那次发火完之后达成了什么结果?

郎咸朋:我觉得大家就回归的是体验和用户价值,重新把大家的思路聚拢了。我们是给用户做一个有更好体验、更安全、更便捷的产品,而不是说做一大堆什么从指标上看起来挺好的产品。那次所有人心里边又重新回到从产品出发去做智能驾驶,这是我觉得印象最深的一点。

张小珺:你们是那次之后开始转的端到端吗?

郎咸朋:其实在想哥发火之前,我们内部的这个端到端的预研,已经在开展了。那么从那一刻开始,我们端到端的速度就加快了。

张小珺:第一次试驾端到端是什么样的体验?

郎咸朋:我第一次试到这个车,从中关村开到了北京交通大学。开了几公里我就问旁边的贾鹏,这是规则还是怎么做的?怎么我觉得开得这么好呢?他说一句规则都没写,全都是系统按照咱们给它的数据自己训练出来的。

咱们开车都知道,如果前面有个车刹停的话,它是要缓慢减速,甚至还再抬起一点刹车,有这样非常舒适的刹车过程。这个过程我们团队在规则阶段写了很长时间的代码,都没有达到一个完全拟人、解决所有场景的表现。

但我第一次试驾端到端,它的纵向就已经比之前试过所有的都要好的状态,这才用了短短不到15天。所以我觉得那时候建立了一个信心,就是端到端一定能做出来。而且一旦它做出来,就一定会比现在所有的智能驾驶软件都要好。

张小珺:既然端到端是灵丹妙药,为什么去年不上?特斯拉去年就上了,你去年在干嘛?

郎咸朋:我们在等,等足够的数据和算力,等到了我们就能上了。

端到端 VLM大模型其实最终的本质是用人工智能来做自动驾驶。人工智能的三个要素:算法、数据和算力。这三个要素必须全都齐备。我们是今年是准备好了,所以我们能做这个事情。

理想AD Max 车型的销量,去年起来了之后到今年初(高质量训练)数据量达到10亿(公里) 左右规模,这是一个基础。第二是算力基础,今年初我们算力也到了5EFLOPS。再加上第三步,就是端到端的一些预研也有一定成果,所以到今年初是天时地利人和,可以做这个事情了,去年我们还在补课的一个过程。

张小珺:为什么很多企业的端到端是两个模型,而不是One Model?

郎咸朋:这个是算法和理念的问题。我们要做端到端时就给自己定了一个目标,一定要用纯数据驱动的方式来做这件事情,而不是结合了之前的规则来做,所以说它的性能上限会非常高。

张小珺:为什么理想是端到端+VLM,不像特斯拉只用端到端?你们对自己的端到端不够自信吗?

郎咸朋:不能这么讲,我们在做技术方案时充分参考了世界上所有的先进方案,但始终无法解决一个问题是,当一套自动驾驶或智能驾驶系统,它工作时如果遇到之前没有见过的场景,应该怎么处理?我们认为就是端到端+VLM,就是系统1+系统2的方式,很好地模仿人类大脑的工作方式。

张小珺:如果智驾一号位想要推动智能驾驶的投入,老板会成为阻力吗?

郎咸朋:没有,反而李想一直在催促我:郎博,咱们自动驾驶怎么还是慢了?赶紧加快速度!

李想:要么就做端到端,要么就不再做自动驾驶。

张小珺:特斯拉没有用激光雷达,你们为什么要用?

李想:很多人不太理解说:为什么要保留激光雷达,还是为了安全。是不是因为你技术不好?不是,中国和美国是不一样的,如果你经常在中国晚上夜路开车,你会看到有尾灯坏了的大货车、甚至可能尾灯坏的大货车会直接停在主路上,至少我们今天的摄像头,能够在深夜里没有光线下看到的距离,其实只有100米出头。

但是激光雷达,在没有任何光线的情况下是可以看到200米的。这就可以帮助我们实现130公里/小时的AEB自动紧急制动。那我觉得这个是非常重要的,因为我们是个面向家庭的车,每个人生命安全都非常的重要,所以这是我们继续保留激光雷达根本所在。而且后边的车型仍然会保留。我相信如果马斯克在中国,在深夜里不同的高速开过车,他也会选择把前面的一颗激光雷达保留下来。因为特斯拉对于安全同样地重视,只是他要在这个环境里来看到。

张小珺:理想激进的用只有一个模型的端到端,其他车企还在用两个模型,为什么?

李想:很多时候可能跟我们有一些比较好的外脑有关,像王兴、陆奇博士,他们会给我们带来很多启发。有一次陆奇博士跟我们讲,你们应该思考一下人是怎么工作的?我觉得这个当时对我们帮助很大。

今年初我还逼着智驾团队去美国,他们在不同的城市开FSD V12。另一方面我们研究工作也在进行,那时已经在发端到端+VLM的各种研究论文了。回来以后我觉得要么你做这个,要么我们就不要再做自动驾驶了。今天你靠这些规则上来做的,跟请个供应商做出来的东西有啥区别?没有啥区别。

我说服郎博他们很重要的一点,我说你们经常解决了一个Corner Case(极端情况),又出现三个其他的Corner Case。你们一辈子都在解决Corner Case,解决不完。

张小珺:所以其他人不转,是因为他们Corner Case解决得比你们好?

李想:有些企业Corner Case确实解决得比我们好,因为他会招很多的人,5倍、10倍的人,然后一个路口一个路口去解决。不但解决规则算法的Corner Case,甚至还自己有地图,去修地图的Corner Case。

张小珺:过去两年在人工智能上,你有什么哇塞Moment吗?

李想:ChatGPT 肯定是了,其次我们内部还是有很多“哇塞”的。一个印象最深的是,我们决定启动端到端并匹配好资源,准备好200人团队,他们训练了几十版模型,第一版放到车上,当时郎博让我们来试,我跟张颖(经纬中国合伙人)在北京研发总部正好就一起试了。张颖坐主驾我坐副驾,当时我就很惊讶:这一个月的训练,比过去三年做的东西,进步速度要快!

张颖之前试过无图NOA,当他试到端到端时发现这跟人很相似,甚至在一个路口,旁边有辆车为了躲行人往我们这边躲时,这个车也适时地避让了。他问为什么能躲那么快?我说端到端响应速度快了好几倍,因为他是个One Model,而不是经过4个步骤。

我们下一个大版本更新时,用户可以在车上直接很清楚地看到端到端的工作方式是什么样的,视觉语言模型工作方式是什么样的,以及人工智能到底是怎么工作的。

有监督智能驾驶不是L2的延续,而是L4的先导。

张小珺:大家都说理想做智驾是投入最晚最慢的,你怎么看?

郎咸朋:2018年1月我加入理想时,跟李想讨论过这个问题。什么才是决定最终智能驾驶或自动驾驶实现的最关键因素?我们当时聊的就是数据。人才可以流动、算法可以提升、算力也非常重要,但是只要有健康的资金、合理的资金使用也是能买得到的。

那么最重要就是数据,数据它是买不到的,必须自己有这样一个非常高质量、规模非常大的数据,才可以做好自动驾驶。所以我们要按照节奏来做自动驾驶,刚开始我们要先把车造好、把车卖好,然后积累更多的资金、人才和数据,到了一定时间点再大量投入,去达到更好的自动驾驶的效果。其实从现在结果上也是能看出这一点的:我们自动驾驶的节奏是非常好的。

张小珺:什么时候理想意识到,智驾对于卖车是有帮助的?

郎咸朋:从实际表现来看是从今年开始的,今年智能驾驶确实对于销量有非常好的促进作用。我们2月AD Max的交付量占比只到20%左右,然后到今年下半年超过50%了,这是实打实的业绩。早期大家认为自动驾驶是一个功能,它跟座椅加热没有大的区别,并没有解决用户日常出行的舒适性。直到现在我们用AI来做自动驾驶,端到端+VLM真正解放用户长时间的驾驶疲劳。当我们能达到综合MPI(城市+高速综合接管里程)100公里、几百公里时,大家就真正愿意为自动驾驶买单了。

张小珺:理想提出有监督智能驾驶,跟自动驾驶L1到L5传统分级有什么区别?

郎咸朋:这里面其实体现我们对自动驾驶研发的思路差别。之前很多人认为L3自动驾驶是L2辅助驾驶的延续,只要把L2辅助驾驶的场景越做越多,总有一天能无限趋近于L3,甚至可能就能够做到L3。

但在我们看来,L3或者有监督智能驾驶,它并不是L2的延续,而是L4或者自动驾驶的先导程序。实际上我们是锚着未来的自动驾驶能力去研发、去成长和迭代的,而不是沿着过去一套用L2的思路,去做现在的自动驾驶。

张小珺:你说自动驾驶是能力、辅助驾驶是功能,两者本质区别是什么?

郎咸朋:功能是预设条件,能力是应对所有条件。你不可能穷尽所有的预设。

功能的话,还是用上一代的这种软件1.0方案来做自动驾驶。最大的问题是在研发之初,就要清晰地设定所有条件、所有边界,以及最终确定性的结果。这在自动驾驶里是非常困难的。

能力的话,是用人工智能的方式来做自动驾驶。当我们把自动驾驶当成能力来开发,从最本质思考人是怎么学会开车的。最开始人去驾校学习,掌握基本驾驶技能再考试。考完掌握基本能力之后,作为实习司机一边实践一边提升能力,慢慢地成长为老司机。我们系统1+系统2的方案,让自动驾驶系统拥有这种能力去迭代和成长,随着数据量的增长,它会慢慢地让性能随之提升,这个就是大家经常说的规模效应。

张小珺:你们验证了自动驾驶的规模效应吗?

郎咸朋:我们已经验证出来了。这不是我们发明的,所有的大模型应用都符合这种规律,也就是说数据规模和数据质量的增长,会带动性能的增长。而且性能增长是接近于线性的,这就是我们用大模型最本质的好处。

张小珺:有监督智能驾驶阶段,理想交付给用户的产品长什么样?

郎咸朋:全场景的、一体化端到端产品。要想实现有监督智能驾驶,一个前提是实现车位到车位,也就是解决最前面一百米和最后面一百米。以前智驾是从干道开始,现在可以从小区车位开始,然后包括园区道路、泊车、城市道路,还有高速和收费站ETC都会全部打通。

高速城市全场景升级端到端+VLM,以及创新的AI推理可视化的交互,将在近期随OTA全量推送给所有的AD Max用户。

张小珺:L3什么时候实现?

郎咸朋:按照现在的端到端+VLM这套体系,能力继续迭代的话,我们是有希望在2025年去实现L3的。

张小珺:面对李想年初对于智驾的发火,你的职业危机是什么时候解除的?

郎咸朋:我觉得到现在还没解除,因为还没有做到极致。我们的目标是今年综合MPI(城市+高速综合接管里程)做到100公里接管一次的能力。这个接管不是安全接管,不是说你要撞车了才接管,是用户觉得车开得不符合体验、不舒服的接管。到明年、后年,我们会逐渐提升至500公里、甚至1000公里以上。慢慢让大家对智驾越来越自信、越来越依赖。

张小珺:要实现这样的目标,需要储备多少算力和数据?

郎咸朋:要达到500公里的综合MPI(城市+高速综合接管里程),预计需要2000万Clips(视频片段)的水平。如果2000万Clips从不到5%的老司机去筛选,这里隐含的数据量,要达到50亿公里甚至上百亿公里的水平。

电动车这场仗什么时候能分出胜负手?

张小珺:你现在开车智能驾驶占比是多少?

李想:大概80%左右。

张小珺:剩下的20%是因为你们技术不够行吗?

李想:最主要是我赶时间。

张小珺:端到端是自动驾驶的制胜法宝吗?

李想:我觉得端到端只能解决L3,解决不了L4。

张小珺:什么时候可以100%用自动驾驶?

李想:给我三年的时间,它需要技术到位,也需要产品到位,也需要一些环境和政策到位,也需要消费者对于人工智能的信任到位。

张小珺:电动车这场仗什么时候能分出胜负手?

李想:现在中国的汽车仍然非常内卷。电动化和智能化是两场仗,电动化其实是相当于是一张门票,我认为L4会分出来真正的胜负。但是我们今天在做的所有事情,是为了L4拿门票,因为L4所需要花的钱,所需要拥有的能力,所需要的数据量,是今天所不具备的,所以今天大家要靠这个东西去拿L4的门票。

张小珺:拿L4的门票需要什么条件?

李想:足够多的车跑在路上。

张小珺:多少车?

李想:得500万辆以上。第二你要真的自己掌握VLA(视觉语言行动模型)这个基础模型的能力。第三,你要有足够多的钱去招募最顶级的人才,以及足够的算力,有这三个条件。

张小珺:当满足这些条件且做到足够优秀时,能做出一家像苹果这样的公司吗?

李想:一定会的,一定会的。

李想,从天花板到瓶颈?理想AI Talk访谈实录03

到Agent阶段,才是真正的“iPhone 4时刻”。

张小珺:你第一次用ChatGPT是什么时候,当时是什么感受?

李想:发布的时候就用了,当时一个最大的感觉就是,人工智能应该有的样子。

张小珺:如果让你做OpenAl的CEO,你会比Sam做得更好吗?

李想:不会,我觉得Sam Altman他们做得非常成功。

张小珺:如果现在让你做OpenAI的CEO,你会做什么?

李想:今天还是OpenAl定义的AGI(通用人工智能)第一个阶段:聊天机器人,我觉得OpenAl完全按照这个定义做了最好的产品体验。第二个阶段是推理者,到第三个阶段Agent(智能体)的时候,才是真正的“iPhone 4时刻”,普通老百姓都能用了,它能独立地、持续地、连续地完成任务,而不需要靠密集的提示词。但这时候产品应该是个什么交互,对于所有的这些头部企业,都是应该要认真去思考的。

让人和Al之间的交互,像人与人交互一样自然。

张小珺:为什么一个车企要自研大模型?这个决策是怎么做出的?

陈伟:这个事情也是逐渐达成共识的,我们当时已经把线上的关于自然语言处理的技术,切换到了预训练的模式下,任务型对话能够在车里面,做车控、媒体、导航这样非常多垂域的覆盖,上面用预训练的模式能够快速高效地、高质量地完成这样的能力。

2022年年底,ChatGPT发布了,我们看到了大模型带来的认知智能和语言智能上突飞猛进的变化,这件事情对我们来说是有非常大震撼的。我们内部也在想,为什么我们没有快速地考虑把这个模型架做得那么高那么大。

后来想哥就提了一个话题,他说现在我们应该回归用户体验,核心的问题在认知智能上面。那么认知智能这件事,我们就需要考虑怎么把技术做升维,能够用更厉害、更先进的技术,把理想同学的认知快速拉上来,把天花板拉高。这件事对于我们后面去做基座模型,我觉得是指引性的状态。

所以我们必须要从基座,从底层开始建设,这样未来我们在做更多技术创新的时候,产品和研发才能有更快速的迭代,体验才能持续地去做创新,而不是只做行业的一个平均水平。

张小珺:作为一个后来者,你们准备怎么追赶ChatGPT?

陈伟:我觉得OpenAl现在是整个行业的标杆,除了目前OpenAl宣称进入L2(推理者)以外,绝大部分的团队现在还停留在L1(聊天机器人)这个阶段。在这样的一个状态下,技术处于早期,而我们在做一个无限游戏。探索边界还不清晰的情况下,我们最重要的事情就是把握住目前的第一性原理Scaling Law(规模效应)。

我们的迭代也非常快,去年年底12月OTA 5.0之后一直到现在,Mind GPT 云端的大模型已经迭代了30多次。

张小珺:Mind GPT 是怎么迭代的?

陈伟:Mind GPT 到现在为止一共经历了三代。

2023年4月,Mind GPT 1.0的第一版模型出来,到2023年年底的时候,我们车机的OTA 5.0发布了这个大模型的上车,是行业第一家把大模型推动上车的公司,也是(汽车行业)首家通过国家大模型备案的。2023年年底上车的时候,其实已经经历了第六个版本。

今年年中,我们完成了 Mind GPT 2.0的变化,对于我们算法团队来说,除了关注模型效果的提升以外,还要关注整个训练效率和推理效率。Mind GPT 未来的模型架构,肯定会是一个MoE(混合专家模型)加Transformer的结构,会持续往前迭代,我们在MoE模型上线的时候,相较于 Mind GPT 1.0大概翻了一倍,但是推理成本跟 Mind GPT 1.0基本保持一致。这样在效果和效率上,就达到了一个我认为是双赢的局面。Mind GPT 2.0的重点在语言的理解和知识上,另外一块是在长上下文上有了比较大的突破,也就是在逻辑推理能力上做了进一步的强化。

今年年底,我们会上线 Mind GPT 3.0,这是我们的第三代的 Mind GPT 的能力。Mind GPT 3.0相较于前面两代的核心不同在于,以前我们的重点放在了语言模型上,但是我们认为未来的在人机交互的过程中,它应该是一个多模态的端到端的大模型,应该融合了整个人机交互的体系里,像语音、视觉、语言这样的模态进去,能够理解不同的模态,然后能够在一个模型内完成从感知到认知再到表达的完整能力。这样的好处就是它能够让人机交互的延迟,从以前的比如说几秒钟变成可能500毫秒以内,这样人和机器、人和Al之间的交互,就能像人与人交互一样这么自然。

张小珺:这是多大规模的数据量?

陈伟:我们现在的预训练数据规模量已经到10万亿Token的规模了,有了高质量的课本知识以外,我们还需要给大模型提供一个由简单到复杂、由粗到精的一个过程,让它逐渐地一步一步去学习。所以我们在预训练后训练阶段,也要构建一套分段学习的逻辑,同时在数据的构建上,我们要考虑怎么能给它建立一套好的学习逻辑,所以现在重要的就是要尽快地把强化学习后训练的事情做好。

张小珺:你们有一些特色化的数据吗?

陈伟:第一个是多模态的数据,有自动驾驶的,也有理想同学的对话模态,这些数据是独有的。第二个是用户在产品里自己使用的数据,代表了你的场景或产品本身场景的一些特性,这也是自己独有的,所以我们也在构建自己的数据飞轮,争取能够把这些数据的能力进一步发挥出来。

不做人工智能,我们就什么都不是。

张小珺:理想同学跨越到L3(智能体)的点会是什么?

陈伟:对于逻辑推理来说,更重要的是做好子任务分解以后,还要让它针对自己的思考方式去做更多的发散性思考,在每一个思考路径上做出自己的反思,做到自我纠错。甚至忽然间碰到死胡同的时候还能回溯回来,所以我觉得这是一个非常强的思考能力。

我们的重心是希望能够实现从L1 ChatBot(聊天机器人)到L2(推理者)的变化。我们定义L1有两个核心的特点,第一个是能够实现多模态,因为人就是能听会看的,所以我们认为语音和视觉加入到大模型是非常关键的。第二个是指令遵循的能力,能够听得懂人在跟它讲什么,再复杂的命令也能听得懂,并且能够比较准确地执行。

所以支撑理想同学的技术,就是 Mind GPT 的多模态智能体的技术,理想同学走到L3的时候,Mind GPT 应该长成的样子,就是一个多模态智能体。

张小珺:现在大家都觉得预训练的Scaling Law(规模效应)达到了天花板,这对于中国团队的影响是什么?

陈伟:如果我们想做好后训练,我们依然需要有个好的基座模型,因此我们依然需要去具有自己的预训练的Scaling Law(规模效应)。

这件事情短期内会出现,会传出来有些公司在模型做得更大以后,效果可能没有想象中的明显,但我认为这个可能还是一个从AI的算法到Al的infra之间,目前的有些要待攻克的问题。

第二个点我觉得Scaling Law(规模效应)本身在解决的问题是模型的效果和数据和模型规模之问的关系。我们越来越觉得数据不只是规模的,需要有高质量的数据才能把规模做上去,才真正有价值。

所以这个过程中可能大家对于Scaling Law(规模效应)的看法也会有一个粗到精的过程,理解才能更深刻,但是我认为这个肯定会是大模型时代的第一性原理。

张小珺:第一次听李想说他要做一个人工智能企业的时候,你在想什么?

陈伟:大家有一个充分的共识,AI技术是未来最大的机会。

我们内部做了非常长时间的关于AI战略的讨论,最后做决策主要基于几点,对于用户的理解,对于行业发展趋势的判断,对于市场,对于竞争,还有对于自身的分析。所以当我听到这个消息的时候,我觉得是一个自然而然也必将发生的事情。

而且想哥是非常坚决的,他说,如果我们要是在未来不做人工智能,我们什么都不是。

张小珺:你觉得理想汽车有这样的技术基因吗?因为你们的创始人并不是一个有技术背景的人。

陈伟:理想汽车创造的爆品背后的这种逻辑是因为我们推出的产品都是之前行业没有见过的,有我们非常多的背后的技术创新,这些都是李想带领团队做出来的。

大模型时代来了之后,AI的从业者,大家对于技术这块的认知和想法可能也都需要重构,包括技术栈也需要重新迭代。那么我觉得大家对于这件事的认知都在同一个起跑线上,那就取决于学习的速度,而他恰恰又是一个学习速度非常快的人。在几个月前OpenAl的o1推出之前,他当时跟我们说我们的重心不要只放在基座模型训练上,要花更多的精力放在模型的后训练这件事情上。OpenAl的o1发布之后,其实整个的大模型的训练范式,跟他几个月前的判断是非常一致的。

竞争又有了新变化,这是这个世界的精彩和丰富之处。

张小珺:电动车不是你创业的终点,但现在电动车这场仗还没打赢,什么时候能打赢?

李想:并不存在打赢不打赢这件事。汽车企业发展的这么多年,可能跟传统汽车厂的竞争结束了,你会发现又有很多外来者。开始大家看到的是新势力、特斯拉跟传统汽车的竞争,后来华为进来了,小米进来了,竞争又发生了新的变化,我觉得这是这个世界的精彩和丰富之处。

张小珺:你觉得为什么苹果现阶段放弃造车?

李想:我认为有两个挑战,第一是如果做汽车,苹果的组织模式必须发生变化,因为汽车确实比手机更复杂。第二是如果你做规则算法、知识图谱,数据就是隐私,但是如果你真正做到了大模型阶段,如果它变成了Token,就跟隐私什么关系都没有了,相反,它是解决隐私解决最好的一个方式。这些厉害的企业,都是一帮足够聪明人,当他看明白、去拥抱Al的时候,可能比大家想象的进步速度要快得多。

张小珺:你怎么看待小米汽车做出来了?你有给过雷军什么建议吗?

李想:我说“你必须All in”,只要做到这一点,小米汽车就会成功。雷军做硬件的能力非常强,这个没什么可质疑的,他不只是做车做好了,他的电视机、空调做得也非常好,这是他本身就有的优势,而且他带着那种发烧友的心态去做。我们跟小米关系也不错,包括理想MEGA以后理想L6又很艰难,雷军来帮我们站台,我们都非常感激,帮了我们非常非常多。

我是理想产品的天花板,也是瓶颈。

张小珺:你是理想产品的天花板吗?

李想:从0-1的阶段,产品是由我来主导的,一是因为我对三排座的车有非常深的体验,二是因为我没有司机。对于产品经理来说,体验的能力和体验的范围和深度是你的预训练、你的基座模型,所以我是天花板。到1-10的阶段,我就是瓶颈了,所以我们要升级,把体验变成一个能力,让他们去拥有。建立一个培养他们的体系,让大家在上面能运营得越来越好,让每个做产品的都比三四年前的李想更好。

张小珺:作为CEO,你其实喜欢高管和自己吵架是吗?

李想:就像乔布斯讲的那个故事,他的邻居大爷拿着一堆石头,放在一个机器里,几天以后拿出来都是非常漂亮的球。真正顶级的团队,在做产品、做研究、做创造的时候,就应该是这样的。我喜欢看到大家在吵架,让这些可以跟李想吵一两个月的人,吵得特别开心、结果特别好的人,变成大将军,主导我们后边的产品,这是我们想要的,也是这个阶段必须要拥有的能力。

张小珺:作为产品经理,你最想讨好的人是谁?

李想:我不想讨好任何人。我觉得还是要去思考一些本应属于用户的价值,这些价值今天没有实现,影响它实现的障碍到底是什么?这是最重要的。比如大家都觉得电动车很好,但充电很难,这是全行业的难题,我们怎么解决?所以我们有了增程,有了5C,有了自建充电网络。

它是个取舍,你得知道自己想要什么。能够像谷歌那么克制地变成一个搜索框,像OpenAl那么克制地变成一个对话框,这需要巨大的能力,因为简单所以丰富,不是因为复杂所以丰富,复杂就僵化了,这是我们解决问题的方式。

张小珺:你对产品了解更深,还是对技术能力认知更深?

李想:过去我们提供的东西叫功能,功能最主要的获取方式是体验,通过不同的产品,获得不同的体验,判断功能的价值。人工智能时代看能力,必须得搞研究,对技术方向进行有效的判断,再搞技术研发,再产品化。

在最艰难的十字路口,看透本质是创始人最重要的能力。

张小珺:没有上过大学,会让你在社会中遇到更多挫折吗?

李想:本质上没有什么挫折,它并不影响我去学习,并不影响我去获取知识。唯一遗憾的可能就是,我的人生中缺少这么一段大家都有的体验,在这方面跟大家没有共同的语言。

张小珺:你说你是一个敏感的人,这对于做CEO会有问题吗?

李想:没什么问题,CEO有不同的类型的。每当在一个最艰难的十字路口的时候,创始人能不能看透本质,做出对团队而言最好的选择,并通过未来去验证,这是最重要的一个能力。

张小珺:2019年是你最困难的时候吗?

李想:我最困难的时候还是2008年5月,是真的会自己伤心到哭的程度。几个小股东要把我和樊铮赶出公司,融钱也融不到,公司的现金流也完全断掉了。当时要把我们赶出公司的是三个合伙人之一,我来北京的时候我们在林业大学租了个40平米的房子,一室一厅,白天工作,晚上甚至在一张床上睡觉。

后来我们和解了,他帮我获得了最大的一次成长。他说如果你当时把这些困难跟大家说出来,我们愿意把房子抵押了,来支持公司继续发展下去,但是你并不给我们这样的机会,你选择自己死扛,而公司变得越来越差。那一刻我就做了一个巨大的反思。我从小受到的教育,就是你要对自己特别严格,甚至要对自己苛刻,你不需要对自己好。我选择创业,就很难再去找一份工作了,因为学历什么都不行。

所以我就学到了两个特别重要的能力。第一,要接受自己的优点,也能接纳自己的不足。第二,如果有一些对我而言是致命的缺点,严重影响到身边所有的人了,而且也影响到自己了,我肯定要改。如果从来没有吃过糖,我怎么给别人甜头。

只有成长是我的欲望。

张小珺:你非常关注人的工作,最近有对人性多一层认知吗?

李想:2024年,在人的方面,最大的收获来自3000多人的校招团队,比我们那代人优秀10倍以上,他们受最好的教育,心智也很成熟。在技术展示会上,AI相关产品有一半以上都是校招团队做出来的,非常之惊讶。大家老是讲一个时代过去了,我从他们身上看到一个新的时代开始了。

张小珺:你现在的欲望是什么要做一个1万亿市值的企业吗?

李想:1万亿市值不是我的欲望,只有成长是我的欲望。经营公司有两件事情是最重要的,一是推出长远有价值、有意义的产品和服务,要做判断、要出题、要训练、要投资。二是设定好有向往感、有意义的目标,目标是特别有效的管理方式,1万亿反映了对用户的价值,也反映了行业地位,它不是空洞的,背后还有很多东西要去做。

张小珺:一个1万亿市值的企业需要具备什么条件?

李想:如果不能实现L4自动驾驶,我们肯定不能迈入万亿俱乐部。后来者必须使用最先进的技术,提供完全不同的产品体验。今天大家买车是为了开车,但未来不开车才是革命性的。一定要采用完全不同的商业模式,同时还有非常好的能力来支撑。技术、产品、用户三个层面的高速增长,是最顶级的企业都具备的特质。

张小珺:如果理想没有成为全球领先的人工智能企业,会是因为什么?

李想:我觉得一定是我们在综合能力方面有缺失,包含研究、研发、产品、商业能力,当然也包含自身的造血能力,它是一场非常大的仗。我会全力以赴地确保我们成为全球领先的人工智能企业,做好每一个环节。但是如果在我的有生之年没有办法实现,或者我们因为犯了巨大错误没法实现,我也非常乐于看到有中国企业能够在人工智能方面做得非常好,实现人工智能的第五阶段,我愿意为这样的企业而鼓掌。