​7天暴涨58%,DeepSeek为何震撼全球?李国杰再论第三波人工智能浪潮
6 小时前 / 阅读约29分钟
来源:36kr
DeepSeek震撼全球,掀起AI第三浪,挑战美国霸权。

中国工程院院士李国杰认为,DeepSeek的横空出世,是世界第三波人工智能浪潮中新的标志性事件

2025年1月27日至2月12日,Wind DeepSeek指数(1月26日发布)7个交易日暴涨58.29%,DeepSeek概念股并行科技同期暴涨234.73%。

DeepSeek指数和相关个股股价狂飙的背后,是AI(人工智能)大模型公司DeepSeek的横空出世,不仅震撼了美国,引发美国AI芯片巨头英伟达股价单日暴跌17%,同时也震撼了全球。

2023年4月,在美国OpenAI推出ChatGPT3.5大模型引发人工智能热之后,中国基金报记者曾专访了中国工程院院士、前中国科学院计算技术研究所所长、时任中科曙光董事长李国杰(参阅《彻底火了,暴涨60%!李国杰最新研判》)。

李国杰当时指出,因为广泛的渗透性,人工智能将成为21世纪起决定性作用的技术,未来几年一定会出现新的标志性事件。

近日,中国基金报记者再次专访中国工程院院士李国杰,请他详细阐释了DeepSeek为什么会震撼全球。

在此次专访中,李国杰表示,DeepSeek的横空出世,是世界第三波人工智能浪潮中新的标志性事件,可以和2023年初OpenAI发布ChatGPT3.5相媲美。DeepSeek推出的V3和R1模型既是技术上的重大突破,也是发展模式上的颠覆性创新。

DeepSeek带来的最大“震撼”,是闯出了一条发展人工智能的新路,中国从“追赶者”变为“规则改写者”,第一次在核心技术领域以颠覆性创新而非规模优势挑战西方霸权。

在李国杰看来,DeepSeek的崛起动摇了硅谷与华尔街的基本信念,其对美国AI巨头的冲击不是短期的,而是中长期的。这种冲击堪比1957年苏联卫星上天的“斯普特尼克时刻”,迫使美国重新审视其技术霸权的基础。

李国杰指出,DeepSeek不仅是技术突破者,更是规则重构者。DeepSeek的崛起说明AI不再是简单堆砌算力的暴力游戏,而是进入了以算法和模型架构优化为主,同时高度重视数据质量与规模、理性提高算力的新时期。DeepSeek的开源战略将向历史证明:在这场AI竞赛中,谁拥抱开源,谁就能赢得未来。

李国杰认为,中国人工智能企业正在重构全球AI供应链版图。就整个人工智能领域而言,在有些研究方向上中国还在跟跑,但在推理模型等许多方向上,中国和美国已经处于你追我赶的并跑状态。在人工智能赛道上,中国不止DeepSeek一家,而是有一批创新型科技企业进入全球第一梯队。

不过,李国杰也强调,DeepSeek的成功并没有否定算力在人工智能发展中的关键作用。实际上,由于用于推理的设备比训练设备多得多,推理所需要的算力将来会成为主要需求。不论是算力、数据还是算法,中国与美国仍然有差距。要打赢这场事关国运的科技战,还要做长期的艰苦努力。

以下是此次专访全文:

世界人工智能发展史上,新的标志性事件

中国基金报:DeepSeek的横空出世,是否可以和2023年初OpenAI的ChatGPT3.5类比?是否是世界人工智能发展史上新的标志性事件?如果是的话,其标志性意义是源于技术上的突破,还是发展模式上的创新?

李国杰:DeepSeek的横空出世是世界人工智能发展史上新的标志性事件,可以和2023年初OpenAI发布ChatGPT3.5相媲美。DeepSeek推出的V3和R1模型既是技术上的重大突破,也是发展模式上的颠覆性创新。

有人说ChatGPT是“0到1”的突破,而DeepSeek只是“1到N”的扩展,这种看法不符合人工智能发展的历史轨迹。人工智能不同于物理学等基础理论研究,物理学中的牛顿定律和爱因斯坦发现的相对论是“0到1”的突破。但人工智能是一个没有严格定义的研究领域,没有智能和不智能的“0”和“1”的界限,只有智能化水平不断提高的发展过程。

从1943年提出神经元计算模型以来,人工智能经历了漫长的探索过程。基于神经网络模型的第三波人工智能浪潮已经出现好几次里程碑式的重大事件。

2012年在ImageNet大规模视觉识别挑战赛上,Hinton等人研制的AlexNet卷积神经网络取得了显著成功,这可以看作第三波人工智能浪潮的起点。

2016年DeepMind研制的AlphaGo围棋程序战胜世界冠军李世石和柯洁,引起了全世界的关注。

2017年Google的7名人员提出Transformer模型,提出自注意力机制,成为深度学习的主流模型。

2018年DeepMind发布了AlphaFold,在蛋白质结构预测中展示出惊人的预测能力,开辟了AI for science的新方向。

2023年OpenAI发布ChatGPT3.5,引领了以大语言模型(LLM)为标志的生成式人工智能新浪潮。

DeepSeek的横空出世与上述重大事件一样,都是第三波人工智能浪潮的里程碑事件。

为什么说DeepSeek发布V3和R1模型是与OpenAI发布ChatGPT 3.5一样的里程碑事件?

从DeepSeek发布后用户和大企业的狂热接纳情形,可以看出其巨大影响力。ChatGPT发布后两个月用户就达到1亿,全球为之惊叹。2025年1月20日,DeepSeek-R1发布上线,在没有任何广告投放情况下,7天之内用户增长超过1亿,创造了用户增长速度新的世界纪录。DeepSeek在苹果应用商店的下载量占据了157个国家/地区的第一名位置(包括美国),在相同时间段超过ChatGPT首次发布时的下载量。

GitHub是全球最大的代码托管网站,GitHub的星(Star)数‌(即GitHub平台项目页面上的Star按钮被用户主动点击的次数),代表项目受欢迎的程度和社区的认可度。目前,DeepSeek的GitHub星数已超越了OpenAI。

全球人工智能的龙头企业纷纷拥抱DeepSeek,也凸显了其不可抗拒的影响力。微软最早宣布将DeepSeek-R1模型添加到云平台Azure AI Foundry,开发者可用于构建基于云的应用程序和服务。接着,AWS(亚马逊云科技)、英伟达、AMD等公司相继宣布在其AI服务平台上部署DeepSeek-R1模型。

不管相关势力如何抵制,少数媒体如何恶意中伤,公司和用户都是根据DeepSeek的实际效果和亲身体验做出选择,DeepSeek推出的高效率、低成本的推理模型和开源的商业模式,必将引领人工智能行业新潮流。

DeepSeek的V3和R1模型广受欢迎,是因为在模型算法和系统软件层次都有重大创新。

首先是算法层次的创新,DeepSeek采用了新的混合专家架构(MoE),每一层有256个路由专家和1个共享专家。在每次前向传播过程中,只激活一小部分专家来进行计算。虽然DeepSeek-V3是一个671B参数的大模型,但模型的任何函数调用和传递只使用约37B参数,使其训练成本大为降低。

在算法层面,DeepSeek还有一个降低成本的重大创新,即低秩注意力机制(也称为多头潜在注意力机制)。这一发明对巨大的注意力机制矩阵进行了压缩,减少参与运算的参数数量,把显存占用降到了其他大模型的5%~13%,极大提升了模型运行效率。

DeepSeek更重要的创新是在推理层面。OpenAI发布的o1推理模型是闭源的,其他的企业都搞不清楚OpenAI是如何基于预训练模型构建推理模型的。通过开源方式,DeepSeek把实现低成本推理的奥秘告诉全世界,为发展推理模型开辟了一条新路。DeepSeek揭示了一个事实,即推理模型的开发比想象中更为简单,各行各业都可以做。

传统的强化学习需要大量标注数据,成本很高。DeepSeek另辟蹊径,采用全自动的强化学习取代监督微调和基于人类反馈的强化学习(RLHF),用机器直接推测的方式来预测分数,显著提高了强化学习的效率。

与DeepMind和OpenAI一样,DeepSeek的贡献主要还是工程创新和优化,在人工智能的基础理论上并没有重大突破。但这些创新大大降低了推理成本,打破了对高算力的迷信,对人工智能产业的发展有重大意义。

DeepSeek的科技震撼波及全球

中国基金报:2月3日,中国医学科学院学部委员、生物学家饶毅发表了题为《鸦片战争以来,中国对人类最大的科技震撼:DeepSeek》的文章,认为“1840年至今的185年来,在科学和技术相关的方面,中国出现的对人类最大的震撼是DeepSeek”。饶毅教授对DeepSeek的评价是否过于夸张?

李国杰:饶毅教授称“DeepSeek是鸦片战争以来中国对全世界最大的科技震撼”,我认为,这一评价有一定的道理,并非夸张。中国在航天、高铁等领域都取得过震惊世界的科技成就,大疆无人机、宇树机器人在全球的市场占有率高达60%以上,但这些成就并没有引起全球性的科技震撼。

DeepSeek掀起这么大的冲击波,是美国政府和一些龙头企业妄图以人工智能独霸全球梦想破灭造成的。特朗普上台第二天就签署法案,启动星际之门计划,要投资5000亿美元,打造人工智能的基础设施。可见,美国政府把人工智能当成美国称霸世界的头等大事。

DeepSeek带来的最大“震撼”,是从中国杭州杀出一匹黑马,闯出一条发展人工智能的新路,中国从“追赶者”变为“规则改写者”,第一次在核心技术领域以颠覆性创新而非规模优势挑战西方霸权。

DeepSeek在模型算法和工程优化方面所进行的系统级创新,为在受限资源下探索通用人工智能开辟了新的道路。传统大模型遵循的是一条“由通到专”的人工智能发展思路,与之相反,DeepSeek追求的是“由专到通”的人工智能发展路径,通过引领人工智能技术生态的形成,迈向全社会分享的通用人工智能之路。

虽然以OpenAI为代表的生成式人工智能红红火火,但多数企业不敢将自己的数据交给私有AI平台生成自己的垂直模型,因为害怕提交的数据会泄露自己的技术机密。人工智能之所以在各个行业难以落地,这可能是一个根本性的原因。

DeepSeek的出现化解了这一难题。欧洲、印度等国人工智能的发展一直落后于美国和中国,现在可以将DeepSeek提供的小而精的模型下载到本地,即使断网也可以“蒸馏”出高效率的垂直模型,这让他们看到了希望。也就是说,DeepSeek的科技震撼,不仅仅是对美国,也是对全球的震撼。

人工智能不同于资本密集型和经验积累型的集成电路产业,不仅要“烧钱”,更要“烧脑”,本质上是比拼人的智力的新兴产业。因此,人工智能产业具有明显的不对称性,一个具有100多个聪明头脑的小企业就可以挑战市值上万亿美元的龙头企业。

DeepSeek给全球的震撼具有颠覆性,但DeepSeek只是中国具有潜力的人工智能企业之一。

近日,《麻省理工科技评论》刊发了一篇题为《关注DeepSeek之外的四家中国人工智能初创公司》的报道,指出阶跃星辰(Stepfun)、面壁智能(Model Best)、智谱AI、无问芯穹(Infinigence AI)四家企业同样展现出不逊于DeepSeek的技术实力与全球竞争力。

中国人工智能企业的崛起,正在重构全球AI供应链版图;开源模型将基础模型层转化为普惠资源,正在为应用开发者开启创新之门;算法革命正在大幅度降低训练成本,打破了单一依赖算力堆砌的迷信。

DeepSeek的成功,似乎预示着“小力也可出奇迹”

中国基金报:DeepSeek的巨大影响是否预示规模法则(Scaling Law)已经走到尽头?“大力出奇迹”的技术路线是否还能延续?算力究竟在人工智能的发展中起什么作用?

李国杰:2020年1月,OpenAI发表论文《神经语言模型的规模法则》(Scaling Laws for Neural Language Models),提出规模法则:“通过增加模型规模、数据量和计算资源,可以显著提升模型性能。”

在AI领域,规模法则被认为是“公理”,俗称“大力出奇迹”,OpenAI等龙头企业和美国的AI投资界把它当成制胜法宝。

但是,规模法则不是像牛顿定律一样经过无数次验证的科学定律,而是OpenAI等公司近几年研制大模型的经验归纳。从科学研究的角度看,属于一种对技术发展趋势的猜想;从投资的角度看,属于对某种技术路线的押注。人工智能是对未来技术的探索,技术路线存在多种可能。人工智能本身也存在多元化的目标,探索的道路上有很多高山需要去攀登,攀登一座高山的路径也不止一条。把一种信仰或猜想当成科学公理,不是科学的态度。

鼓吹规模法则的人,常常以强化学习之父理查德·萨顿(Richard S. Sutton)的文章“苦涩的教训”作为追求高算力的依据:“研究人员曾一次又一次试图通过精巧的工程设计来提升性能,但最终都败给了简单粗暴的‘加大算力’方案,历史证明,通用方法总是在AI领域胜出。”

但是,萨顿本人这两年对规模法则做了深刻的反思。他指出,虽然规模法则在提升模型性能方面确实有效,但它并不是解决所有问题的万能钥匙。AI系统不仅需要具备强大的计算能力,还需要具备持续学习、适应环境、理解复杂情境等能力,这些能力往往难以通过简单地增加算力来实现。

但现在就说规模法则已经走到尽头,也没有根据。与人脑的神经连接复杂性相比,现在的人工神经网络至少还有上百倍的差距。继续扩大神经网络的规模和增加训练的数据量,是否能取得与投入相称的回报,还要看今后的实际效果。

但GPT-5迟迟不能问世,可能说明规模扩张的效果已经不太明显。图灵奖得主杨立昆(Yann LeCun)和OpenAI前首席科学家伊利亚·苏茨克维(Ilya Sutskever)等人直言,规模法则已触及天花板。

DeepSeek的出现,逼迫AI界严肃地思考这一技术发展路线问题:是继续烧钱豪赌,还是另辟蹊径,在算法优化上下更多功夫?

DeepSeek的成功似乎预示着“小力也可出奇迹”,或者说“算法和模型架构优化也可以出奇迹”。随着时间的推移,AI扩展方法也在发生变化:最初是模型规模,后来是数据集大小和数据质量,现在是推理时间和合成数据。

DeepSeek推出的V3是预训练模型,R1是推理模型,对全球冲击比较大的主要是R1模型,某种意义上是把人工智能的关注重点转移到推理计算上。所谓规模法则也可以表现为在探索推理时间的扩展行为,即模型在推理阶段(而非训练阶段)通过增加计算资源来提升性能。

DeepSeek的成功并没有否定算力在人工智能发展中的关键作用。实际上,由于用于推理的设备比训练设备多得多,所以推理所需要的算力将来会成为主要需求。通过算法优化提高模型的效率十分重要,走节省算力的绿色发展之路是我们的基本选择,但算力肯定是解决人工智能问题的必要条件,也不可忽视。

DeepSeek将对美国AI巨头,产生中长期冲击

中国基金报:为什么DeepSeek对英伟达的股价会产生这么大的冲击?这种冲击是短期还是中长期的,背后的深层逻辑是什么?

李国杰:第三波人工智能浪潮兴起以来,美国政府和投资界形成的基本信念是:发展人工智能需要高算力,而目前实现人工智能计算性能最高的芯片就是英伟达的GPU。因此,只要控制GPU,美国就能在人工智能领域独霸全球。

DeepSeek的崛起动摇了硅谷与华尔街的基本信念。由于市场对高端GPU芯片需求下降的担忧,英伟达股价单日暴跌17%,市值缩水约6000亿美元,创下美国上市公司单日最大损失纪录。

这种冲击堪比1957年苏联卫星上天的“斯普特尼克时刻”,迫使美国重新审视其技术霸权的基础。

但DeepSeek是否会真正降低对算力的需求,现在还不能下结论。

1865年,经济学家杰文斯提出了一个关于技术进步的悖论:“当技术进步提高了效率,资源消耗不仅没有减少,反而激增。”福特的流水线让汽车制造更快、更便宜,但最终带来的却是全球石油消耗的暴涨。有时,单个产品越便宜,反而会刺激整体采购量增加。人类对智能产品的需求肯定会持续增加,即便单个产品算力成本下降,整个社会的算力消耗可能还会增加。

DeepSeek对“高投入、高算力”的研发路径会产生一定冲击,有些正在部署的智能计算中心犹豫观望,部分AI上游算力市场可能会受到一定负面影响,美股科技巨头的超额估值可能会下调。

但另一方面,DeepSeek模型的低成本优势有利于AI下游应用场景的快速落地,有助于加速相关产业的智能化进程,为机器人、自动驾驶汽车、智慧城市、智能办公、消费电子等下游板块带来利好。

DeepSeek将AI的应用引向C端市场,更多企业和普通用户都会成为AI的消费者,计算资源的需求也会随之水涨船高。

DeepSeek对美国AI巨头的冲击不是短期的,随着博弈的进一步发展,一定会对其产生中长期的影响。因为AI应用对高端GPU需求降低,让更多的芯片和整机企业参与竞争,人工智能新增的市场最后花落谁家,现在还很难断定。中国企业更有希望在AI市场上占有一席之地。DeepSeek明显提振了国内企业自立自强的信心,民族自信心的增强将为A股市场注入新的活力。

DeepSeek的崛起说明,AI不再是简单堆砌算力的暴力游戏

中国基金报:对于DeepSeek的横空出世,有人认为是国运级别的创新,也有人认为不过是一场新的闹剧,将昙花一现。对此,你怎么看?DeepSeek在何种程度上影响了全球人工智能的发展,其代表的AI大模型是否将成为市场主流?如果不是的话,何种类型的AI大模型将成为市场主流?

李国杰:DeepSeek崛起的背后是中美两国的科技博弈,绝不是一场昙花一现的闹剧。但将一家小公司提上政治高度,推到大国博弈的前线,背上“国运级别创新”的沉重十字架,对初创公司的发展没有好处。

DeepSeek对全球人工智能发展有里程碑式的意义,其主要的价值是打破了“高算力和高投入是发展人工智能唯一途径”和“集成电路制程优势=人工智能技术霸权”的迷信,增强了人工智能业界走开源道路的信心。用开源将AI入场券“平民化”,促进AI在各个国家、众多行业的应用和创新。

DeepSeek不仅是技术突破者,更是规则重构者,对中国实现科技突围具有重要的启示作用。DeepSeek的崛起说明,AI不再是简单堆砌算力的暴力游戏,而是进入了以算法和模型架构优化为主,同时高度重视数据质量与规模、理性提高算力的新时期。

由于美国政府的封锁,目前我国无法获取最先进的芯片制程工艺,可能会落后国外两代以上。DeepSeek给我们的启示是,我们需要在有限算力条件下,通过算法和软件的协同创新,充分发挥硬件的极致性能,挖掘所有可能的优化空间。DeepSeek R1发布以后,华为、海光、龙芯等芯片设计公司迅速和DeepSeek R1绑定,推出在各个行业实用的推理平台,DeepSeek也接入了国家超算互联网。我国的算力资源巨大,国内的人工智能模型与美国的水平十分接近,几乎并驾齐驱,只要做好算力资源与人工智能平台的优化适配,我国的人工智能科研和应用一定会走在世界前列。

DeepSeek是一家成立不到两年的小公司,全球人工智能的赛道上有很多公司在你追我赶。一家公司一时的技术领先,并不是“护城河”,关键是看发展的速度快不快。

总体来看,人工智能还处在发展初期,现在就断定哪一种人工智能大模型是市场主流,还为时过早。只要我国有一批创新企业像DeepSeek那样,坚持做引领性的科研而不是跟随,中国对形成人工智能的主流模型一定会做出与国力相称的贡献。

AI界“晶体管”式的重大发明,目前还没有看到苗头

中国基金报:2023年4月,你在接受我们专访时曾表示,中国要走低成本的人工智能发展之路,人工智能界需要“晶体管”式的重大发明,才能使大模型走上良性发展之路。那么,DeepSeek是否已经探索出了一条低成本的人工智能发展之路?人工智能界的“晶体管”式的重大发明是否已经可以看到希望的曙光?

李国杰:低成本是技术普及的基本要求,蒸汽机、电力和计算机的普及都是其成本降低到大众可以接受时才做到的,人工智能肯定也会走这条路。

目前,人工智能产业的成本还很高,主要表现在算力资源、数据获取与处理、算法研发的人才门槛和人工智能系统部署维护的复杂性等。为了降低人工智能的成本,企业界和科技界已经做了大量的努力,包括优化算力体系、高效模型架构、建设开源生态等。这几年,人工智能成本已经有了数量级的下降,但人工智能要做到大规模普及,还需要更大幅度降低成本。

近日,华裔科学家李飞飞团队的研究人员,以阿里通义千问(Qwen)模型为基础,通过蒸馏谷歌的AI推理模型Gemini 2.0 Flash Thinking Experimental,并结合监督微调(SFT)技术,使用16个英伟达H100 GPU进行了26分钟的训练,以不到50美元的云计算费用成功训练出s1模型,其性能超过了Open AI的o1-preview模型。这种创新的训练方法以令人吃惊的低成本,做到了与高端模型相媲美的性能,显示出人工智能的低成本化还有巨大的提升空间,为人工智能领域带来新的发展思路。

我们在为推理模型的低成本化欢欣鼓舞时,应注意到一个事实,那就是目前推理模型的低成本是以预训练模型(基础模型)的高成本为前提。我们真正追求的不是人工智能某些步骤的低成本,而是整体的低成本,但要实现这个目标还要走很长的路。

电子计算机刚问世的时候采用真空电子管,难以实现低成本。1947年发明了晶体管,1958年发明了集成电路。在摩尔定律的推动下,集成电路的集成度飞速提高。现在最高性能的GPU包含2080亿个晶体管,相当于1美元可以买到500多万个晶体管,单个晶体管的成本已下降了上千万倍。晶体管成本的急速下降为人类的信息化做出了不可磨灭的贡献。

所以,我曾经说过,人工智能界需要“晶体管”式的重大发明,才能使大模型走上良性发展之路。DeepSeek为探索低成本的人工智能发展之路做出了重要贡献,但人工智能界的“晶体管”式的重大发明目前还没有看到苗头。伟大的发现从来不出自计划,说不定哪一天会突然冒出来。我相信,只要坚持做原创性的基础研究,人工智能界类似晶体管的重大发明一定会出现。

在推理模型等方向上,中美已处于并跑状态

中国基金报:有人认为,DeepSeek之所以受关注,更多是开源和闭源路线之争。对此,你怎么看?此外,怎么看目前全球AI大模型发展的竞争格局?中国是在继续跟跑,还是已经到了“并跑”状态?

李国杰:DeepSeek推出的V3和R1模型,虽然有重大的技术突破,但还是基于Transformer结构的改进,核心技术上并没有和国外拉开距离。过去这几年,开源大模型的性能始终与龙头企业的闭源大模型有一代以上的差距,这一次DeepSeek的性能追上了闭源模型,大大增强了开源社区的信心,这是了不起的成就。

图灵奖得主杨立昆认为“对DeepSeek崛起的正确解读,应是开源模型正在超越闭源模型”。这一评价十分中肯,因为改变AI发展模式比单项技术的突破更重要。

长期以来,美国的AI龙头公司夸大开源AI的安全风险,力图通过监管抑制开源AI。事实上,开源模型对于全球AI供应链至关重要,发展中国家尤其需要开源AI技术。若美国继续在这一领域设置障碍,中国就有望在开源AI全球供应链中占据核心地位,从而使更多企业转向中国企业而非美国企业的技术方案。

DeepSeek发布以后,OpenAI的CEO Altman承认,OpenAI过去在开源方面一直站在“历史错误的一边”。他表示:“需要想出一个不同的开源策略。”2025年1月31日,OpenAI宣布,免费向用户开放推理模型o3-Mini,但其核心技术还是封闭的,仍然强调开源“不是我们当前的最高优先事项”。这表明,OpenAI短期内不会在开源方面有实质性的转变。

真正的AI竞争,不仅仅是技术和模型的竞争,更是生态系统、商业模式,以及价值观的竞争。开源模型让AI民主化,每个开发者都能轻松调用强大AI工具,不再受大公司的约束,AI的进化速度将会明显提升。DeepSeek的开源战略将向历史证明:在这场AI竞赛中,谁拥抱开源,谁就能赢得未来。

OpenAI刚发布ChatGPT的时候,虽然中国马上掀起“百模大战”,但大模型的实际水平存在代际差距。经过这几年的市场竞争和优胜劣汰,中美的差距明显缩小。我国有好几家优秀的人工智能公司冒了出来,大模型的性能与国外先进水平差不多,都属于世界第一梯队。

因此,就整个人工智能领域而言,在有些研究方向上中国还在跟跑,但在推理模型等许多方向上,中国和美国已经处于你追我赶的并跑状态。人工智能是探索未知领域的研究,并没有确定的研究方向。进入并跑状态以后,就不要过于在意与美国相差几个月,可以你做你的、我做我的,比谁能发现正确的研究方向。中国的人工智能人才总量比美国多,现在发表的论文数、引用数和授权专利数都远远超过美国。但是顶尖的AI人才还是美国多,我们在人工智能的研究实力上与美国还有一些差距。总的来讲,要打赢这一场事关国运的科技战,还要做长期的艰苦努力,但年轻一代正在成为科研的主力,我们要有信心在人工智能的研究和应用上走在美国前面。

科技发展的新型举国体制,需要考虑军民领域的区别

中国基金报:DeepSeek的崛起对业界有何启发?为什么DeepSeek没有在上海或国内人工智能发展的高地北京诞生?

李国杰:最近几年,不论是国防战线还是民用领域,中国的科技突破出现类似喷泉的态势,轰动全球的科研成果不断冒出来。这些成果的出现不是偶然的,而是中国的科技和经济发展经过多年积累必然要走上的一个新台阶。载人航天工程、第六代战斗机、052D型导弹驱逐舰等与国防有关的重大成果,与DeepSeek、宇树机器人等创新型人工智能产品的出现,似乎有着不同的发展途径,建立科技发展的新型举国体制需要考虑两者的区别。

在市场化程度高、技术迭代快的领域(如AI、生物科技等),通过市场竞争赢者胜出的机制可能比集中规划的建制化研究更有效。未来的科技政策既要支持国家队在战略安全领域冲锋陷阵,同时要大力支持民间力量在充分竞争中自下而上地突破技术封锁。人工智能领域的探索性很强,目前这一领域在全球起引领作用的不是美国和西欧的国家实验室,而是DeepMind和OpenAI这样的创新型企业。在中国,DeepSeek这一类创业公司也起到了引领作用。

DeepSeek的成功与其创始人梁文峰的人才管理路线有很大关系。梁文峰选择了一条与众不同的用人策略。他们拒绝经验丰富的人才,而选择初出茅庐的年轻人。

DeepSeek有一条不成文的用人规则:招聘时工作经验超过8年者,直接拒聘;超过5年,需要特别出色才能入选。DeepSeek团队成员几乎全是国内顶尖高校的应届毕业生或博士实习生。

DeepSeek相信,真正的创新往往来自那些没有包袱的人,有极致热情的人,而不是习惯用经验找答案的人。这种用人理念为公司带来了令人惊喜的创新动力。“90后”和“00后”的中国年轻人是在相对充裕的物质条件下成长起来的,他们更多是为了兴趣和热爱而努力,已经开始平视美西方国家,具有“敢为天下先”的勇气和自信。他们是中国科技自立自强的希望。

作为DeepSeek的诞生地,杭州市政府出台了一系列鼓励创新创业的政策。同时,杭州拥有完善的产业链配套和丰富的人才资源,为其发展提供了良好的创业环境。DeepSeek出名以后,民间流传起关于“杭州六小龙”的故事,深度求索、宇树科技、游戏科学、云深处、群核科技、强脑科技六家初创公司有一些共同的特点:都由年轻科技人才创办,都属于人工智能领域,都属于民营小微企业。这些具有世界影响的公司都出自杭州,肯定不是偶然的,希望杭州的经验能在其他城市大力推广。

但是,我国在人工智能领域被全世界关注的公司不仅仅出自杭州。上面提到的阶跃星辰、面壁智能、智谱AI都是在北京注册的公司,无问芯穹来自上海。当这些公司和以后可能冒出来的AI公司都成为世界级的大公司时,中国无疑将成为人工智能的世界强国。