独家深度:从DeepSeek看“中国大模型那些事儿”
7 小时前 / 阅读约12分钟
来源:36kr
正确的理解应该是“开源模型正在超越闭源专有模型”

自1956年约翰·麦卡锡在达特茅斯会议上首提“人工智能”概念以来,AI领域已历经半个多世纪的风雨。期间多数技术、架构的发展均未引起全社会的广泛关注,直至2022年末,OpenAI推出ChatGPT引爆全球大模型热潮,随之,我国的AI大模型训练也迎来井喷。

时间来到2025年,在过去两年多的时间里,尽管面临美国多方面的“卡脖子”限制,但我国AI产业依然紧随其后,稳健前行。北京时间2025年1月27日,来自中国的大模型应用DeepSeek在苹果App Store美国区免费应用下载榜超越ChatGPT冲上第一。

DeepSeek美服登顶立即引起全球科技界乃至全社会的高度关注和好奇,狂欢就此开始……

DeepSeek的故事已无需赘述,借用图灵奖得主杨立昆的话:“当人们看到DeepSeek的出色表现就认为‘中国在AI领域超越了美国’时,这其实是一种误读。正确的理解应该是‘开源模型正在超越闭源专有模型。’”

我们不去探讨“中国在AI领域超越了美国”这个结论是不是幻觉,按照国人的谦虚内敛,先三省吾身,自我内剖一下,中国的AI大模型产业发展到底怎么样?

01 乘政策东风,2024年中标项目增长5倍

从全球的视角来看,业界普遍将2023年作为人工智能发展的分水岭。

从1956年约翰·麦卡锡首次提出“人工智能”概念,到1998年杨立昆(Yann LeCun,2018年图灵奖得主)提出LeNet-5(现代卷积神经网络的起源之一),再到2017年Google提出基于自注意力机制的Transformer架构,为大模型的预训练算法架构奠定了基础……

2023年之前,关于人工智能的技术探索和创新不胜枚举,2023年AI大模型的火爆便是无数技术探索与沉淀后的大爆发,而OpenAI发布ChatGPT便是点燃了爆发的导火索。

视角切回国内,2023年同样是中国 “AI时代开启元年”。在2023年以前,中国的科技树上是什么时候点亮人工智能的?可能要追溯到863计划,或者是2004年姚期智入职清华大学高等研究中心后“姚班”的诞生,又或者是2017年国务院印发《新一代人工智能发展规划》。这个问题可能没有标准答案,但不积跬步无以至千里,中国人工智能的发展同样是厚积薄发,只是在2023年以前,因为没有太大的社会关注度而容易被忽略。

时间来到2023年,从中央到地方,出台的各类指导文件、布局规划、支持政策、管理措施等极为密集,强力驱动中国AI产业发展。

2月,《数字中国建设整体布局规划》为AI技术的广泛应用提供了顶层设计支持;

7月,《生成式人工智能服务管理暂行办法》是全球首个针对生成式AI的专门法规,标志着中国在AI治理领域的领先尝试;

9月,《科技伦理审查办法(试行)》为AI技术的伦理治理提供了制度保障,推动负责任的技术创新;

10月,《算力基础设施高质量发展行动计划》为AI产业发展提供了强有力的基础设施支撑,将进一步加速AI技术创新、降低研发成本、推动应用落地,并提升中国AI产业的国际竞争力。

更多政策不再一一列举,总结2023的相关政策可以发现,已经涵盖了技术研发、产业应用、数据管理、伦理治理、数据安全、保障措施等多个方面,不仅指明了中国AI的发展方向,也为中国AI产业发展提供了坚实的政策支撑。

借政策东风,中国掀起的“百模大战”盛况空前。根据国家网信办的数据,截至到2024年11月,DeepSeek未火爆出圈之前,我国已有3批次共计309个大模型通过国家互联网信息办公室备案,几乎全面涵盖了各类大模型和应用行业。

进入2024年,这种近乎“油门到底”的猛冲仍在持续。通过2023年大模型训练的“百模大战”,中国大模型开始在垂类行业众多场景不断落地。同时大模型的价格也在不断降低,为广泛商用打下基础。根据第一新声智库不完全统计,2024年公开的大模型中标项目超过1000个,接近2023年的5倍,中标金额是2023年的4倍多。中国AI大模型产业发展正在加速驶入商用落地阶段。

来源:第一新声智库《2024年中国AI大模型产业发展与应用研究报告》

02 能力、性价比攀升,需求侧驱动凸显,多数央国企年投入超2亿

AI大模型的商业化落地需要具备两个基础条件:足够强的大模型能力以及足够低的价格。

从能力上来看,对于大模型能力的评估涉及到参数规模、训练资源需求、推理能力、推理资源需求、泛化能力、准确性、稳定性等等。

当前中国AI大模型的能力已经基本达到了广泛商用的要求,并且仍在不断进化当中。而进化路线主要有两条:一是通过增加模型参数量、扩大数据集、提升训练计算量来获得性能更强大的大模型产品;二是通过优化模型架构适应性和计算效率,获得更具性价比的产品,如70B参数的模型,通过优化架构和训练策略,可获得接近或超越更大规模模型的性能。

简单一点来理解,第一种是美国科技巨头推行的“算力堆砌”模式,或者叫“大力出奇迹”。而第二种就是DeepSeek的破圈秘诀,通过数据策略、优化架构、工程创新,达成有限资源的极致利用,可以将其理解为“四两拨千斤”。不仅绕过了美国算力封锁,而且极大降低了大模型训练成本,从而降低了客户的使用门槛。

而价格方面,中国大模型价格下降趋势仍在继续。截止到2024年底,我国典型AI大模型的输入价格下降至0.5元/百万Tokens以内。再到DeepSeek的横空出世,一度将百万Tokens的输入价格拉进“一毛时代”。

DeepSeek优惠期间价格表

经过2023到2024两年的大量实践摸索,最终用户开始逐步感受到大模型带来的红利和优势,在我国当前的数字化转型浪潮之中,市场需求侧的驱动开始日益凸显。

目前AI大模型商业模式主要有:定制化、API及订阅模式、广告与内容变现。而从这三类商业模式的维度进行观察,大模型市场需求正在不断攀升。其中,广告模式在2024年的整体市场占比小于5%,因此本文不做重点关注,主要关注定制化、API及订阅这两类模式。

首先是面向大型政企的定制化模式,2024年市场占比约为55%。尤其是央国企客户,背负着“引领示范打标杆”的重任,在2024年国资委提出要开展“AI+专项行动”以来,据招投标及相关公开信息,已有多数央企每年在大模型领域的投入超过了2亿元。

其次是适用于中小企业及机构的API及订阅模式,2024年市场占比为40%-45%。中小企业客户倾向于采购MaaS和SaaS模式赋能业务,虽然单一中小企业需求有限,但数量众多,覆盖各行各业。以腾讯云为例,其MaaS服务用户已超千家。

此外,讲到商业模式还不得不提到大模型的开闭源之争。虽然现在谈开源与闭源孰优孰劣为时尚早,但DeepSeek的出现无疑为开源一方增添了重量砝码。值得注意的是,开源并不意味着免费,开源的商业化变现有付费支持、附加服务、定制开发、培训认证等多种方式。

虽然,大模型开源在前期商业化方面存在一定难度,但在生态逐步完善以及积累海量用户之后,市场空间值得期待。公开信息显示,截至2025年2月,国内已有大量企业宣布接入DeepSeek大模型‌。这些企业包括三大运营商,比亚迪、吉利、极氪、东风、奇瑞等众多车企,360数字安全集团、安恒信息、奇安信、亚信安全、安胜等安全企业,且数量仍在迅速增长中……

03 全产业共促,市场规模狂飙171%

实践是检验真理的唯一标准,AI大模型性能再突出不能落地应用也终将成为摆件。黑猫白猫抓到老鼠才是好猫,中国AI大模型产业中,有着众多好猫。这些好猫不只是DeepSeek这样的大模型企业,还包括从基础设施到数据,从工具到各类型应用厂商等全产业链上的所有企业及机构。

可以看到,正是国家政府组织的科研机构、清华这样的高校、华为这样的中国科技巨头、DeepSeek这样的初创企业、中国成千上万的中小企业共同组成了中国AI领域的中坚力量。

来源:第一新声智库《2024年中国AI大模型产业发展与应用研究报告》

中国AI全产业除了“集中力量办大事”以外,还要有很多“大事”可以办。AI在中国能办的“大事”实在太多,因为中国拥有庞大的市场需求和极为丰富的应用场景,为AI大模型的应用提供了广阔的发挥空间。

来源:第一新声智库《2024年中国AI大模型产业发展与应用研究报告》

据第一新声智库研究,2024年中国AI大模型应用市场规模已经达到157亿元,同比增速达到171%,预计2027年将冲破千亿大关,达到1130亿元。

这还只是基于AI大模型应用市场分析统计及预测的结果,仅包括企业用户购买大模型产品、大模型服务、大模型应用服务和软硬一体化大模型应用平台形成的市场总量。如果从AI大模型的深度布局,延伸至行业上下游的广泛渗透,直至辐射并重塑整个产业生态,未来这一领域的产业规模无疑将展现出极为可观的增长潜力与发展空间。

来源:第一新声智库《2024年中国AI大模型产业发展与应用研究报告》

04 成果振奋人心,未来道阻且长

我国当前在AI大模型领域取得的成果确实足够振奋人心,DeepSeek的成绩也有目共睹。但这些在整个中美科技博弈乃至中国科技强国的长远征途中,我们只是迈出了一小步。

在肯定成果的同时更是要保持冷静客观,认清差距。

文章的结尾,抛给DeepSeek一个问题:“中国AI大模型产业面临哪些挑战?”

DeepSeek给出了以下回答:

1. 技术瓶颈

算力限制:大模型训练需要大量计算资源,如高性能GPU和TPU,但这些硬件主要依赖进口,国内自主研发的高端芯片与国际领先水平仍有差距。

算法创新不足:尽管中国在应用层面表现突出,但在基础算法和理论研究上仍落后于美国等国家,原创性突破较少。

数据质量与隐私问题:高质量数据是大模型训练的关键,但数据标注成本高,且数据隐私和安全问题限制了数据的获取与使用。

2. 人才短缺

高端人才匮乏:AI领域,尤其是大模型研发,需要顶尖科学家和工程师,但国内高端人才数量不足,且面临国际竞争。

人才培养体系不完善:高校AI教育与实践脱节,难以满足产业对复合型人才的需求。

3. 商业化与落地难题

应用场景有限:大模型在部分领域已取得进展,但在医疗、金融等行业的落地仍面临技术和监管障碍。

成本高企:大模型训练和部署成本高昂,中小企业难以承担,限制了其广泛应用。

商业模式不成熟:如何将大模型技术转化为可持续的商业模式仍在探索中。

4. 国际竞争与地缘政治

技术封锁:美国等国家对高端芯片和技术的出口限制,影响中国大模型产业的发展。

国际竞争加剧:全球AI竞争激烈,中国需在技术、应用和生态建设上加快步伐以保持竞争力。

5. 政策与监管

政策支持与监管平衡:虽然政府大力支持AI发展,但数据隐私、算法公平等监管问题仍需完善,如何在创新与监管间找到平衡是关键。

标准化不足:大模型产业缺乏统一标准,导致技术互通和协作困难,影响生态建设。

6. 生态建设

产业链不完善:大模型发展依赖芯片、框架、应用等环节的协同,但国内产业链尚未完全成熟,生态建设滞后。

开源社区影响力不足:尽管国内开源社区在成长,但国际影响力仍较弱,难以吸引全球开发者。

7. 能源与环境问题

能耗高:大模型训练消耗大量能源,与“双碳”目标存在冲突,如何在发展AI的同时实现绿色计算是重要挑战。

总体而言,当前中国AI大模型产业在技术、人才、商业化、国际竞争、政策、生态和能源等方面仍面临多重挑战。解决这些问题需要政府、企业和学术界的共同努力,推动技术创新、人才培养和政策优化,以实现可持续发展。