DeepSeek爆火背后:2025年AI大模型的潮水会流向哪?
8 小时前 / 阅读约15分钟
来源:36kr
产业AI大爆发时代真的来了吗?

从当下来看,DeepSeek的出现打破了固有的算力、模型中的部分环节掣肘,但仍有很多问题尚待解决,比如模型的定向蒸馏,比如数据体系的构建,再比如生态体系中各方利益的交叉配合等等,这早已经不仅是一道技术命题,而更是一个行业向上的产业命题。 

不过,能肯定的是,2025 年中国 AI 大模型的产业潮水必然汹涌澎湃,势不可挡。

DeepSeek 的出现,仿佛逐渐为 AI 的落地应用勾勒出了一个确定性的未来蓝图。

在过去的几年间,AI 大模型的入场门槛早已被清晰标定 —— 上万亿的参数规模、超强的算力支撑以及海量且优质的的数据资源,这些都意味着高昂的 “入场价格”。

2025 年春节期间,DeepSeek 如一匹黑马,强势打破了中外 AI 大模型竞技场原有的规则。

这家原出身量化机构的团队将大模型的参数大幅削减至原来的 1/10,借助强化学习与模型蒸馏技术,使得一个小模型在数学题解答方面力压 GPT - 4o。不仅如此,DeepSeek 还开源代码、开放 API,以超低的价格展现出肩比 OpenAI 的强大能力,这让国内外网友纷纷惊叹于这 “神秘的东方力量”。

从某种层面来说,这些在水面之上的表现固然令AI行业为之震撼,但几个更应该被延长时间线思考的问题恰还是盘绕在2024年AI行业上空的几个核心命题:即产业大模型距离我们有多远?在数据、算力、模型的三层节点上,在去年几乎达成共识的AI应用上,DeepSeek 这个“现象级事件”到底会带来什么影响?

2025年,产业数智化的大幕已然悄悄拉开。

一、技术范式变了,模型迈进“价低物优”时刻

在传统 AI 大模型的落地过程中,存在着诸多限制其广泛应用的难题。其中,“看不到希望的烧钱”,位列第一。

以 GPT - 4 为例,其训练数据量高达 13 万亿 token,涵盖了互联网全领域的文本。如此海量的数据标注工作不仅成本高昂,而且耗时费力。同时,其对算力的需求也极为庞大,依赖数万张 A100 GPU 集群,单次训练成本超过 1 亿美元。这种高昂的成本和资源需求,使其技术很难落地。

DeepSeek的倍受推崇之处也恰在此,即其可以通过纯强化学习(RL)实现 “自我进化”,使其在数据准备方面具有显著优势。

换言之,它无需标注数据,这大大降低了数据准备的成本和难度,为开发者节省了大量的时间和精力,让他们能够更加专注于模型的训练和优化。

同时,DeepSeek 的奖励设计极简,仅用 “答案正确性” 和 “格式规范” 作为奖励信号。这种简洁的奖励机制避免了复杂奖励模型可能导致的 “作弊” 风险,使得模型训练更加高效、稳定。

这种极简奖励设计,还能够更好地引导模型朝着正确的方向发展,提高模型的训练效果。避免一些意想不到的情况,导致模型训练出现偏差。

此外,DeepSeek 采用 GRPO 算法,用组评分替代传统 Critic 模型,算力消耗降低 30% 以上,进一步降低了对硬件资源的需求,也就是俗称的对“卡”的依赖。

值得注意的是,其模型能力也并未因算力的降低,而大打折扣。

在DeepSeek发表的论文中,一组数据显示DeepSeek-R1 在 AIME 2024 测试中取得了 79.8% 的 Pass@1 得分,略⾼于 OpenAI-o1-1217。在 MATH-500 上,其得分达到了 97.3%,表现与 OpenAI-o1-1217 相当,并显著优于其他模型。

在DeepSeek身上,外界似乎在发现,算力、参数似乎不再是AI的入场门槛,或者更准确来说,是在DeepSeek身上,外界看到了一种更为适配AI落地的低门槛、低成本方式,从成本侧更利好落地。

而从产业侧来看,这种变化的最佳受益者是中大型厂商。过去两年时间里,不论是大型央国企,还是高校,抑或是民生部门等等,都基于大模型的项目面向市场公开招标,其中涉及到的很大一部分恰是预训练项目,这些项目的单价往往超过千万乃至上亿,作为企业的定向投入。

但在DeepSeek之后,能够预测的是,今年的中大型大模型项目的标的将会发生显著变化,对于中大企业乃至央国企而言,其可以以更低的成本进行大模型项目的部署,或者把重点更多的转移到数据治理环节,进一步提高最终的模型效果。

同样受益的还有小型的科技公司,以往其可能因为资金和技术限制,无法涉足 AI 领域。但 DeepSeek 的出现为他们提供了可能,企业可以利用相对较低的成本,基于 DeepSeek 开发出适合自己业务需求的 AI 应用,推动公司业务的发展和创新。

总体来看,随着强化学习(RL)技术范式的变革,不仅 AI 大模型的落地门槛、落地成本将会降低,还为更多的企业和开发者提供了参与 AI 创新的机会。这不仅有助于推动 AI 技术的发展,也为各行业的数智化转型和升级提供了新的动力。

二、开源加速:垂直小模型的时代来了

在DeepSeek公布的论文中,除了RL技术范式的变革,还有另外一个亮点,就是跨维度知识蒸馏体系的构建。

一组数据显示,DeepSeek-R1-Distill-Qwen-7B在AIME 2024评测中以55.5%的得分超越原版QwQ-32B-Preview,参数规模缩减81%的情况下性能提升23%。其32B版本更在MATH-500测试中达到94.3%的惊人准确率,较传统训练方法提升近40个百分点。

其通过将32B大模型的推理逻辑解构为可迁移的认知模式,再经由动态权重分配机制注入到7B小模型中,实现了"思维范式"而非单纯"知识记忆"的传递。

这种技术路径下,小模型不仅继承了大模型的解题能力,更习得了问题拆解、逻辑推演的元能力。这也意味着⼤型模型的推理模式可以蒸馏到⼩型模型中,其性能优于直接在⼩模型上强化训练的结果。

在人工智能领域,"模型越大,性能越强"的认知长期占据主导地位。从GPT-3到GPT-4的进化轨迹,似乎都在印证"参数规模决定模型能力"的定律。

而随着这种"蒸馏+强化学习"的复合训练方式的出现,小模型的时代似乎终于要来了。

要知道,对于许多企业,尤其是中小型企业和垂直领域专业企业,在追求模型性能时,往往受限于大型模型所需的巨额计算资源成本。

DeepSeek 证明⼩模型也能发挥⼤作用后,这些企业可以减少在硬件设备(如⾼性能服务器、GPU 等)采购和租赁上的⽀出,以及降低能源消耗成本。

例如,⼀家专注于医疗影像分析的⼩型企业,原本若要使⽤⼤型模型来处理影像数据,可能需要搭建昂贵的计算集群,现在借助优化后的⼩模型,可以在普通的计算设备上完成任务,⼤幅降低成本。

在这其中,在⼩模型有效性的趋势下,拥有⾏业认知的企业通常对⾃身业务流程和数据特点有深刻理解,他们往往能够更快速地将模型集成到现有业务系统中。

因为⼩模型⼀般具有更简单的架构和更少的参数,开发⼈员可以更便捷地进⾏定制化开发,以适应特定⾏业的需求。⽐如,⼀家⾦融风控企业,基于⾃⾝对⾦融⾏业⻛险评估的know - how,能够迅速将适配的⼩模型嵌⼊到其风控系统中,缩短开发周期,更快地实现模型上线和业务优化。

在竞争激烈的市场中,这种优势,恰恰能使得某些企业在AI领域实现快速超车,成为垂直赛道AI规则的制定者和引领者。

三、效率与场景突破,端侧应用爆发期来了

众所周知,在实际应用中,尤其是在边缘计算和实时决策等场景中,传统 AI 模型往往也面临着诸多限制。

在边缘计算场景中,由于设备资源有限,如手机端、眼镜端等,很难运行大型的 AI 模型,从而限制了 AI 技术在这些领域的应用。

此外,在实时决策场景中,如金融交易和工业生产,传统 AI 模型的推理速度和准确性往往难以满足需求。

DeepSeek 的出现给了一个新的思路。其在模型压缩、推理效率以及训练成本优化方面的突破,为其在多个场景的落地应用提供了有力支持,带来了效率和场景上的巨大突破。

DeepSeek 通过模型压缩技术,使其优化后的模型可以更好地适应资源有限的设备,如智能眼镜等边缘计算设备。这使得边缘计算设备能够具备更强的 AI 能力,为用户提供更加便捷、智能的体验。

例如,在智能眼镜中,DeepSeek 可以实现更快速、更准确的图像识别和语音交互功能,用户可以通过智能眼镜更高效地获取信息、进行导航、识别物体等,大大提升了智能眼镜的实用性和应用场景。

在实时决策场景方面,其的高效推理能力也发挥了重要作用。

以金融交易为例,金融机构需要在极短的时间内对大量的市场数据进行分析和处理,以做出准确的投资决策。其能够快速地对数据进行分析和预测,为金融交易提供实时的决策支持,帮助金融机构提高交易效率和盈利能力。

在工业生产中,实时的质量检测和故障诊断也是至关重要的。还可以快速地对生产过程中的数据进行分析,及时发现质量问题和设备故障,从而提高生产效率和产品质量,降低生产成本。

可以说,在 2025 年,DeepSeek的出现, 或将引起新一轮的终端应用爆发,为各行业的数字化转型和升级提供有力的技术支撑。DeepSeek 在多个场景中的应用突破,不仅展示了其技术优势,也为各行业的数字化转型和升级提供了新的解决方案。

四、生态变革:大厂炼模型、中小厂做应用

DeepSeek带来的还有AI生态上的变革,而这种变革也将为AI落地产业的带来更多可能性。

一个事实是,当前 AI 产业呈现出一种 “金字塔结构”,OpenAI、Google 等巨头把控基础模型,中层企业依赖 API 调用,陷入 “数据空心化”,底层中小开发者缺乏定制能力,沦为生态附庸。

这种结构的致命缺陷是创新停滞,巨头为维持垄断,必然限制模型开放度。

DeepSeek 开源核心模型和开放 API 定制能力,这一举措打破了以往 OpenAI 等巨头主导的 “金字塔式” 生态。

在新的生态模式下,大厂可以专注于炼模型,利用其强大的技术实力和资源优势,不断优化和提升模型的性能和能力。

例如,阿里云、腾讯云等平台可以成为 “模型超市”,提供数百个垂直领域的小模型,满足不同行业和用户的需求。这些大厂可以通过不断研发和创新,推出更加先进的模型架构和算法,推动 AI 技术的发展和进步。

而中小厂则可以专注于做应用,基于开源模型快速开发专用 AI 工具,无需依赖巨头提供 “黑箱” 能力。这为中小厂提供了更多的发展空间和机会,使它们能够充分发挥自身的灵活性和创新能力,开发出更加贴近用户需求和行业特点的 AI 应用。

例如,一些中小厂可以针对工业质检、供应链预测等确定性需求,通过 API 按需微调模型,开发出高效、精准的 AI 应用,为用户提供定制化的解决方案。这种生态变革还带来了技术民主化、生态正循环和场景定制化等多方面的好处。

技术民主化可以使制造业、农业等非科技企业也能够参与到 AI 技术的应用和创新中,促进各行业的数字化转型和升级。生态正循环则可以通过开发者贡献行业数据优化模型,并从模型收益中分成,形成了 “数据 - 模型 - 应用” 的协同网络,推动 AI 产业的可持续发展。

可以说,DeepSeek 带来的生态变革,不仅为 AI 产业的发展带来了新的机遇,也为各行业的数字化转型和升级提供了新的动力。未来,随着 DeepSeek 技术的不断发展和完善,其在生态变革方面的潜力将进一步释放,为 AI 产业的发展带来更多的可能性。

五、2025,AI 的新走向

2025年,AI落地产业的走向越发清晰。

在 2025 年,AI 的发展将从过去对技术的单纯崇拜,逐步转向更加注重商业务实的落地应用。这一转变体现在技术研发、商业化路径以及生态联盟构建等多个方面。

在技术研发领域,企业逐渐认识到盲目堆砌模型参数并非明智之举。千亿规模的模型并非万能钥匙,而 DeepSeek - R1 的成功案例有力地证明了,百亿级模型通过算法优化同样能够与更大规模的模型相媲美。

因此,未来的研发投资方向将更多地聚焦于强化学习(RL)和模型蒸馏技术。

与单纯扩大数据量相比,RL 的自我进化能力和蒸馏技术的生态价值在商业应用中展现出更大的潜力。通过这些技术,企业能够在降低成本的同时提升模型性能,并拓展其应用场景,从而走上一条高性价比的AI与业务融合之路。

在商业化路径的选择上,B 端市场成为优先布局的重点。

与各行业的头部企业,如车企、医院、银行等展开合作,共同构建行业专属模型,并采用按效果付费的模式,这不仅能够实现企业与客户的深度绑定,还能促进双方在价值创造上的协同合作。

与此同时,对于中小客户群体,企业也不应忽视其潜在的市场需求。通过提供开源模型和低代码平台,为这些客户提供便捷的 “AI 能力集装箱”,能够有效降低定制化成本,满足长尾市场的多样化需求,进而实现对整个市场的全面覆盖。

构建生态联盟对于企业的发展同样至关重要。

一方面,开源核心框架,例如 DeepSeek 开放 RL 训练工具链,能够吸引开发者积极参与生态建设,汇聚各方的智慧和资源,形成强大的技术合力。

另一方面,跨界联盟的建立也必不可少。联合芯片厂商(如华为)、云服务商(如阿里云)以及垂直领域的专业企业,形成 “算力 - 模型 - 场景” 的铁三角合作模式,能够促进产业链上下游的协同创新,打造一个合作共赢的产业生态环境。

从当前的行业形势来看,尽管中国 AI 大模型在通用能力上暂时难以全面超越 OpenAI,但通过在垂直场景中的深耕细作以及生态的开放合作,完全有机会实现差异化的突围。

展望 2025 年,中国 AI 产业的发展目标是打造一批 “小而美” 的行业模型。这些模型在特定领域内形成对西方 “大而全” 模型的局部优势,通过在特定行业的深入应用和优化,逐步向通用智能领域渗透和拓展。

这一发展路径不仅能够充分发挥中国在特定领域的产业优势,还能够为全球 AI 产业的发展提供一种具有中国特色的创新模式和解决方案,推动 AI 技术在全球范围内的多元化发展和应用。

写在最后:

DeepSeek 的技术革新与生态开放,使 AI 从 “巨头的游戏” 变为 “全民共创”。随着数字化与 AI 的相互催化,一个 “技术越普及,数据越丰富,模型越智能” 的飞轮已然形成。

但对于产业AI的落地,还应该更为审慎。尽管DeepSeek的出现打破了固有的算力、模型中的部分环节掣肘,但仍有很多问题尚待解决,比如模型的定向蒸馏,比如数据体系的构建,再比如生态体系中各方利益的交叉配合等等,这早已经不仅是一道技术命题,而更是一个行业向上的产业命题。

不过,能肯定的是,2025 年中国 AI 大模型的产业潮水必然汹涌澎湃,势不可挡。