揭秘 DeepSeek 内幕，为什么强化学习是下一个 Scaling Law？ - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

揭秘 DeepSeek 内幕，为什么强化学习是下一个 Scaling Law？

2025-02-27 / 阅读约48分钟

来源：36kr

DeepSeek 之后，程序员将分为三类……

当前，全球大模型技术已形成“闭源垄断”与“开源突围”的双轨竞速形态。以 OpenAI、Google 为代表的头部企业通过技术高墙构建商业壁垒，凭借顶尖模型能力主导市场话语权，但其封闭生态也导致开发者准入门槛高。

时下 DeepSeek 以开源为矛，正在打破这一局面。其先是通过公开代码与技术报告揭示前沿大模型关键技术细节，随后启动“开源周”进一步开源了专门为Hopper 高性能 AI 芯片设计的先进技术 FlashMLA（https://github.com/deepseek-ai/FlashMLA）、用于 MoE 模型训练和推理的 EP 通信库 DeepEP（https://github.com/deepseek-ai/DeepEP）以及 DualPipe、EPLB、profile-data 等，既证明了开源模型性能可媲美顶尖闭源系统，更构建起开发者深度参与的技术飞轮。

作为开发者，从研读 DeepSeek 技术论文，到尝试理解其核心 GRPO 算法，我们正切身感受到其对 AI 产业的深远影响。放眼全局，DeepSeek 究竟刷新了哪些核心技术？它的开源模式如何影响开发者生态？对 AI 未来发展意味着什么？

在 CSDN 特别策划的「DeepSeek 暨 AI 进化论十日谈」系列直播的第八期中，《万有引力》邀请了上海人工智能实验室青年科学家崔淦渠（导师为清华大学副教授刘知远），中国石油大学（北京）副教授、人工智能学院计算机系系主任吕仲琪（导师为加拿大工程院院士杨强），在栏目主理人 CSDN &《新程序员》执行总编唐小引的主持下，以十个关键问题为切口，深入探讨 DeepSeek 如何重塑 AI 技术格局及开发者生态。

一问：DeepSeek 是否属于科研突破？

唐小引：请两位老师分享一下对 DeepSeek 的感受，你觉得 R1 最有意思的地方是哪里，比如 R1 展现的思考过程？

崔淦渠：我研究的方向与 DeepSeek R1 非常接近，算是半个同行。在 DeepSeek R1 发布之前就听闻了他们在训练一个与 OpenAI o1 能力相当的模型。对此，我也非常相信以他们的技术实力能够训练出一款非常出色的模型，这是完全可以预见的。尽管如此，DeepSeek R1 迅速“出圈”的火爆程度还是超出了我们的想象。

当我们首次看到 DeepSeek R1 的技术报告时，最大的感受是——这对整个学术界，尤其是我们所在的领域，将带来一次重大的变革。DeepSeek 彻底公开了所有技术，意味着后续的研究者无需从零开始，很多方法已经明确可循。DeepSeek 的爆红，更多归功于其在语言处理能力上的卓越表现，尤其是在写作方面，这与普通人日常使用体验息息相关。

吕仲琪：我先分享一个间接的感受。前段时间，我母亲在她出去旅行期间给我打了个电话，第一句话就是问我，“你知道 DeepSeek 吗？”要知道她已经退休了，英文还不太好，但她能准确发出 DeepSeek 的英文，而且她对这个事情的敏感程度让我想到以前有人说过，“当老太太进股市炒股的时候，股市就达到了巅峰”，这让我觉得 DeepSeek 已经在不同群体中引起了广泛关注。

作为行业从业者，我对这门技术也非常感兴趣，尤其是它能将研究者和普通用户紧密联系起来。我觉得 DeepSeek 之所以令人惊艳，是因为它从深到浅都展现出了特别的特点：

技术层面，特别是推理能力的展现，让我看到一个机器能自我反思到如此深刻的程度，能够理解何时需要继续反思。这一点，从技术报告中可以看出一些端倪，给了我很大的启发。虽然我没有与 DeepSeek 团队直接交流，但通过技术报告和产品试用，我感受到他们在训练模型时非常执着，特别是在推理和对话的策略设计上，考虑了如何让智能体像人一样学习。

从产品体验角度来看，DeepSeek 将推理过程展现得非常清晰，这种体验设计不仅让专业人士受益，甚至普通用户也能感受到技术背后的迭代过程。

这种易用性和透明性是 DeepSeek 的亮点，也让我感到非常惊艳。

唐小引：不久前，我们能够看到一些大佬关于 DeepSeek 的言论：

马斯克对于 DeepSeek R1 是否是 AI 领域的一次彻底革命这个问题，很明确地说了「不是」，并表示，“xAI 和其他一些公司很快就会发布比 DeepSeek 更好的模型（截至发稿，已发布了 Grok 3）”。

谷歌 DeepMind 首席执行官 Demis Hassabis 评价道，DeepSeek 的 AI 模型可能是“我见过的来自中国最好的作品”。但他认为从技术角度来看，模型并未带来新的科学进展，而是使用了已知的技术，外界对其炒作可能“有点夸张”。

Anthropic（开发 Claude 模型的公司）CEO Dario Amodei 之前发布了篇“万字长文”提及：DeepSeek-V3 并不构成根本性突破或创新，DeepSeek-R1 的研究价值甚至连 V3 都不如。

这其实核心在于 DeepSeek 的技术创新，因为 DeepSeek 运用了多项成熟、已知的技术，当大家都烧钱堆算力时，DeepSeek 却选择了烧脑改算法。比如靠着纯强化学习找到了激发模型推理能力的秘诀，在 Transformer 架构的基础上，使用 MoE（混合专家模型）和 MLA（多头潜在注意力）。二位老师觉得 DeepSeek R1 是科研突破吗？DeepSeek 最有价值的点是什么？

崔淦渠：DeepSeek R1 的发布绝对是一个技术上的突破，这是毋庸置疑的。为什么一些大公司 CEO 会有上述的观点，我认为原因可能是这些公司的内部技术确实很先进。在他们看来，DeepSeek R1 可能只是达到了国际一流水平，并没有远远超越他们的技术，尤其是在他们觉得自己还无法实现的领域。

然而，DeepSeek 最大的亮点就是开源，这使得它在生态上具有普惠性。所有人都能够使用和体验到最强大的模型，这是它在大模型领域深入到每个普通人生活中的关键。对整个行业来说，这一点是无比重要的。

DeepSeek 在研究方面也非常开放。它不仅发布了所有的技术报告，还开放了模型权重，包括蒸馏后的小模型权重。对研究人员来说，这具有极大的价值。近期，大家关注的大多数大模型领域的论文几乎都在引用 DeepSeek。

因此，DeepSeek 的出现对大模型研究来说是一次巨大的冲击。我预测，在接下来的半年里，很多研究的重点将会是复现 DeepSeek，借助开源力量推动相关技术方向的发展。之后，研究者们可能会继续朝其他方向拓展。

DeepSeek 发布的模型和技术报告具有深远的意义，甚至它的影响力不亚于当年 OpenAI 发布 ChatGPT。回看 ChatGPT 的技术报告早在 2022 年中就已发布，但它奠定了这两年多来大模型领域的研究范式，而当前 DeepSeek R1 技术报告的发布在未来几年具有类似的意义。

吕仲琪：我觉得不能单纯地从是否有学术创新来衡量一个技术的价值。如果从发表一篇国际顶刊论文的角度来看，一个大规模系统可能并不符合顶刊的标准。原因是，它可能没有突破性创新，或者没有在某个方面做出全新的贡献，可能不会达到顶刊论文那种引用量的标准。然而，我也同样认为，未来半年甚至更长时间内，大模型相关的研究很可能无法绕过 DeepSeek R1 或其相关版本。

我个人的看法是，计算机科学和技术其实与工程更为接近，本质上是一个解决问题的学科，而不仅是理论研究。要真正用好计算机技术，关键在于如何应用它来解决实际问题，这才是计算机科学和技术研究的核心。从这个角度来看，DeepSeek 在推动计算机技术的应用和突破方面做得非常好。

在阅读 DeepSeek 技术报告时，我注意到他们毫不避讳地引用了许多成熟的技术，但他们在这些技术的复现上做得非常极致。这个模型不仅展示了 DeepSeek 团队在计算机组成原理方面的深厚功底，还在网络通信、计算优化和高性能计算等领域达到了极致。我相信，DeepSeek 在这些领域的技术水平无疑处于世界领先地位。

唐小引：有 CSDN 的网友总结了 DeepSeek 的价值点——便宜、开源和推理过程这三个关键词。二位老师会选择用什么样的关键词总结 DeepSeek 的价值？

吕仲琪：我非常认同“开源”这个关键词，在开源领域里发布研究的做法非常好。另外，我还想加上“极致”这个词，因为 DeepSeek 在很多技术点上做得非常极致，他们自己把那些真正有用的技术点推向了极限。

崔淦渠：开源确实非常重要。如果没有开源，大家就像在水面下暗中竞争，没有人愿意揭开这一切。而开源是最快推动技术发展的方式，它能够让技术在全球范围内得到普及。

DeepSeek 推出以后的几个月时间里，每家公司都可能会有自己的推理大模型。大家都会感谢 DeepSeek 的开源，这让一切发生得更快，推动了整体技术水平的提升。对于日常使用者而言，能够使用到既便宜又性能强大的模型，便是 DeepSeek 带来最大的好处。

二问：纯强化学习为什么会成为“杀手锏”？

唐小引：DeepSeek R1 的训练很有意思，比如仅凭 RL 就激发出推理能力，在 CSDN 社区里，有开发者形容这简直是「推理圈的一股清流」，怎么看待 DeepSeek 开发的 RL 新“杀手锏”—— GRPO（Group Relative Policy Optimization）算法？

崔淦渠：GRPO 的发明者（一作）其实是我隔壁组的同学，我们当时在读博阶段的课程中还一起合作过。虽然不算特别熟悉，但平时会有一些接触。我最近的研究方向主要是强化学习，因此对 GRPO 的理解可能会稍微偏向技术细节一些。

具体来看，GRPO 比传统的 PPO（Proximal Policy Optimization）算法更快、更省算力。传统强化学习通常需要使用四个模型，而 GRPO 以及该团队使用的 Rule-Based Reward Model 将其减少至一个或两个模型，从而大大节省‍了计算资源。这使得在有限算力的情况下，能够做更多的事情，也让强化学习变得更加易用。

另外，GRPO 的一个重要贡献是证明了简单的强化学习算法是可以扩展的。在大模型研究中，Scaling Law是一个至关重要的词汇，意味着随着算力的增加，模型性能能够持续提升。很多之前的模型结构调整和算法改进，在这个概念下并没有特别显著的意义。作为一个先行者，DeepSeek 能够在一个 671B 参数的大模型上训练并取得成功，给整个社区带来了巨大的信心。这不仅仅是技术上的突破，更是对行业未来的一种信号，表明这条路是可行的，其他团队也可以沿着这个方向继续前进。

吕仲琪：恰好崔老师与 GRPO 的作者有所了解，正好我也有些疑问与崔老师进行讨论。为什么作者在做 GRPO 研究时决定放弃传统的价值函数（Value Function）？我之前的猜测是，当我们对某个任务的判断不准确时，可能会把 Value Function 隐藏在其他地方进行评估和计算。但我不太确定我的猜测是否准确？

崔淦渠：直观来看，Value Function 其实非常难训练。大家最初可能都是按照 OpenAI 使用 PPO 算法这样的路径探索的，而 PPO 算法依赖于 Value Function。但是问题是，PPO 算法本身比较复杂，涉及大量的参数调整。我曾在 2023 年尝试过训练 PPO，结果花了近两个月时间才得到一个勉强合格的模型。

对于大多数人来说，并没有足够的耐心和动力来训练 PPO。因此，我猜测，GRPO 作者可能想探索一种方式，看看在强化学习中哪些部分是必须的，哪些又是冗余的。最终他发现，去掉 Value Function 并不会显著影响模型性能，反而还减少了计算开销和训练的不稳定性。

吕仲琪：确实，去掉 Value Function 是一个非常有意思的点。我也在想，可能是因为现在的大模型在初始阶段已经具备了相对可靠的推理能力，所以 Value Function 的纠偏作用变得不那么重要。也许过去，Value Function 对训练中的偏差修正至关重要，但如今的大模型本身已经足够强大，能够生成高质量的策略，因此 Value Function 的价值就降低了。这或许是五年前或者十年前我们无法看到 GRPO 算法的原因，因为那时的基础尚不具备。

崔淦渠：我完全认同吕老师的观点。用强化学习的术语来说，大模型本身已经是一个非常强大的策略模型（policy model），它生成的回复通常质量较高。而Value Function 的主要作用就是降低方差，减少极端情况的发生。在过去，比如在围棋（如 AlphaGo）或机器人领域，强化学习模型的初始策略非常弱，训练过程中可能会做出很多错误的决策，这时需要 Value Function 来纠偏。但对于现在的大模型，它们的初始策略已经非常强大，所以 Value Function 的重要性就显得相对较小了。

唐小引：崔老师能否为大家从技术角度系统地拆解一下 GRPO 算法及其在算法层面的创新，对 PPO 改进、去掉 Value Function 的来龙去脉？

崔淦渠：GRPO 的核心改动在于强化学习中的“baseline”概念。在强化学习中，我们通常会计算模型在每一步的奖励，了解它应该获得多少奖励，这是非常重要的概念。

在 PPO 算法中，使用了 Value Function 作为 baseline。具体来说，它通过计算当前奖励与 Value Function 的差值，来评估模型生成的行为。Value Function 就像是一个评估标准，用来表示当前模型的“能力”，即它有多好、能够得到多少奖励。

GRPO 的创新在于，它不再单纯使用一个固定的 Value Function 来作为 baseline，而是采用多次采样得到的平均奖励值作为新的 baseline。这种平均值反映了模型的总体能力水平。通过多次采样得到的奖励值，可以大致反映模型的表现，从而帮助算法更好地学习。

当然，这里也有一些好的和不好的部分，GRPO 的目标是让模型朝着好的方向学习，避免朝着坏的方向发展。所以，通过将平均奖励作为 baseline，GRPO 能够更合理地计算奖励并优化模型表现。

唐小引：崔老师即将在 CSDN&Boolan 举办的 2025 全球机器学习技术大会（ML-Summit 2025）上分享团队在强化学习方面的探索与研究，同时提出一个观点——强化学习可能成为下一个“Scaling Law”，请分享一下你的思考。

崔淦渠：我认为最关键的一点是，我们的数据资源快用尽了。大模型从两年前开始出现，它已经吸收了人类几百年积累的书籍和互联网上的所有语料。

如果大模型要继续提升性能，该如何是好？首先，现在人类每年创作的内容已经无法满足大模型的需求了。Ilya Sutskever（前 OpenAI 首席科学家）在 NeurIPS 大会上曾提出，预训练阶段可能会终结，因为我们没有足够的数据了，但我们的计算能力却在不断增强。

那么，预训练结束后，我们应该怎么办？

这是当前大家都在思考的问题。至于强化学习为何可能成为下一个“Scaling Law”，我们需要提到强化学习之父 Richard Sutton。他在 2019 年写了一篇非常著名的博客“The Bitter Lesson”（http://www.incompleteideas.net/IncIdeas/BitterLesson.html），其中提出，过去 20 年人工智能研究的核心发现是：那些最能利用算力的通用方法往往是最强大的，而在算法结构上做创新的尝试，则可能会被算力的巨大优势所淹没。他认为，过去 20 年内，人工智能领域研究者找到了两种可以随算力增加而持续提升性能的方法是：一是搜索，二是学习。

预训练就是将“学习”的过程最大化，充分利用了现有数据，学习并存储了这些信息。但接下来的方向则是如何将“搜索”与“学习”结合起来。强化学习正是朝这个方向发展，它通过让模型自我生成回复并自我训练，从而实现更高效的学习和优化。

因此，我认为强化学习将成为下一个阶段的大模型研究重点。回顾过去十年的一些重大 AI 成果如 AlphaGo、AlphaStar 等，强化学习已经在一些特定领域证明了它的强大潜力。在围棋领域，AlphaGo 就已展示了强化学习的巨大价值，甚至达到了超越人类的水平。不过，强化学习在通用领域的应用还没有完全证明其价值。但在过去的半年里，OpenAI o1 和 DeepSeek R1 模型已经初步展示了其巨大的潜力。

唐小引：强化学习发展了这么多年，为什么会在这个时间节点上成为焦点？有哪些关键因素？

崔淦渠：我认为最关键的因素是模型能力的提升。DeepSeek R1 发布后，我看到很多人讨论，称他们在 2022 年和 2023 年尝试过类似的强化学习方法，但没有取得像 DeepSeek R1 那样的效果。本质上是因为当时使用的模型本身能力有限。

回看 2022-2023 年，业界从业者可能使用的是 Llama、Llama 2 等模型，这些模型的基础能力较弱，即使进行强化学习，也难以得到优质的结果。而现在，如果用像 DeepSeek V3、GPT-4 等强大模型进行强化学习，模型能够生成我们无法预见的解法。所以我认为，基础模型的能力增强是推动强化学习发挥更大价值的关键因素。

唐小引：我最近阅读了崔老师的论文“Process Reinforcement through Implicit Rewards”（https://huggingface.co/papers/2502.01456），即结合过程奖励的强化学习方法 PRIME，作者一栏中也看到了大家熟知的名字，如丁宁、周伯文、孙茂松、刘知远及诸多战在一线的 AI 研究员们，能否分享一下 PRIME 背后的故事？

崔淦渠：其实 PRIME 这项工作是我们团队（上海人工智能实验室与清华大学等联合团队）在过去半年多时间里共同完成的，作者列表中有二十多位成员。我们在 DeepSeek R1 发布之前的三周就发布了这篇论文。发布时，我们的心情还是挺复杂的。

唐小引：你当时是不是有点“心态崩了”的感觉？毕竟 PRIME 发布在 DeepSeek R1 之前，而后发布的 DeepSeek R1 却后来居上掀起了如此大的关注。

崔淦渠：确实有这种感觉。看到 DeepSeek R1 的发布效果如此出色，甚至涵盖了小模型，确实让我们的研究面临了“降维打击”。但是后来冷静下来，我认为我们还是挺幸运的。一方面，我们并不是在 R1 之后发布，后续发布的论文往往得不到多少关注；另一方面，我们的研究依然具有独特的价值，不是完全依赖于 R1 的路径。我们在研究中采用了“过程奖励模型”，这一方法的独特性在于，它解决了现有过程奖励模型在强化学习应用中的不足之处。

唐小引：过程奖励模型的独特性究竟在哪里？

崔淦渠：过程奖励模型最早是 OpenAI 在 2023 年提出的，虽然有不少后续研究，但效果一直不理想。DeepSeek R1 在其技术报告中提到，他们尝试过过程奖励模型，但并未取得良好的效果，认为它存在一些缺点。我们正是针对这些问题，提出了改进方案，从而解决了现有模型的缺陷，使得过程奖励在强化学习中得以成功应用。因此，我们的研究不仅比传统的结果奖励方法效果更好，还在收敛速度等方面有所优势。

虽然我们的模型效果与 DeepSeek R1 相比仍有差距，但从理论上讲，过程奖励模型相比最终奖励更具优越性，能够抑制一些错误决策的影响。我们的工作在学术界引起了一定关注，尤其是我们最早提出并解决了这些问题。

吕仲琪：过程奖励函数在你们的训练过程中，是否遇到过回滚或者其他不稳定的现象？

崔淦渠：其实，我认为过程奖励模型的训练最大的问题就在于它的复杂性。正如 DeepSeek 论文中提到的，他们未能成功使用过程奖励模型的原因，正是因为训练过程过于复杂。我们在解题时，能够轻松地知道最终答案，但例如在高考中，即使你最终猜出了正确答案，若过程不对，也不会得分。判定过程是否正确，比单纯判断答案是否正确要复杂得多。因此，如何更新过程奖励模型，成为了一个关键问题。

我们的方法有一个核心创新：只需看最终答案，就能推断整个过程的对错。这与传统的过程奖励模型有本质区别。当然，这建立在模型能力较强的前提下，同时需要大量的答案对照数据。通过观察大量的解题过程及其答案，模型逐渐学习到哪些过程可能得出正确答案，哪些则是错误的。我们的工作就是实现这一点。

刚开始，映射关系的准确性确实不高，判题准确率也较低。但随着训练的不断进行，模型通过接触更多的数据和答案，它的性能逐渐提高。一开始，模型的准确率大约是 50% 左右，经过训练后，可以提升到 75% 左右。我们认为这是一个很大的进步。随着模型训练的深入，解题能力和过程奖励函数的判定能力同步提高，形成了一个正向循环，噪音也逐渐减少。当然，训练过程中会有波动，但总体是在波动中不断提升。

唐小引：对于一个非常专业的研究方向，大语言模型能“理解”多深？在去年的全球机器学习技术大会上，吕仲琪老师与团队分享了关于大模型知识量的度量方法，能否结合 DeepSeek 所展现的能力谈谈这一话题？

吕仲琪：去年 10 月，我们在 ML 大会上分享了吴麒同学的研究，探讨了如何衡量大语言模型的知识量。

在大模型出现之前，衡量知识量很简单，例如通过书籍的页数判断其中的文字数量或知识规模。然而，随着大语言模型的出现，知识已转化为参数，这些隐藏参数往往无法直接通过数值大小来衡量。那么，如何衡量大语言模型的知识量，成为了我们研究的出发点。

吴麒同学提出了一个非常有创意的思路：通过反复提问大语言模型，观察其回答的深度，从而判断其在某一领域的知识量。这种方法与人类的专家群体讨论相似。当同行之间讨论某个话题时，大家往往能较快了解彼此的知识储备，而跨领域的专家可能需要更长时间才能了解对方的知识水平。

基于这一思路，我们设计了一种方法，通过反复提问大语言模型来评估它在某一领域的知识深度。这个评估机制对我们构建奖励函数有一定启发作用。通过评估，我们不仅能了解模型的知识量，还能在问题推荐时为用户引导方向。例如，如果一个模型擅长回答工程领域的问题，我们可以在推荐问题时引导用户提问相关问题，从而更好地利用该大语言模型。

去年 10 月之后，我们团队的王子权同学提出了一个新思路：在大语言模型之外，设计一个小型模型进行强化学习，自动探索大模型的知识边界，并引导其发现模型的知识范围。这个小模型作为代理，自动测试大模型能回答的问题范围，进而定义其知识边界，即模型能够解答的问题与无法解答的问题之间的距离。我们的目标是缩小这一距离，从而精准界定大模型的能力边界。

这一研究与 DeepSeek 在奖励函数设计上的思路类似。DeepSeek 之所以表现出色，在于其具备自我反思和引导的能力。它在回答问题的过程中不断优化自身，相当于一种“精神内耗”式的自我调整。这种方法不同于传统强化学习中的目标导向设计，但可能更能挖掘大模型的潜力——在既有能力的基础上，通过自我评判持续优化。

随着大语言模型的开源与能力提升，未来奖励函数的设计或许可以更多依赖这种内在引导机制，而非传统规则约束。这可能是大模型发展的一个重要方向。

三问：强化学习推理能力面临的挑战怎么解决？

唐小引：强化学习也不是万能的，依然会碰到训练不稳定、推理能力受限、奖励黑客、计算成本高等挑战，对于推理能力我们还有更好的方案吗？

崔淦渠：强化学习固然重要，但它并不是万能的。

近期备受关注的一个方向是测试时扩展（TTS，Test-Time Scaling）。李飞飞团队于近日发布的一篇论文“s1：Simple test- time scaling”（https://arxiv.org/abs/2501.19393）提出了一种极为简单但有效的方法来进行测试时扩展。具体做法是，在模型生成答案后，不直接结束，而是添加一个“wait”命令，强制模型“再想一会儿”后再输出答案。这种方法虽基础，却显著提升了推理表现，说明只要推理过程中计算资源充足，问题解决质量就能提高。

除此之外，模型提升推理效率也是一个重要方向。使用 DeepSeek 时，用户可能会注意到其推理时间较长，部分复杂问题甚至需要几分钟才能得出答案。为了优化体验，我们也希望缩短推理时间、降低延迟，以提高效率并节约计算成本。其实与 DeepSeek 同期的 Kimi 团队也提出了类似的研究，探讨了如何缩短思考时间和提升推理效率。对学术界和工业界来说，这将是一个很有前景的研究方向。

吕仲琪：推理能力仍是一个开放性问题。当前的强化学习框架依赖传统方法，通常需要定义环境、价值函数、奖励函数和传递函数等。我个人对如何优化奖励函数或调整价值函数充满期待。

此外，我认为在将知识灌输到大模型或者其他类型学习模型时，监督学习仍然是最有效的方式。这个观点或许显得有些传统，但我认为如果能够找到更好的方法将知识灌输给模型，未必需要全盘依赖强化学习，可能还需要回过头来审视监督学习和其他传统方法的有效性，尤其是在需要模型选择性遗忘某些知识时，监督学习仍然有其独特的优势。

四问：DeepSeek 模型迭代的关键点？

唐小引：在看到破圈刷屏的 DeepSeek R1 后，有不少专家指出更值得关注的是它的“前身” R1-Zero，纯粹的强化学习的探索就是 R1-Zero 的实践，可以为我们厘清一下 DeepSeek 模型迭代的关键点？

崔淦渠：从大模型研发的角度来看，DeepSeek 从成立初期甚至更早，我们就已经开始关注他们了。DeepSeek 一开始的目标就是开发 AGI（人工通用智能），直到现在，他们的「开源 AGI」的理念也未变过。

一直以来，DeepSeek 论文和模型发布不多，但每个都精益求精，始终与最先进模型对标，不仅选择高难度 Benchmark，还自建 Benchmark 以验证性能。这种严格标准，使其在技术实力上获得广泛认可。同时，DeepSeek 在数学和代码领域表现突出，此前推出的 DeepSeek Coder 和 DeepSeek Math 一度代表开源领域的最高水平，这一优势维持了好几个月。

DeepSeek 的技术布局很早就开始关注推理场景，而非单纯对话交互，这使其在复杂推理领域建立深厚积累，为 R1 的成功奠定基础。去年 OpenAI 推出 o1 时，许多人猜测国内哪家团队最有可能复刻。我当时猜测是 DeepSeek，而事实证明，DeepSeek 和阿里的通义千问团队在这方面取得了领先成果。

DeepSeek 的研发历程是一步一个脚印的。从最初 LLM 67B 的密集型模型，到探索 MoE 架构而发布的 DeepSeek V2，再到陆续发布一些较小的 Coder、Math 模型，进而到 671B 的 DeepSeek V3，DeepSeek 持续提升模型规模，同时优化基础设施、数据处理、训练和推理能力。其技术透明度极高，每个阶段的进展均可在公开报告中追溯，大家可以清楚地看到他们是如何一步步走向国际领先水平的。

值得一提的是，DeepSeek 一直以理工科见长，但这次在文科领域的表现也远超预期。

唐小引：众所周知，DeepSeek 创始人梁文锋同时有着幻方量化的工作，他的投资理念是否影响了 DeepSeek 的整体架构？

崔淦渠：我与梁文锋老师没有直接交流过，但听闻他对前沿技术高度关注，并积极参与讨论。如果查阅 DeepSeek 的论文，你会发现一些论文上有他的名字，但也有一些没有。这和某些创始人将所有论文都署上自己名字的做法不同，梁老师只有在真正参与并认同某个方向时，才会在论文上署名，比如最早的 MoE 论文，这显示出他对数学和代码方向的重视。正是基于这一点，DeepSeek 才会在这些领域进行大量投入。

吕仲琪：如果未来回顾大模型的发展史，R1-Zero 必将占据重要一席。它首次完全基于强化学习，跳过所有传统监督学习方法，直接应用强化学习并取得成功。我相信这绝不是噱头，而是经过深思熟虑的选择。因此，这一创新无论如何都会被历史记住，并对我们的研究和未来的工程实践产生深远影响。

五问：DeepSeek 的商业化策略如何？

唐小引：近日，苹果和阿里巴巴称将为中国的 iPhone 用户开发 AI 功能。不少人好奇为什么没有选择 DeepSeek。业界也有分析过原因，如美国知名人工智能播客主持人（现在已经基本是播客界顶流一哥了）Lex Fridman 在他的播客中曾提到，目前 DeepSeek 在服务器频繁忙碌的问题上还没有解决。对于大规模、高并发场景，DeepSeek 仍然面临挑战，你如何看？

崔淦渠：我认为 DeepSeek 自己也并没有预料到他们的模型会如此火爆。之前他们并没有做任何相关服务，甚至他们的 App 也是今年年初才上线的，之前大家只能通过网页版或者 API 使用。他们缺乏 C 端、B 端产品经验，因此短时间内难以承接大规模商业合作。

从个人角度来看，我认为 DeepSeek 现在似乎也不太愿意去与像苹果这样的大公司合作，原因有二：

首先，DeepSeek 招募的大多数是顶尖的研究人员，而不是工程师。虽然他们也招一些顶尖工程师，但主要是为了解决模型训练和部署问题，而不是为了做商业合作。DeepSeek 更像一个研究机构，而非一家公司。对他们来说，他们并没有想到如何通过合作来盈利，反而更关注如何“花钱”去推动最大智能的实现。

其次，对于他们而言，转型并不是特别容易。如果他们想要短期内变现，增加服务器来支持需求是可以做到的，但这是否符合他们的整体战略，是一个问题。因为他们的重点并不在此，所以从根本上讲，他们没有意愿，也没有能力去承接这种大规模的订单。

唐小引：DeepSeek 的“花钱”推动最大智能实现的这条路径能长期维持下去吗？

崔淦渠：这个问题不好回答。DeepSeek 在降低成本方面已经非常出色，和国内外其他公司相比，他们的运营开支相对较少。此外，他们也可以通过量化基金等资金来源来支持研发，早期他们曾将一部分捐款用于慈善，现在则将这些资金投入到 AGI 研究中。然而，随着算力需求的不断增加，现有的资金可能不足以长期支撑。未来他们可能需要寻求外部融资，或者通过其他手段来赚取资金。

唐小引：这让我想起，R1 爆火后，DeepSeek 在大举招人，但工程技术岗的标准极高，尤其是客户端开发，要求 C9 联盟高校毕业，且毕业不超过五年。这是否反映了其人才策略的特殊性？

吕仲琪：人才选择反映了企业的价值观，作为学校的老师，我认为我们培养的学生应该都能找到合适的工作。不同公司有不同战略，例如一些企业偏好经验丰富的资深工程师，而 DeepSeek 更倾向于年轻高潜力人才。这种选择并非技术能力高低的问题，而是战略和文化使然。我曾遇到过一家公司，他们的成员大多都在山东一个小县城工作，且全都是 35 岁以上的程序员，这群“逆流而上的人”依然能够写出非常高质量的代码。

六问：成本降低对大模型带来怎样的变化？

唐小引：训练成本的大幅降低，对大模型训练会带来哪些变化？比如之前我们能看到说 Meta 的生成式 AI 团队因为 DeepSeek 陷入恐慌，因为高昂的成本给他们“雪上加霜”了，这是过分夸大还是真实情况？

崔淦渠：从国内的情况来看，很多做大模型的团队面临着较大的压力，因为 DeepSeek 的出现给他们带来了很大的挑战。

以 DeepSeek V3 发布为例，几乎所有的大模型从业者都被老板问到，为什么我们做不到像 DeepSeek 那样低成本的模型？为什么我们的成本比他们高这么多？其实这种情况很容易理解。毕竟有人做得比你更好，且花费更少，那么作为出资方，老板自然会质疑你的项目。这样的竞争是正常的，也是良性的竞争。

只有将训练的细节和成本透明化，才能推动技术进步，降低整体成本。对于普通用户来说，这无疑是好事，意味着未来我们能够以更低的成本享受更好的 AI 服务。

吕仲琪：我认为行业中出现一个“鲶鱼”是非常积极的现象。它推动了整个行业的进步。从这个角度来看，竞争是有益的，因为它促使大家在这个赛道上不断加速。

七问：纯强化学习还能走多远？是 AGI 的前置吗？

唐小引：纯粹强化学习是 Agent 的前置吗？强化学习的突破 —— Agent 落地 —— AGI 实现是不是可以视为一条链路？

吕仲琪：在强化学习中，Agent 代表自主决策的智能体。如果将大模型视为 Agent，它可以为我们提供一种新的理解方式。在训练过程中，大模型类似于逐步接受教育的孩子，我们通过训练方法模拟人类的学习与思考过程。例如，在解数学题时，我们如何一步步推理，这种思维方式可以被抽象化并融入训练。微调大模型的研究人员常能体会到优化见效时的成就感。这一方向标志着强化学习的新起点，我期待今年会有更多相关研究成果。

崔淦渠：我认同这一观点。随着大模型的发展，它将更深入地融入日常生活，不仅限于创作诗歌或文章。在编程领域，已有许多成功案例，未来编程可能不再局限于程序员，只要能清晰表达需求，大模型就能生成代码。Agent 技术的应用领域仍在拓展，虽然目前难以精准预测其最终形态，但这一方向充满想象力与可能性，未来或许会出现超出我们设想的新应用场景。

八问：Transformer 后的下一代架构会是什么样？

唐小引：DeepSeek 在 Transformer 架构的基础上进行了多项创新，例如 MLA（多头潜在注意力）。当前，业内许多专家正致力于研究下一代架构。为何这一方向备受关注？目前进展如何？是否会出现超越现有 Attention 机制的技术？

崔淦渠：我并不是架构方面的专家，但近期观察到，业界的研究主要集中在两个方向。

一是 MoE（混合专家模型）。它在未来可能会演变成一个主流架构。MoE 适用于超大规模模型，能通过减少激活参数降低推理成本，使 API 服务更具成本效益。然而，对于运行在手机或 PC 端的小型模型，MoE 并不适用。DeepSeek 通过 MoE 结构优化了推理成本，这是其能够提供低价 API 的关键。

二是 RNN（循环神经网络）。尽管目前尚未出现超大规模 RNN 模型，但一些公司已在尝试扩展其规模。RNN 采用线性注意力结构，在推理速度和长序列处理方面具备优势。如果未来对长序列推理的需求增长，RNN 可能重新成为主流架构。

吕仲琪：我个人非常喜欢基于 Attention 的所有相关方向。我们团队新成员入组时，我都会推荐他们阅读“Attention is All You Need”这篇经典论文。

在 Attention 机制的基础上，类似 MLA 等技术是自然演化的结果。我近期有一些思考，完整存储和计算每个字符的信息代价高昂，但如果仅关注关键点或知识点，计算和存储需求可大幅降低。因此，我认为未来的架构将进一步优化 Attention 机制，结合更高效的信息提取方式，持续推动技术突破。

九问：大模型是一种基础设施 or 一款应用？

唐小引：DeepSeek 可以被定义为应用吗？目前业界有两种观点：一是大模型将成为类似水电的基础设施，未来用户可能不会关心具体使用的是哪种大模型；二是“模型即产品”，每个模型都有自己的 App 直达用户。如何看待这一问题？

吕仲琪：我个人更倾向于第一种看法，即大模型最终会成为水电煤一样的基础设施。机器学习的发展是一个逐层抽象的过程。最初，我们处理的数据来源于传感器信号、书籍、互联网文本等，经过多层抽象后，逐步具备更强的表达能力。

在深度学习兴起之前，数据处理主要依赖统计工具，如 Excel 分析数据，得出结论，此时数据本身更类似基础设施。随着深度学习的发展，例如训练好的人脸识别模型可以作为基础组件，直接调用其识别能力。同样，大模型或多模态模型提供的能力也将成为基础能力，未来当我们需要某种功能时，很可能直接调用模型接口，在此基础上衍生出各种应用。

崔淦渠：目前阶段，模型能力仍是核心竞争力。各大厂商投入巨资推广，但 DeepSeek 的模型能力突破所带来的流量，远超任何单一产品。因此，现阶段用户最直观感受到的仍是模型能力的差异。

未来，如果模型能力出现分化，一些高性能模型可能专注于复杂推理任务，服务于研究人员或特定领域，而更简化、面向日常的模型将广泛融入生活。这类模型或许会成为基础设施，如同水电煤，而用户的感知将更多来自模型的具体应用形式。

唐小引：从 AI 应用落地角度来看，无论是 AI 1.0 还是 AI 2.0，我们始终强调 AI 对各行各业的深度赋能。但回顾当前发展，是否已经出现了真正具有颠覆性的 AI 应用？在 DeepSeek 等先进 AI 技术的推动下，未来的 AI 应用将如何演进？

崔淦渠：目前 DeepSeek 尚未展示出足以颠覆现有应用的能力。它与 OpenAI 的模型类似，只是在创意方面有所增强。要使 DeepSeek 发展为真正深入日常生活的产品，还需解决几个关键问题。

首先是成本。当前高性能模型的运行成本较高，如何降低成本，使更多用户能够负担并使用强大的 AI，是亟待解决的挑战。

其次，随着推理能力的不断提升，近年来预训练（Pre-training）速度可能会放缓，而增强推理模型成为新的研究热点。例如，OpenAI 在短短几个月内将模型从 o1 升级到 o3，性能显著提升。如果这一趋势持续，AI 可能会在研究领域或前沿应用中带来重大变革。

吕仲琪：这一问题实际也涉及到了人类智能的独特性及其不可替代的价值。尽管大语言模型的研究常提及神经网络参数与人脑的相似性，但人的情感、思维方式及目标追求并非机器能通过算法模拟。

例如，人与人之间的深度交流不仅涉及信息传递，还包含情感共鸣与价值判断。这些体验是 AI 无法真正理解或替代的。在当前机器学习范式下，AI 只能模仿和拟合，看似理解，但无法真正参与人类复杂的社交和思维过程。因此，尽管 AI 在许多领域展现出强大能力，人类的独特价值依然不可取代。

十问：人类程序员在 AI 时代的核心竞争力？

唐小引：DeepSeek-R1 展现出了很强大的知识理解和推理能力，在推理基准测试上比肩 OpenAI o1，而其代码能力也很强，超越了 96.3% 的人类选手，在模型能力迭代迅猛的今天，我们是否需要重新思考人类的职业与技能价值？

吕仲琪：在 DeepSeek 出现前，很多从业者已经发现大语言模型在写作业和实验报告上非常有效。相信很多同学都试过直接将报告或论文交给大语言模型生成。

起初，我认为这是同学们能力快速提升的体现，甚至感到欣慰。但经过一年多观察大语言模型生成的报告后，我作为老师的能力有了变化——我现在能大致判断出同学们用的是哪一款大语言模型，甚至能识别得出它的训练程度。

借此机会，我想与大家分享一下我的思考。如果我们完全依赖大语言模型来写实验报告，可能会有两个严重问题。

首先是教学效果未达到预期，学生如果在学校期间只是依赖 AI 生成报告，那么毕业后，是否就浪费了在校的学习时间？

第二个问题是职业风险。如果大语言模型生成的内容比学生自己写的更好，而且可以直接使用，那么雇主和甲方为什么要支付我们工资呢？

所以，我认为未来生产力的提升将极大地改变就业形式和工作范围。大语言模型能够完成许多重复性的工作，真正需要依赖它们的就是这些任务。我们可以把这些工作交给大语言模型和 AI 来处理，而自己则可以专注于更具人类优势的领域，比如探索职业发展的新增长点。这是一个非常开放的话题，未来，年薪百万的岗位必定会出现在大语言模型无法替代的领域，而且这种机会很可能很快就会出现。

唐小引：近期一些高校正在检查学生的论文 AI 生成率，并采取措施降低这一比例。这种情况属实吗？

吕仲琪：这是我们所有老师的共识，必须降低 AI 的论文生成率。

唐小引：最初很多人提倡在论文、工作或文章中使用 AI，但现在风向似乎发生了变化。你认为未来高校会明确禁止学生在论文中使用 AI 吗？

吕仲琪：我预测——这种使用方式最终可能会被禁止。从学术层面而言，完全依赖 AI 生成内容，应该被视为学术不端。毕竟，论文上署名的是学生和导师，但并没有署上 AI 的名字。如果学生使用了 AI 生成的内容，应该要求署名 AI 的贡献，否则这种行为是不合适的。

崔淦渠：我赞同吕老师的观点，AI 不应被过度依赖。虽然 AI 的能力很强，但我认为它只能在某种程度上成为我们的助手。例如，当遇到不熟悉的概念时可以向 AI 求助，但其输出的内容可能存在“幻觉”，所以需要自行验证来确保信息的真实性。

同时，过渡依赖 AI 会削弱实践和思考的机会。人类和 AI 的合作能有效解决一些复杂问题，尤其是在 AI 能够逐步克服难题的领域。同时，随着 AI 确定性的增强，它会取代一些重复性劳动，优化自动化流程，例如操控电脑、手机等，这是 AI 改变生活的一种方式。然而，AI 无法替代人的学习和思考，因此应该将其视为工具，而不是让其完全取代我们的工作。

唐小引：对于离 AI 最近的程序员来说，一方面，模型的代码能力依然在突飞猛进，从最开始因其局限性令人嗤之以鼻，但现在能力越来越强了；另一方面，Sam Altman、扎克伯格都说过，未来 AI Agent 能够完成大部分经验 3 - 5 年的软件工程师。怎么看待和处理 AI 与程序员之间的关系？

崔淦渠：未来，程序员将不可避免地使用 AI，甚至可以说 AI 将成为核心竞争力。没有 AI，程序员的生产力将大幅下降。然而，如何高效运用 AI 可能成为衡量程序员水平的重要标准。一些人或许会完全依赖 AI 完成任务，但这种方式不可取，因为 AI 仍有局限，且依赖 AI 可能导致程序员无法判断代码的质量与改进空间。在初级场景中，AI 可承担部分任务，但在更高级的应用中，它更适合作为辅助工具，帮助检查、纠错，并探索更优的实现方案。

程序员无疑是最早受 AI 影响的群体之一，并且由于直接参与 AI 的设计与开发，他们对 AI 的理解和掌握也将最为深入。

吕仲琪：我觉得程序员大致可分为三类：

第一类是设计 AI 的程序员，包括像 DeepSeek 工程师、负责大模型微调的工程师，主要从事算法和训练工作。这类程序员无需担忧 AI 取代他们，相反，大模型的发展可能为他们创造更多机会。

第二类是高级程序员，例如开发 Spring Boot 框架、从事前端 UI 设计的共曾是，这类程序员可称之为创造型程序员。我认为他们也不会受到 AI 的威胁，尽管 AI 具备多种能力，但仍受限于人类对程序架构和基础设施的理解，因此这类程序员的价值不会被取代。

第三类是重复性任务执行者，即传统意义上的“码农”，主要通过拼接框架和模块完成标准化任务。这类工作面临 AI 的直接冲击，因为 AI 能 24 小时无间断执行相同任务。因此，从事重复性开发的程序员应提升技能，学习如何高效利用 AI，以适应行业变革。

唐小引：前两类的占比大约是多少？

吕仲琪：虽然没有具体统计数据，但我觉得至少可以遵循二八原则，甚至更极端一点。本质上，程序员的职业使命是通过自动化减少重复性劳动，将机械任务交给机器执行。因此，程序员应以少数人高效完成大量工作，而非依赖人海战术。这也是程序员这一职业存在的核心意义。

唐小引：当 AI 变得越来越“像人” 的时候，我们是否应该反思人类智能的独特性和价值？在 AI 时代，人类的核心竞争力将会是什么？我们应该如何重新定义 “教育” 和 “学习”？

吕仲琪：人的成长曲线独特且不可替代，不会因一款大模型的出现而改变。

作为父母，我们见证孩子成长、学习的喜悦，这是 AI 无法取代的。作为个体，我们在学习过程中收获知识、掌握技能、获得认可，这些成就感也是机器无法给予的。作为教师，我想对学生们说——无论 AI 如何发展，机器有其优势，而人类的价值同样不可替代。关键在于深入体验学习的过程，不断提升自我。

如果有一天，我们的作品不如 AI，这并不可怕，而是一个提醒——应当反思并向 AI 学习，将其视为工具与对手，不断超越。能从机器中学习，并做得更好，难道不是一件更有意义的事吗？

崔淦渠：我更倾向于从学生的角度来看待 AI 在教育中的应用。目前，清华大学等高校已在积极探索这一方向，例如刘知远教授研究如何更有效地将 AI 融入教学。我们也尝试在 MOOC（大规模在线课程）中引入 AI 助教，甚至由 AI 完全授课，这些实验已取得良好反馈，证明 AI 在教育领域具有巨大潜力。此外，清华今年为每位学生配备了 AI 助手，可提供校内信息查询、课程资源、学习辅导，甚至校规解答，大大提升了信息获取的便捷性，优化了学习体验。

AI 对教育的影响是一个渐进过程，不会立即颠覆传统模式，而是以润物细无声的方式重塑教育形态。未来，AI 有望推动更大变革，使学习更加智能、高效。

唐小引：当 AI 应用逐渐普及，人人都在使用 AI 时，如何才能更高效、更出色地运用 AI？

吕仲琪：我认为，大语言模型的普及已不可避免，而未来的竞争重点之一，将是如何更好地“驯化”大语言模型，使其能够以个人的风格和语气表达内容。

作为老师，我现在可以一眼辨别出某位同学的文章是由哪家大模型生成的，因为不同模型的表达方式存在一些独特的特点。但如果有人能够成功调教大语言模型，使其学会模仿自己的用词习惯和表达方式，那么这才真正实现了个性化，让 AI 成为一个专属的私人助手。

从实际应用的角度来看，在短期内，如何更精准地调整和优化模型的使用方式，可能是提升大语言模型应用效果的重要方向。

崔淦渠：我认为最重要的是多加尝试。面对新事物，最好的了解方式就是不断实践。

在日常生活中，多与 AI 互动，探索新的使用方式，或许会带来意想不到的收获。自从 DeepSeek 发布后，我经常在网上看到各种新奇的应用场景，很多都是我之前从未想到的。有时候，一次简单的交流就可能带来新的灵感，逐渐帮助我们更高效地工作和生活。

上一篇：CVPR 2025有作者用AI生成审稿意见，被发现了，论文也被拒了

下一篇：能打败薇娅、李佳琦的种草新王，可能是 DeepSeek

返回列表