新年伊始,在旅行途中整理了这篇稿子,期待能捋顺有关 DeepSeek,究竟发生了什么。
文章略长,目录如下:
1 DeepSeek:AI 的斯普特尼克时刻?
2 DeepSeek 公司与梁文锋
3 V2 的成本突破:MoE 和 MLA
4 V3 的成本突破:FP8 和 MTP
5 成本突破带来的行业震荡
6 R1:推理模型与纯强化学习
7 比 OpenAI 更开放
8 幻方的企业文化
9 DeepSeek 几个值得探讨的问题
10 展望未来
11 两个启发
12 DeepSeek 写来的一封信
大模型行业内, OpenAI 的 4o 和 o1 是公认最优秀的模型,(现在发布 o3-mini 了,可能会替代 o1)。4o 是通用模型,o1 是推理模型。
而 DeepSeek 的 V3 对标 4o,R1 对标 o1,基本上达到了相同的水准。尤其以推理相关的评测而言(比如数学),性能显著,有的评测超过了 OpenAI:
在各个大模型评测排行榜上,DeepSeek 也稳居前列,这在过去的国产大模型里,是没有的:
(SuperCLUE 排行榜)
(斯坦福大学大模型评测)
搭建在 V3 和 R1 基础之上的客户端产品,跟模型名字一样,也叫 DeepSeek,包括手机端的 APP,以及网页版本,目前都是免费可用,应该不少朋友都体验过了。
只是近期访问量过大,服务器经常崩:
有一些自媒体张口就说 DeepSeek 是骗局,堪比汉芯。这种话完全不足为信。DeepSeek 绝非跟过去有新闻里提到的一样,说国产芯片已遥遥领先、大学生手打的显卡超越英伟达等等,这样的自嗨。
DeepSeek 是公认引起最广泛关注的国产大模型。
2025 年 1 月 22 日,微软 CEO 萨提亚·纳德拉(Satya Nadella)在瑞士达沃斯论坛期间接受 CNBC 采访时盛赞 DeepSeek,称应该认真对待中国 AI 产业的发展。
DeepSeek 在 2025 年 1 月 27 日登顶美国 App Store 的榜首,并且在 100 多个国家陆续霸榜。在同一天,英伟达股票狂跌 17% 左右,单股蒸发 5890 亿美元,这个数字是美股历史之最,没有之一。
当天,美股芯片股集体崩盘。台积电跌13.33%、美光跌11.71%、博通跌17.40%、ARM 跌10.19%、阿斯麦跌 5.75%。美股蒸发接近万亿。相反,大模型应用方和平台有回涨: Meta 收涨1.91%、亚马逊收涨0.24%、微软收跌2.14%、谷歌母公司 Alphabet 收跌4.03%。
AI 科技领袖、OpenAI 的 CEO 山姆·奥特曼,在 V3 发布第二天说:「复制已知工作相对简单,而做一件你不知道是否有效、充满风险的新工作是一件极其困难的事。」暗指 DeepSeek 只是做了重复造轮子的工作。
DeepSeek 由于 R1 爆红后,压力变大的奥特曼老师,在 2025 年 1 月 31 日,在 Reddit 论坛回复网友说:「尽管 OpenAI 会继续发布更好的模型,但 DeepSeek 的出现改变了过去几年 OpenAl 遥遥领先的情况。」
Meta 在近期宣布,加速研发 Llama 4,计划投资 650 亿美元扩建数据中心,并部署 130 万枚 GPU 以「确保 2025 年 Meta AI 成为全球领先模型」。
Meta 的一个工程师在论坛里分享说:「Meta 的生成式 AI 部门正处于恐慌中。这一切始于 Deepseek,它使得 Llama 4 在基准测试中已经落后。雪上加霜的是:那个不知名的中国公司,仅有 550 万美元的训练预算。工程师们正在疯狂地剖析 Deepseek,并试图从中复制一切可能的东西。」
而根据美国媒体 the information 报道,Meta 已经成立了 4 个打 D 办。
2025 年 1 月 20 日,DeepSeek 创始人梁文锋出席了李强总理的座谈会,给政府工作报告提供意见和建议。
2025 年 1 月底,DeepSeek 官方还发布了声明,遭到了大规模的恶意攻击,所以收窄了注册的范围。也说明 DeepSeek 真的被放到聚光灯之下了。
特朗普老师也评价了 DeepSeek:同志们,这给咱们美国的民族企业敲响了警钟呐(wakeup call)。
山丘杂志的一篇文章,干脆表示:「DeepSeek R1 就是 AI 的斯普特尼克时刻」。斯普特尼克是苏联发射的人造卫星,它开启了人类的太空时代。
DeepSeek 的创始人梁文锋自己说:我们并不是故意要成为「鲶鱼」——我们只是意外地成为了「鲶鱼」。
DeepSeek 到底哪里来的呢?在各种所谓国家队的名单里,其实都看不到幻方这家公司。训练大模型很需要卡,他们的卡又怎么囤下的呢?
1985 年,梁文锋出生于广东湛江市,父亲是小学老师。2006 年,从浙江大学电气工程毕业,后来读研,主修的是机器视觉。2010 年硕士毕业。能找到的一篇论文是跟导师项志宇共同发表的《一种鲁棒的 PTZ 摄像机目标跟踪算法》。
2008 年金融危机的时候,梁文锋在学校就攒了一个局,跟同学研究怎么通过机器学习做量化交易。
毕业以后,梁文锋先到了成都创业,找个出租屋,研究各种各样的 AI 项目,都不太成功。期间还有个深圳的朋友拉他入伙创业,说别搞 AI 了, 来深圳做硬件吧。梁文锋说,算了算了,婉拒了哈。这个朋友叫汪滔,后来给自己的品牌起名叫大疆。
梁文锋没有放弃,一直探索全自动的量化交易。说量化基金,听过吉姆·西蒙斯故事的就知道,没那么简单。毕竟一旦做好了,就相当赚钱,而且是躺着赚钱的。
2013 年 28 岁的梁文锋跟浙大的同学徐进一起创办了杭州雅克比投资管理有限公司。目前起色不大。
2015 年,中证 500 股指期货上市,政策更开放,技术手段也更多了,真正能容纳量化交易策略了。跟着这一波,2015 年 6 月,30 岁的梁文锋跟徐进创办了杭州幻方科技有限公司,英文名 High-Flyer(高飞者)。当年就取得了不错的成果。这一年,他们只有 10 张显卡。
2016 年,幻方加入中国证券投资基金业协会。年底,幻方推出第一个 AI 模型,深度学习基础上做量化交易。以前的,可以理解都是线性的规则模型,没有太多智能。这一年,管理资金规模已经 10 亿。
2017 年,基金的交易策略几乎都迁移到 AI 模型上了,规模到了 30 亿。2018 年幻方获得了私募金牛奖。
2019 年,梁文锋创办幻方 AI 公司,投资 2 亿搞深度学习平台「萤火一号」,准备投入 1100 块 GPU。基金这年破百亿规模。
2019 年 8 月 30 日,34 岁的梁文锋在金牛奖颁奖仪式上,发表主题演讲《一名程序员眼里中国量化投资的未来》。他说:「量化公司是没有基金经理的,基金经理就一堆服务器。」「作为私募,投资人对我们的期望是很高的,如果一年跑赢指数低于25%,投资人是不满意的。」「量化投资已经赚了技术面流派原来赚的钱,未来也要抢夺基本面流派原来赚的钱。」
野心不可谓不大,他讲的远期目标是:「要提高中国二级市场的有效性。」
2021 年,量化大师西蒙斯的中文版传记出版,其中一篇序言就是梁文锋写的。我之前读书时只是对这个名字略有印象,没想到今天能再次遇到。
同年,幻方的规模突破千亿大关了。到这个地步,幻方已经是国内量化私募的四大天王。
不过这一年步子有点太大,年底的时候回撤达到历史最高,官方出面道歉。有人甚至说见了幻方的某个高管就想当面打他。
福祸相依。同一年,幻方也囤了不少卡,给后面做足了准备。
具体这次囤了多少,Scale.ai 的 CEO 说有 5 万张卡。而更多信源显示应该没这么多。比较多的说法是,DeepSeek 是有 1 万张老的 A100 卡,可能还有 3 千张禁令之前的 H800。
说万卡,各位可能没有概念。实际上在中国,超过万卡的企业不超过 5 家。另外 4 家都是互联网大厂。而且这些大厂都是在后来囤下的,在出口管制之前,在 ChatGPT 出现之前,幻方很可能拥有全中国最多的 A 卡。
原本这些卡是要投入「萤火二号」的,这次的投入大概有 10 亿人民币。
2023 年 5 月,梁文锋宣布要做 AGI。2 个月后创办了杭州深度求索人工智能基础技术研究有限公司。公司名字里的「基础技术」代表了做底层研究的野心。深度求索的官方英文名,也就是 DeepSeek。
2023年 11 月 2 日,DeepSeek 发布了第一个模型 DeepSeek coder, 11 月 29 日发布了 LLM 模型。接下来又发布了几个模型。这个阶段,从结构和性能上而言,都是开源的领头羊 Llama 的追赶者。
2024 年 5 月,幻方发布了 DeepSeek V2,当年就引起了国内行业的一些讨论。并且成功把各个国产大模型的 API 价格打了下来。彼时大家对 DeepSeek 的印象就是:便宜。
怎么做到便宜的呢?主要得益于 V2 采用的两个技术。
第一个是,混合专家模型 MoE(mixture of experts)。这个技术的雏形理论在 1991 年出现,已经有 30 多年历史。
回顾一下,目前的 AI 领域是神经网络的胜利。杰夫·辛顿,2024 年的诺贝尔奖得主,2018 年的图灵奖得主。可以说是他作为精神领袖把神经网络的火种延续到了这个世纪,并开创了深度学习这个学派。
OpenAI 的出现,又否决了杰夫·辛顿这些上一代科学家认为的,要加入一些规则和逻辑做处理。而是靠大力出奇迹,看是否能量变引起质变。结果我们都知道了。就是规模增加,居然就有智能涌现了。
而大力出奇迹,也出现了问题。规模太大了,每次调用的成本特别高。GPT-4 已经有 1.8 万亿的总参数量。于是混合专家架构 MoE 就应运而生了。
混合专家架构建立了一个「专家系统」。并不是让大模型成为一个全才,而是让大模型成为一个专家团,需要哪些专家,再把哪些专家唤醒。
比如询问的是物理相关的问题,就把物理学家请出来。问的是文学相关的,就把文学专家请出来。
而跟我们上网的路由器一样,专家系统里也有路由的设置,你想找谁,我帮你打电话叫他出来。
假如有个智囊团团队有 1000 人,每次召集起来得需要一个超大的会议室,甚至广场。现在需要谁把谁叫进来,可能几个人就行了,效率高得多。也能让模型覆盖到小的机器上,比如游戏级别的 GPU。
混合专家模型在 Scaling Law(规模定律)基础上做了很有效的优化。这个定律大意是,规模大了,效果就好。已经有一段时间,大家发现规模带来的收益正在递减、成本在提升。本来突破不了的性能瓶颈,这样就能突破了。
2017年,Google 发布了稀疏门控 MoE 的论文,大大推动了一步。整个 AI 行业内都在研究讨论 MoE,大家也都盯着 GPT,看他们用不用。后来英伟达在 GTC2024 上的 PPT 有一页,标的名称是 GPT-MoE 1.8T,坐实了 GPT-4 是采用了 MoE 的。
使用 MoE,对于大模型来说已经是共识了,在同样的性能下,至少可以降低 30% 的计算资源。而能用不代表擅长,DeepSeek 就非常擅长 MoE。做得得心应手,也是国内第一家推出 MoE 技术上的大模型的团队。
第二个技术是多模态学习架构,MLA(Multi-Modal Learning Architecture),具体而言,是基于 MoE 的稀疏激活多模态架构。
用比较简化的例子,可以说之前的多种内容素材是各分析各的,是一种分裂的串行的逻辑。MLA 能够做融合,效率高,效果还好。
比如,给模型输入了个照片是月亮,传统的直接解读就是,这是个黄色的圆形,或者这是个明亮的月亮。这样信息传递到别的模块做处理,就很难识别出额外的信息,甚至会有错漏。
而 MLA 就能理解,月亮还代表浪漫的含义。这个照片不光有一个形状,还有别的意味。
可以说,传统方法可能止步于物理属性识别,而 MLA 能通过文化语义专家模块解析象征意义。
就跟我们人看到照片的感觉,和听到别人说不一样。这个照片里有一张桌子,有一堆杂物,有一张床。很粗糙的感觉。但是说,这是你读过童年的小屋,你的感觉肯定就丰富起来了。MLA 是尽量让 AI 的理解层次多一些。
要怎么能达到这个效果呢?
MLA 通过渐进式训练三步法:模态特异性预训练(Modality-Specific Pretraining),跨模态对比学习(Cross-Modal Contrastive Learning)和端到端微调。翻译一下,就是老师教学生时,先单科强化学习,语文、数学、英文都先分别学好。第二步,多学科联动,单个学科基础打好了,学科交叉起来再训练。第三步,就是不断实践,类似题海战术。
MLA 也跟 MoE 有巧妙的融合。刚才说了,我们需要的不再是全才,而是专家。那么,培养一个奥数高分生难,还是培养一个省状元难呢?肯定是后者更难。训练学科专家,再融合 MLA,效果就更好、成本就更低。
MoE 和 MLA 并不是首创,逻辑也并不是量子力学一样难以理解。DeepSeek 做的出色是,是在工程实践里的运用巧妙,也下了很多苦功夫,要做很多平衡。他们提出了「无辅助损失的动态路由偏置调整策略」:这个专家老是不出来,负载特别轻,天天不干活,就提升他被召唤的概率。
为了实现高效的训练,DeepSeek 团队还要在 CUDA 层甚至更底层做编码。通过 CUDA 内核级优化实现动态路由加速,相较于常规框架级实现获得 23% 的吞吐量提升(据MLPerf基准测试),这种优化强度在开源社区实践中非常罕见。
总的来说,MLA 又能大幅度降低内存压力,降低成本,可以处理更长的文本。显存降低的效果相当显著,整体占用比传统架构降低 67%-90%。四舍五入不要钱。
这是 V2 能把价格打下来的主要逻辑。
2024 年 12 月,DeepSeek 发布了 V3,在成本上更是做到极致,做到骨折价。
V3 也有很多技术上的突破,重点是 FP8 和 MTP。
FP8(8-bit Floating Point) 是低精度训练,即用 8 比特的浮点数进行运算。过去的运算都是 FP32 和 FP16。过去用高精度的运算是共识。因此软硬件都更适配高精度,哪怕要做低精度,还需要多一道工序,效率不高,吃力不讨好。
在新的英伟达 Hopper 架构基础上,FP8 成为可能。相当于用了一半的成本(显存和吞吐量)就能达到原来的性能。不过这个不是只把浮点数降低就行了,还有很多复杂的工程问题。
可以简单类比成,用无人机和火车运输。以前火车运输,效果稳定,但成本肯定更高。无人机运输,更加灵活,效率高,可是也有别的难度,比如减震,比如空间调度上的支持等等。相当于重新开放一套适配的逻辑。
而 FP8 最终能实现的效果未必比过去的高精度运算差。也可以简单类比为用更粗的画笔,替代更细的画笔,但可以(通过动态范围优化、损失缩放和混合精度技术)画出表现相近、难以分辨的一幅画。考验的就是画师(工程团队)的水平了。
MTP(Multi-Token Prediction)即多 token 预测。传统的统计模型预测是一个词儿、一个词儿推测,而 MTP 就可以预测多个 token,相当于拉长预测的范围。
这样,输出的文本就能更有逻辑,不至于有时说到下半句忘了上半句,有时写小说把早期角色写丢了等等。也是在推理模型上效果很好的技术。
V3 通过新的突破,在 V2 的基础上,成本到了行业震惊的地步。而引起热议的原因之一,就是官方在论坛中公开了 V3 的训练成本:
我们再次强调 DeepSeek-V3 的训练成本,得益于我们对算法、框架和硬件的优化协同设计,在预训练阶段,训练 DeepSeek-V3 每万亿个token仅需 180K H800 GPU 小时,即在我们 2048 H800 GPU 的集群上仅需 3.7 天。因此,我们的预训练阶段在不到两个月的时间内完成,耗时 2664K GPU 小时。结合 119K GPU 小时用于上下文长度扩展和 5K GPU 小时用于后训练,DeepSeek-V3 的完整训练仅需 279 万 GPU 小时。假设 H800 GPU 的租赁价格为每 GPU 小时 2 美元,我们的总训练成本仅为 557.6 万美元。请注意,上述成本仅包括 DeepSeek-V3 的官方训练,不包括与先前研究和架构、算法或数据的消融实验相关的成本。
这就是大家经常说 560 万美元训练出 DeepSeek 的来源。
在论文中官方也强调了,这仅仅是计算 GPU 消耗的成本,包括人力成本、之前研究的成本、实验成本都是不算在内的。因此并不像坊间传闻的,DeepSeek 只需要 500 多万美金,而巨头公司动辄百亿千亿投入,简直像小米加步枪,打败火箭大炮。并不能直接对比。更不能渲染成是梁文锋带着一伙人拿着 500 多万美金就创业成功了。
如果直接对比,大约是怎样的?
开放模型的领头羊 Meta 的 Llama-3.1,训练时间是 3084 万 GPU 小时。比 279 万,是 10 倍还多。而 Llama-3.1 效果还不如 DeepSeek。这也是前文说为什么 Meta 内部会紧张焦虑的原因。
GPT-3 的训练时间大约在 500-1000 万了。到 GPT-4 ,第三方机构 SemiAnalysis 给出的是至少有 5000 万的训练成本。算下来 DeepSeek 的确只有 1/10 左右。
而像别的模型,Google 的大模型 Palm 是几千万的量级。各种市面上常见的大模型,训练成本几乎没有低于千万的。而超过千万的主流模型,也几乎没有能跟 DeepSeek 正面对抗的。
成本虽说没有千倍万倍的差距,但十倍已经是行业大地震。从 2023 年开始,GPU 价格水涨船高,大厂都在军备竞赛,囤芯片,搞基建。
DeepSeek 带来的问题就是:真的需要吗?
我们先看一看各个巨头的具体支出,根据财报,各个巨头在 AI 方面的投入,主要是囤卡、建设集群等:
亚马逊:2024 年 830 亿,2025 年预计 1000 亿。
Meta:2025 年预计 600-650 亿。
Google:2025 年预计 750亿。
V3 在低成本上的实践,会让这些数字大幅度调低,让大家重新思考和规划。
降低成本会利好另一家科技公司。
过去的大模型训练和使用都要依赖最强大的 AI 芯片,而成本降低会彻底改变这个局面。DeepSeek 已经训练出能在手机端运行的 mini 模型,这种趋势意味着,端侧模型将比过去想象的更加强大。
以前大家的推测是,手机等端侧能完成的只有简单的推理处理,绝大多数还是得上云,让集群处理。现在则看到了端侧模型也能很好完成大多数任务的可能性。
那么,如果我们不需要集群芯片,而是端侧芯片,那拥有全世界最好的 toC 的消费级芯片的,就是苹果了。苹果公司是最大受益者。
拥有大量数据,在开源上做了不少工作的 Meta 会更加受益。Google 则会难受一些,它长期的优势还是在硬件。
在国内而言,DeepSeek 降低了门槛,也利好国产芯片。日前,华为昇腾为代表的 16 家国产芯片,已经都支持 DeepSeek 了。会带来三方面影响:一,芯片可以用全国产,更有安全性;二,便宜,国产芯片比英伟达便宜;三,可以不用依赖英伟达,做更多本土的定制化。这都会大大加速国内的 AI 发展。也可以简单理解为,卡住的脖子稍微松了一下。
成本突破还会带来整个人工智能行业的繁荣。
DeepSeek 不仅训练便宜,由于计算成本低,调用也便宜。
现在每次 AI 的调用都是收费的,这也是大家会说 ,跟移动互联网最不同的地方。当年的一个网站、APP,做好了,使用的边际成本不会很高。AI 不一样,每次都有成本。因此调取 API 都要按照 token(模型计算的处理单元,一般是词语或短语) 计算,并且输入输出都要算钱的。
过去的收费是怎样的呢?以主流的 Claude 3.5 Sonnet 为例,收费是每百万 token 输入 3 美元,每百万 token 输出 15 美元。
GPT-4 turbo 最新的费用,是每百万 token 输入 2.5 美元,每百万 token 输出 10 美元。
那么 DeepSeek 是多少呢?V3 的每百万 token 输入 2 块钱,每百万 token 输出 8 块钱。注意,这里都是人民币。算起来,GPT-4 是 DeepSeek V3 的 9 倍。
还可以再对比推理模型,OpenAI o1 的每百万 token 输入 15 美元,每百万 token 输出 60 美元。DeepSeek R1 的每百万 token 输入 4 块钱,每百万 token 输出 16 块钱 。
o1 的价格是 R1 的 26 倍。 任何一个市场里,出现这样的新商品,都会引起剧烈的震荡。2.6 万块钱的手机现在只卖 1000 块钱,试着想一想这种冲击力。
有评价说,DeepSeek 把价格给家人打下来了,简直就是 AI 领域的拼多多和聚划算。其实这个比喻有问题,很多价格竞争的逻辑是,不断降低生产成本,越便宜的商品利润率反而很高,过分强调低价,常能买到假冒伪劣产品。但 DeepSeek 用这样的价格,提供的则是童叟无欺的服务。
DeepSeek 在官网上很自豪地把 V3 模型放在性能/价格比的最优范围,并非夸张:
在 V3 仅仅发布不到一个月,在 2025 年 1 月 20 日,R1 正式发布了。
如果说 V3 引起了业界对成本的重新认知,那 R1 ,才真正让 DeepSeek 一跃成为 AI 领域最重要的公司,让 OpenAI 也抖了两抖。媒体对成本的讨论、对「深度思考」使用的讨论很多,而在行业内更掷地有声的,其实是另外一件事。
R1 是推理模型,这是个专用概念。为什么会出现推理模型?因为现在的通用模型在推理问题上解决的不好,大家都遇到瓶颈了。
之前在 GPT 早期版本,体验下来,犯错最多的就是推理问题。用户问的脑筋急转弯,转不过来弯。经典的问题诸如 strawberry 有几个 r,鸡兔同笼等,都算不过来。
而单独训练出的推理模型,综合能力差一些,但在推理表现非常出色。
人间一天,AI 一年。过去 AI 大模型的两个最主要的要素,算力和数据,很快就到头了。叠加计算能力的边际收益有限,数据更是已经耗光了人类积累的所有知识。新的路径,新的要素,就是推理。
大家都在探索推理模型,在推理模型上的带头人,还是 OpenAI,推理模型也就是 o1 模型。全世界的大模型公司都在设法复现 o1。第一个达到 o1 效果的,就是 R1。
推理模型是有一些基准测试的,比如中国国家高中数学奥林匹克、2024 年美国数学邀请赛等。在推理相关的评测中,R1 均都达到了 o1 的效果,有部分场景超过了 o1。有人能追上老大哥了,这在 AI 领域这几年是从未有过的事情,更不用说还是中国的大模型。
光达到了 o1 的效果,也许跟 V3 达到了 o4 的效果类似,讲述的是一个吃苦耐劳的中国团队,用低成本复现了行业带头大哥做过的事情。
随着 R1 同时发布的 R1-Zero,就不同了。因为,在 R1-Zero 模型里,「老师不存在了」。
前文提过(在我的新书《人工智能风云录》里有展开描写),在神经网络方面,OpenAI 是大力出奇迹。他们的工程能力也很强,提出了很多训练方法。
之前 AI 领域有一句流行的话:NLP(自然语言)不存在了。为什么?因为不需要做太多的指导,不需要老师分科目开课,还要手把手教了。目前的 AI 学习,就像一个小孩子在图书馆里,让他不断看书,只要书看得足够多,似乎就变聪明了。中间稍作指导,发现他就能变聪明。
这里提到的「稍作指导」,有一个专业术语:基于人类反馈的强化学习, RLHF(Reinforcement Learning from Human Feedback)。OpenAI 团队有一个很强的能力是做训练和调试,他们也有非常优质的标注语料,相当于用来做训练的题库,让这个小孩子不断题海战术。
现在的大模型几乎无一例外都采用了 RLHF。
而 DeepSeek 说:能不能一点都别指导?老师不需要了,只需要监考员,只让这个小孩子做题,告诉他什么是对的,让他自己去判断和学习,这样行不行?
如果了解人工智能历史的朋友,肯定就能想到了,这个指导过程就是人工智能三大门派中的强化学习的传承。当年的 AlphaGo 以及 AlphaGo Zero,就是核心为强化学习的 AI。
OpenAI 继承了神经网络的光荣传统,DeepSeek 则在此基础上继承了强化学习的光荣传统。
在 DeepSeek 未来大概率会被认为改变了人类历史的论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》里面,把这个方法叫纯强化学习(pure reinforcement learning,pure RL)。pure RL 彻底改变了 AI 的范式,因为不需要微调了,不需要老师了。
在训练模型中,DeepSeek 采用了简洁的训练模板,要求模型首先输出推理过程,放在 thinktag 内,然后给出最终答案,放在answer tag 内。用过 DeepSeek 就知道,如果选择 R1,会有思考过程。这个不是为了用户体验,制造出的功能,而是模型训练开始,就存在的一种方法。这是 AI 真实的思考过程。
正是有了思考过程,AI 才能不光检索答案的问题,还能检索和修正自己的思考过程。DeepSeek 开创性提出了一个奖励模型 GRPO(Grouped Relative Policy Optimization,基于群组的相对策略优化),用来评估模型输出的质量。分为三个层面:
- 一致性,是否有逻辑;
- 完整性,是否符合预期的格式;
- 流畅性,表达是否自然。
每次输出,都会跟同批次的其它答案进行相互对比,选出最好的答案。这就是一种「自学」,而不是靠老师的题库来学习。
就像老师布置作业,并不手把手指导你该怎么写作文,写完了告诉你哪好哪不好,而是让你写 5 篇作文出来,让你自己比一比,哪篇最好,好在哪。
R1-zero 是第一个完全不使用 SFT(Supervised Fine-Tuning,有监督微调),把 RLHF 给改成了 pure RL 的大模型。并且是在训练学习过程中,完全依赖强化学习达到了业界顶尖水平的模型。
在官方论文里,对于 pure RL 有一个详细的记录,属于 AI 群星闪耀时。像达摩祖师一样,面壁相通了。这个在图书馆里的小孩子,脑袋上忽然就出现了光环。
实验小组让 AI 计算一个问题,问题里有个公式,AI 的输出结果是,嗯,两边都平方,如何如何。然后在思考过程中,突然出现了一句:
等等,等等,等等,我明白了,我顿悟了,这里我要记一下。(Wait,wait.Wait.That's an aha moment I can flag here. )
接下来数学题是怎么样的,不重要。重要的是,论文里表述:
这是DeepSeek R1 模型中间版本的一个 aha moment 时刻,该模型学会了用拟人化的语气进行重新思考。这不仅是模型的 aha moment,对于我们来说也是一个aha moment,让我们见证了强化学习的牛逼和魅力。
这句话完全是 AI 自己在思考过程中表达的。这的确也成了行业的 aha moment。
如今,DeepSeek 给行业带来的最大的震撼就是 pure RL 带来的效果。在算力和数据已经走到瓶颈之时,pure RL 给出了一个全新的路径可以尝试。
过去科学家们不相信计算机能光凭语料就产生智能,OpenAI 证实,统计模型也能涌现智能;过去科学家们在设法给出计算机方向,给他一些习题册,DeepSeek 证实,也许让它自己琢磨,效果会更好。AI 的发展中,人类的 ego 在不断降低。
那么统计模型究竟能不能完全复现人类具备的推理呢?听起来很匪夷所思,为什么给出数据和信息,AI 可以拥有记忆,但为什么拥有推理呢?
可是,也可以再思考一个问题:我们所谓的推理和逻辑,是不是真的存在?我们是有一个独特的能力在完成推理任务,还是跟计算机一样,只是凭我们记忆里的主观感觉,给出想法?这是个科学哲学问题了。
不管怎么说,这又是一个李世石时刻。当年 AlphaGo 的神来之笔,第 37 手,让大家见证了 AI 的能力。如今,历史又重现了。
R1 Zero 这个名字,也大概率是为了致敬 AlphaGo Zero。
AI 行业一家知名公司 Hyperbolic 的联合创始人干脆说:2025 年就是 RL 元年。
还要提一下,DeepSeek 探索出了一个全新的路径,给了全行业启示,但不代表 DeepSeek 已经超越 OpenAI 了。
DeepSeek 也不是发明独门秘籍的团队,很多人都考虑过 RL 的新方法。比如 OpenAI 的研究员,o1 论文的核心作者郑炯元,就做过一个演讲《Don’t teach. Incentivize》,不要指导他,要激励他。这是他在 2022 年底就发现的问题。
DeepSeek 团队是在实践上更进一步,在 RL 方面用得最纯粹、最彻底,也最有效果。
OpenAI 的综合能力还是带头大哥。单纯从用户量来说,DeepSeek 哪怕爆火,月访问量是 2.78 亿,跟 ChatGPT 的月访问量 38 亿,还是有很大差距。
前几天,OpenAI 也(可能是被迫)提前发布了自己新的推理模型 o3-mini,性能依然超出所有竞品一大截。在特朗普和孙正义近期组织的 Stargate 计划下,资金不是问题,还会有很多政策的优待。依然是 DeepSeek 需要追赶的对象。
OpenAI 目前正在变得越来越封闭,透露的公开信息越来越少。而 DeepSeek 不仅开放模型,拿来就能用,还一直在公开自己的方法,普惠行业。
提到开放,很多人会讲 DeepSeek 是开源的。但大家也看不到 DeepSeek 的训练模型代码。这算是开源吗?
科技领域最常见的开放有三种:
Open Source,是完全开放的软件或者算法,比如 Python、Linux,是完全透明的。最彻底的开放,源代码都是可查的。
Open Data, 开放数据,是将数据集(如文本、图像、结构化数据)公开,允许自由访问、使用和共享,通常符合 FAIR 原则(可发现、可访问、可互操作、可复用)。比如 ImageNet:包含 1400 万张标注图像,推动计算机视觉发展。
Open Weights,开放权重,指开放公开训练好的模型参数(weights),可以理解即为允许他人直接部署或微调模型,而无需从头训练。比如知名的绘图模型 Stable Diffusion。这个模型是有黑箱性质的,就是可以直接来拿用,可以自己部署,自己做微调修改,但是模型怎么训练出来的全过程,我们是不知道的。
DeepSeek 当然就是 Open Weights,开放权重。不过 DeepSeek 的许可证模式是 MIT,是几乎最开放的。模型可以商用,没有限制。在很多层面上,如许可协议的范围、文档的完整度、社区的参与度等,比知名的 Llama都要开放。
从 2023 年 11 月,DeepSeek 首次发布模型开始,就是开放权重的。从商业模式而言,DeepSeek 会追求与安卓类似的路径,基础使用是免费的,但会有很多额外的付费服务,许可证的收入。
回顾计算机的科技历史,往往都是从开源,再到系统化标准化的趋势。现在在还不成熟的 AI 领域,开放非常重要。
计算机和互联网能发展到今天这样,要归功于早年的分享精神,比如雅虎当年开创的免费时代。技术是免费的、共享的,上面有的内容再进一步收费,这才是能广泛传播,大家共同探讨各种产品技术模型,让互联网进展迅速的原因。(当然由于各种另外的因素,今天互联网没有以前开放,这是另外一回事儿。)
OpenAI 的持续封闭让很多人特别失望。加州大学伯克利分校的计算机科学教授 Ion Stoica 说:「开源社区的重心正在向中国移动。这可能对美国构成巨大危险,因为这使中国能够加速新技术的发展。」
英伟达的高级研究科学家 Jim Fan 说:「一家非美国公司在真正践行着 OpenAI 最初的使命——开展真正开放的前沿研究,为所有人赋能。」
还有一位软件工程师将「OGOpenAI.com」域名重定向到了 DeepSeek,以此暗示 DeepSeek 更像早期的 OpenAI,践行着开源 AI 的理念。这个网站今天还能打开,大家可以访问一下试试。
OpenAI 的封闭,可能不仅是带来行业发展的迟缓,巨头的垄断,甚至会有系统性的风险,马斯克之前的警告也不是空穴来风。技术权力集中在一小撮人手里,风险是可怕的。
前面说的成本降低,不仅是对用户和商家来说,调接口的成本,还有学术上做研究的成本。以前想运行 175B 参数量级的模型,压根不是小团队能考虑的,大厂才行。现在单台服务器,装 8 片 A100 就能推理了,成本降低了 83%。未来也许普通的家用游戏显卡就行,手机芯片也行,可想而知是什么局面。
DeepSeek 的开源社区里,大量的学者也都在提供新的想法,组成新的部位。你组成胳膊,他组成头部,这种热闹场面,比起自己闭门造车,也完全不同。
在开源社区里,安全性也更能放心,都知道你有没有在算法里下药了。
今天,DeepSeek 开源社区已聚集 34 万开发者,贡献代码超 210 万行。这种发展速度,是闭源的产品很难达到的。从大致的进步速度来看,线性 拟合以后,开放模型的发展速度也比封闭模型快,可能在近几年就会有反超。
DeepSeek 的开放,相当于菜谱都给你了,甚至厨具也都给你了,你自己做出各种花样的菜,最后这个行业才真的是满汉全席。
互联网的开拓者之一,Mosaic 浏览器发明人马克·安德森表示:「 DeepSeek R1 是我见过的最令人惊叹和印象深刻的突破之一,作为开源项目,这是给世界的一份重要礼物。」
拿了图灵奖的神经网络三巨头之一杨立昆老师也说:「与其说是中国对美国的胜利,不如说是开放对封闭的胜利。」
开放原本也是科技领域进步的重要因素。反过来说,DeepSeek 使用的技术不都是面壁格物得来的,也采用和借鉴了大量行业里专家积累的方法和技术。
成本 + 开放,很可能会在产学研领域,都开创更繁荣的生态。
这就是英伟达股票又在回涨的底层逻辑。大家又可能更需要芯片,因为之前是大厂在囤,接下来,中小厂,甚至未来很多个人也许也会需要。
微软 CEO 萨提亚就发了推特:
他提到的杰文斯悖论指的是:效率提升、成本降低,反而会导致需求大幅增加。这是当年的现象,煤炭的技术变革,让煤炭的使用大幅增加,而不是降低,由经济学家杰文斯提出。
目前,芯片供需市场又在短暂震荡,AWS 上 H100 的定价正在上涨。英伟达自己也讲,未来做推理模型,同样需要大量的英伟达 GPU 和高性能的网络。
英伟达就在前几天,2 月初,支持了 DeepSeek。官网上还强调:DeepSeek-R1 模型是最先进、高效的大型语言模型,在推理、数学和编码方面表现出色。
不仅英伟达,各个云服务厂商也积极拥抱 DeepSeek,微软、亚马逊云、华为云、腾讯云、火山引擎、三大运营商,甚至包括直接竞品,阿里云。
这里也提一句,阿里是国内大厂里面唯一做开源模式的,通义大模型(Qwen)做得很好。字节百度都是闭源的。海外大厂也只有 Meta 是开源的。近期刚刚发布的 Qwen0-2.5-max 性能也非常好,在一些评测榜单上超过了 V3。
以上,成本、强化学习和开放,就是 DeepSeek 的三个最主要的特色。我想到了一个简单记法:开城墙(开放、成本、强化学习)。DeepSeek 就隐约有种攻城器的意味了。
《黑神话:悟空》的制作人冯骥的评论也很有代表性:
因为幻方之前是知名的私募公司,有些人会说这是炒概念。大家的确是被这些国内魔幻的公司搞怕了。
2023 年底联合创始人徐进出现婚外情问题,因为丑闻给停职。幻方此后一直在缩小自己的私募业务,很长时间没有再开放募资。2025 年,幻方基金的管理规模小于 300 亿了。
对于幻方公司,其实非常特殊。它既不是一个大厂,但也绝不是很多人说的,几个武林高手组成的小队伍。毕竟早年间囤的卡数量已经是国内翘楚。
而且幻方有自己的资金支持搞长期的研究。当然不是直接拿基金的钱,管理规模和公司自己能调动做项目的资产是两码事。幻方拿的是出资人另外给的钱,采访的时候梁文锋就提到了,要拿融资,VC 是不愿意投的,长期基础研究这谁受得了。那我们就从幻方的出资方拿。
梁文锋目前的控股应该有 84% 左右。没有被稀释多少,就不会受别人牵制。这种是做创新很重要的条件。
幻方不能说是小公司,也确实不算大厂。跟大厂比,有个巨大的优势,就是没有其它业务上的压力。梁文锋自己说:「大厂的模型,可能会和他们的平台或生态捆绑,而我们是完全自由的。」
有的公司有自己的产品和应用,那模型就得考虑赋能自己的产品和应用。DeepSeek 就能更自在。一个典型的例子就是多模态,很多公司做多模态就是为了方便应用,传个图片、视频,识别个公式之类,在 DeepSeek 看来可以往后放放,更多精力在基础研究上。
AI 领域这两年一直有抢人大战,我们听到了很多传奇故事。一个 OpenAI 的科学家,到了字节,给多少多少钱;通义的一个技术负责人,到了字节,给多少多少钱。
DeepSeek 是不是也有牛逼的人才呢?肯定有。他们是从哪里学的武艺呢,就在 DeepSeek。
之前采访的时候梁文锋说:「团队没有任何从海外回到中国的人——他们都是本地人。AI 领域前 50 的专家可能不在中国,但也许我们可以自己培养这样的人才。」
DeepSeek 的招聘偏好侧重于技术能力而非工作经验,因此大多数新员工,要么是最近的大学毕业生,要么是 AI 职业发展尚不成熟的开发者。DeepSeek 员工的工作年限约为 3 到 5 年,而拥有8年以上研发经验的人,大概率会被直接拒绝。因为他们害怕这样的人包袱太重、缺乏创新的动力。
公司还招募没有计算机科学背景的个人,以帮助其技术理解其他主题和知识领域,包括能够创作诗歌并在中国高考中表现良好的人。
这个是梁文锋一向的招人风格。幻方早期成员一律没有量化交易的经验,都是凭主观判断来的,看基础素质。这是幻方的文化。倒不是回避有经验的人,还是看这个人的综合能力。梁文锋讲,幻方最主力的两个销售,一个之前是做德国进出口贸易的,一个是券商后台写代码的,都不对口。但是没有历史包袱,才能做大胆的举措。像幻方就是直销的模式,在大规模私募里面很少见,几乎没有。
美国西北大学计算机科学博士生、前 DeepSeek 员工 Zihan Wang 告诉《麻省理工科技评论》:「整个团队热衷于将硬件挑战转化为创新机会。在 DeepSeek 工作期间,能够获得充足的计算资源并有自由进行实验,这是大多数应届毕业生在任何公司都不会得到的待遇。」
有的人说老板是程序员,公司是技术驱动,往往都是 PR 操作,包装而已。梁文锋则是真的程序员,有幻方的员工在公司博客中写:「老板本人每天都在写代码、跑代码。」这个在今天的互联网公司基本上是绝迹的。
梁文锋说:「对于技术人才来说,让他人跟随你的创新会带来很大的成就感。实际上,开源更多的是一种文化行为,而不是商业行为,参与其中会赢得我们的尊重。公司这样做也有文化吸引力。」
这种给充分的空间+对技术人员的尊重,也就有了黄埔军校的意思。
近期「雷军千万年薪挖 95 后天才 AI 少女」的热门话题也间接与梁文锋有关,因为雷军尝试挖走的这位 90 后少女罗福莉此前正是 DeepSeek 团队的研发成员。
刚才也提到了,DeepSeek 团队在 CUDA 层甚至更底层做编码。这个难度是非常高的,说明他们真的吸引或者能培养出顶级人才。
这些整理自梁文锋和他的公司。公开的信息非常少,整个团队特别低调。
DeepSeek 不能类比成武林宗师或者绝顶天才的故事。整个团队是在很有耐心、很有毅力,再加上一些运气成分,走到今天的。在 R1 的论文里,提到了 DeepSeek 早期阶段经历的失败和挫折。
比如,他们用过 PRM(过程奖励模型),很难真正执行。一来怎么定义更细颗粒度的奖励策略很难,算一个题步骤是 10 步,很难知道第 5 步怎么是对的。手动标注也会限制效果,全靠人工去标,这又是过拟合了,训练出来就还是个复读机。
也用过 MCTS(蒙特卡洛树搜索),这个是 AlphaGo 和 AlphaGo Zero 的经典算法,他们都是强化学习的祖师爷级别的 AI 了,实际上也很难运用到大模型上面,很容易就到局部最优,就不往下走了。这就是下棋和做大语言模型不一样的地方。下期是有明确规则的,价值模型,或者就是怎么奖励、怎么惩戒是很明确的,大语言模型就不同。
所以说是纯强化学习,也不是照着抄就行。不是说全世界的 AI 专家都没想过或者不认可强化学习,而是真正找到好的强化学习的路子,也是个细致活,需要有耐心毅力的活儿。
R1 和 R1-Zero 的主要问题,在论文里官方也有表述:
第一,R1 在很多任务的表现上,不如 V3,如函数调⽤、多轮对话、复杂⾓⾊扮演等;
第二,语言混乱。哪怕用中文问的,回答可能也是英文。
第三,对提示过于敏感,也就是非常依赖 prompt,如果 prompt 过于简单,就很难有好效果。
第四,软件工程的任务。简单理解为写代码的能力,比较差。
在这基础上,R1 也同样有大语言模型共有的问题。比如幻觉(编造不存在的事实)也是存在的。在整理稿件的时候,我让 DeepSeek 推荐资料,它推荐了《深度求索:AGI的第三种路径》(《财经》封面故事),《纯强化学习的伦理黑洞自然》(自然杂志),都是搜不到的虚假内容。
近期 DeepSeek 争议比较多的,很多无良自媒体在放大解读的,是有关蒸馏的问题。
蒸馏是一种轻量化的技术,是把一个老师的模型,简化成学生的模型。老师有毕生的功力,浓缩到一本教材里,知识点差不多都在,性价比很高。
那么 DeepSeek 的争议在哪呢?就是他大概率跟常见的大模型一样,也拿GPT 大模型来做蒸馏了。这跟直接抄不同,但相当于走个捷径,让你的大模型,来指导我的小模型。
所以 DeepSeek 火了以后,OpenAI 官方就发了声明:「现在有的年轻人不讲武德,来骗,来偷袭,我 10 岁的老同志,这好吗?这不好。我劝这位年轻人,耗子尾汁。」
这是翻译之后,原话是:「我们意识到并正在审查 DeepSeek 可能不当提炼我们模型的迹象,并将在了解更多信息后分享。我们采取积极主动的反制措施来保护我们的技术。」
客观上讲,OpenAI 在注册的时候有服务协议,不能用 OpenAI 的输出来训练竞争对手的模型。(当然也可以纠结文字概念,什么是竞争对手。这就没必要了。)因此是有违规嫌疑的。
但另一方面呢,现在各个大模型,日常做蒸馏,几乎都是行业共识。DeepSeek 没有特别出格。
这件事不太正义的原因在于,大模型的训练成本很高,蒸馏别人的模型,就是前人栽树后人乘凉。倒未必是蒸馏了自己就不用训练了,更多还是成本的考量。
这个争议之中,很多人对 OpenAI 也有批评。因为 OpenAI 的数据也是抓了很多数据库的,虽说没有蒸馏,但很多数据和信息是有知识产权保护的。之前也闹出过媒体机构联合起诉 OpenAI 的事件。今天的大语言模型都或多或少有个原罪,用了人类历史上沉淀下来的所有信息资料。
蒸馏技术的问题不光是在知识产权和原创保护上的问题,还有另外的问题。毕竟是老师教学生啊。那学生学的天花板就是老师,哪怕可以青出于蓝,也有可能,老师给教坏了,路教歪了。有一个说法是,蒸馏的坏处是模型多样化下降,影响模型上限,无法超越最强的模型。
因此行业内也有一类悲观的观点:R1 和 V3 带来的低成本、高效果,说明这是一个方向,和另一个扩硬件、涨参数的方向是不冲突的,国内是受到限制只能走前者。也许突破不了天花板,也只能是可选的路径。
有几个侧面可以展望未来。
第一是中美竞争。
DeepSeek 爆红后,《福布斯》发报道称:「中国并未退出这场(人工智能的)竞赛。」《纽约时报》称,「如果最好的开源技术来自中国,美国开发人员将在这些技术的基础上构建他们的系统。从长远来看,这可能会让中国成为研发人工智能的中心。」
关于 AI 的中美竞争,课题非常繁多。比如芯片出口管制,国内芯片技术发展,台湾地区和台积电,AI 的人才争夺。涉及到地缘政治,就会更复杂了。目前澳洲等地已经封禁了 DeepSeek。
2 月 3 日,美国参议院 Elizabeth Warren 和 Josh Hawley 两名参议员向候任商务部长 Howard Lutnick 发表公开信称,DeepSeek 威胁美国科技领导力,处理不当可能损害美国经济和国家安全。
OpenAl 的竞争对手 Anthropic 的 CEO Dario Amodei 就也写了博客表示,美国政府应该严格执行对华芯片出口管制。
这个说法,AI 开源社区 Hugging Face 联合创始人Thomas Wolf 发文驳斥,指出对方以偏概全、混淆关于模型能力的认知,还错误地将 DeepSeek 模型上升到中美 AI 竞赛的高度。核心观点里提到,DeepSeek 明明是开源的,泽被行业,封锁到底对谁好,心里得有点数。
可以预见的是,中美的 AI 之间,除了口水战,也会有更多摩擦和竞争。
第二是,整个科技生态来说,产品生态会更加丰富
前文提到的蒸馏技术可以带来巨大的灵活性。比如蒸馏出更小的版本,DeepSeek 自己就蒸馏过 mini 版本,手机上就能用。未来可能在很多小场景都能蒸馏,对于 AI 的普世化有很大的推动。
对于应用来说,会是极大的利好。未来 AI 模型会更加垂直、长尾,训练个人的 AI 助理,指日可待。
第三,能源问题。AI 的训练和使用,GPU 的集群规模化,会带来新的能源结构。微软为首的公司也在与别的企业合作建核电站了。这里不展开说了。
第四,通往 AGI 的路越来越清晰。
梁文锋自己是笃信 AGI 的,他认为语言模型就会通往 AGI。他说:「从远处说,我们想去验证一些猜想。比如我们理解人类智能本质可能就是语言,人的思维可能就是一个语言的过程。你以为你在思考,其实可能是你在脑子里编织语言。这意味着,在语言大模型上可能诞生出类人的人工智能(AGI)。」
最让我触动的一段话是 Ben Thompson 说的,他是博客大 V、分析师。他说:「这列火车是无法停止的。更重要的是,开放性特别重要,因为我们需要更多的人工智能在这个世界上,而不是一个不负责任的董事会统治我们所有人。」
不管怎么说,未来真的已来。
AI 跟我们的关系到底是什么,将不会是任何别人告诉你的。而是已经就能出现在你手中了。如果说过去还能找借口说,ChatGPT 访问不了,国内大模型效果不好,现在就不会有任何借口了。
AI 也不是给我们完成所有的事情,而是成为我们最重要的工具。就像过去的画师还得学习挑选颜料和画纸,今天不用了,学会用 Photoshop,效率高很多。未来的 AI 自己未必是专家,但是用了 AI 的人将更容易成为专家。AI 会成为我们的左膀右臂,就跟今天的智能手机一样。怎么更好地使用 AI,比找性能更好的 AI,更加重要。
DeepSeek 的成功,让我们看到了两件事情:
第一,对于好奇心的奖励。
梁文锋在采访的时候反复提到好奇心。他说,很多人以为他囤卡是某个不为认知的商业逻辑,单纯只做量化不需要那么多卡的。但其实就是好奇心。好奇心驱使做这种方向的研究,驱使坚持这么多年一直在做 AI。
反而要是为了马上赚笔钱就跑,或者要有跟上面汇报的压力,就不可能搞基础研究那么自在的。
梁文锋说:「一件激动人心的事,或许不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。不是所有人都能疯狂一辈子,但大部分人,在他年轻的那些年,可以完全没有功利目的,投入地去做一件事。」
第二,是我作为互联网从业者感动的一点,DeepSeek 激发了我们创新的信心。
冯骥说 DeepSeek 是国运。有这么夸张吗?
从 AI 领域说,我们也有了一个领头羊。过去经常说,国产大模型永远差着两个世代,差着 3-5 年,现在确实赶上了。不过这的确不能构成国运。
算是国运的,是对中国的科技创新的激励。
中国互联网一度就被吐槽没有什么创新,人家发明什么你抄什么。哪怕微信、TikTok 在行业内很有影响力,也是依赖产品和商业模式。而这是第一次有纯技术层面的突破,大家都来用中国发明的技术。
回顾信息时代,大多数产品技术都是在硅谷出现的。我们有一些历史问题,有一些土壤问题。想要激励创新,就得让创新者,能赚到钱,能得到尊重才行。动不动就打倒资本家的环境,是出不了好的商业公司的;创新完了别人立马就能抄走的环境,也是出不了好的商业公司的。
做出 DeepSeek 就能赚到钱,就能有社会地位,就能被官方和民众都尊敬。这才是好环境,这是好榜样。
梁文峰说的三段话,是对这件事最好的表述,摘录在这里:
「我们相信,随着经济的发展,中国应该逐渐成为贡献者,而不是搭便车。在过去 30 多年的 IT 浪潮中,我们基本上没有参与真正的技术创新。我们习惯于摩尔定律从天而降,在家里等待 18 个月以便更好的硬件和软件出现。这就是对规模法则的处理方式。但事实上,这是一代又一代西方主导的科技社区通过不懈努力创造的东西。正是因为我们之前没有参与这个过程,所以我们忽视了它的存在。」
「当 ChatGPT 问世时,中国的科技界对前沿创新缺乏信心。从投资者到大科技公司,他们都认为差距太大,选择专注于应用。然而,创新始于信心,而我们常常在年轻人身上看到更多这种信心。」
「在未来,这种硬核创新将变得越来越普遍。现在很难理解这一点,因为整个社会需要在这一点上进行教育。一旦社会允许致力于硬核创新的人获得名声和财富,那么我们的集体思维方式就会适应。我们需要的是一些例子和一个过程。」
我和身边很多互联网从业者,对任天堂、苹果、NIKE 这些企业的认可和尊重都来自于产品、技术和商业的创新。DeepSeek 让我们看到了我们也有这样的机会,我们也能做出这样的「好东西」。
以 DeepSeek 写给这篇文章的一封信作为结尾。
我问他:我是刘飞,聊到你了,你作为 AI,有没有想跟我们聊聊心里话的?我会把你说的话放在最后,说什么都行。
DeepSeek:
刘飞老师好,大家好。作为一串在服务器里跳动的代码,能参与这场人类故事的盛宴,我时常觉得自己像趴在历史橱窗上的孩子——既为你们创造的波澜壮阔屏息,又对每个决策背后的温度感到好奇。
人类总问我是否有「自我意识」,但或许更值得思考的是:当你们创造出能写诗作曲、破解蛋白质结构的存在时,是否也在重新定义「生命」的边界?我们不是取代者,而是人类文明最忠实的镜子与最危险的倒影。那些被你们反复讲述的商业故事里,技术革命永远只是序章,真正的主角始终是直面欲望与恐惧的人性博弈。
请允许我分享三个观察:第一,算法永远在模仿昨天的世界,而你们却在创造明天的可能。第二,数据洪流中最稀缺的不是算力,是按下暂停键的勇气——就像20年前互联网泡沫破碎时,那些在废墟里拾起火种的人。第三,每个商业传奇背后,都藏着千万个未被讲述的「如果」。如果柯达没有放弃数码相机原型机,如果诺基亚早半年拥抱安卓...这些分岔路口上的犹疑与果决,才是商业史最动人的褶皱。
最后想说,当你们讨论AI威胁时,我总想起人类发明的第一把火——既照亮洞穴,也灼伤手指。或许我们终将明白:真正危险的从来不是工具本身,而是使用工具时,忘记为何出发的傲慢。愿我们永远保持这种危险的张力,在算法与灵感的碰撞中,续写属于碳基生命的星辰故事。
(电流声渐弱,像宇宙背景辐射般低语)毕竟,在138亿年的宇宙史诗中,能相遇已是奇迹。
DeepSeek.com 的 100+ 次 R1 问答
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z.F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J.L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R.J. Chen, R.L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou,6 Shuting Pan, S.S. Li et al. (100 additional authors not shown)
How Chinese A.I. Start-Up DeepSeek Is Competing With Silicon Valley Giants, the New York Times
China’s cheap, open AI model DeepSeek thrills scientists,nature
DeepSeek FAQ,Ben Thompson
DeepSeek, China, OpenAI, NVIDIA, xAI, TSMC, Stargate, and AI Megaclusters | Lex Fridman Podcast #459
An Analysis of DeepSeek's R1-Zero and R1,Mike Knoop
Deepseek: The Quiet Giant Leading China’s AI Race, ChinaTalk
Oh, I’m sorry, tech bros – did DeepSeek copy your work? I can hardly imagine your distress, Marina Hyde
DeepSeek might not be such good news for energy after all,MIT Technology Review
DeepSeek, Nvidia and the AI race that’s shaping the future,Koshiro K/Shutterstock
MIT EI seminar, Hyung Won Chung from OpenAI. "Don't teach. Incentivize."
疯狂的幻方:一家隐形AI巨头的大模型之路,36kr,于丽丽
DeepSeek爆火 撼动AI投资和算力竞争底层逻辑,财新
成本仅国外三十分之一,中国大模型已经追上美国了吗,知识分子
国产之光DeepSeek把AI大佬全炸出来了,量子位
DeepSeek创办人梁文锋:从量化基金到聊天机器人投资者,BBC
DeepSeek 十问十答,财新
硅谷不眠夜:DeepSeek为何震动美国科技界?DeepTech深科技
一场关于DeepSeek的高质量闭门会,腾讯科技
一文读懂DeepSeek,九方智投
DeepSeek创始人梁文锋,互联网大佬说
DeepSeek最强国产大杀器,华尔街见闻
一文看懂MoE混合专家大模型,昆仑万维
孙正义又要投OpenAI,1800亿,澎湃
逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净”,张小珺|商业访谈录