“百模乱世”出枭雄,Deepseek何以一鸣惊人?
1 天前 / 阅读约13分钟
来源:36kr
Deepseek V3创新低成本AI模型,助力行业发展。

从最初对算力的盲目崇拜,到如今深挖算法架构与数据质量,配合成熟商业模式的思考,背后逻辑也正逐步“化繁为简”。

随着模型参数的急剧膨胀,训练成本水涨船高,成为行业内多数企业亟待解决的难题,也频频传出有创业团队折戟沉沙的“谣言”。

2024年的尾声,12月26日晚,Deepseek V3的上线曾给这一困境带来过新的希望。

拥有惊人的6710亿参数、14.8万亿高质量token的Deepseek V3,不仅在性能上令人瞩目,更以仅557.6万美元的训练成本和280万个GPU小时的计算需求,成功实现了与现有顶尖模型的竞争,甚至在能效上遥遥领先。

据悉,12月,DeepSeek惊人增长164%,访问量达1180万次。

这一突破性的进展背后,究竟隐藏着哪些技术创新与战略布局?是否可以解决大家的成本困境?

其中的主角DeepSeek,曾一举打破token价格池,又再次展现出低成本高效能的双重奏,是一家什么样的公司?

从草根到明星:Deepseek的起源

要理解Deepseek 的崛起,必须从其“母体”幻方量化说起。

2012年,幻方量化正式成立,一头扎进了量化投资蓝海。

它擅长用海量数据来“捕捉”资本市场的波动,通过机器学习与高频交易策略的结合,在市场里如鱼得水。

量化公司的核心优势之一,在于处理海量数据与高效运算的能力。

与普通投资机构相比,幻方量化对硬件的需求更加严苛:为保障从海量数据中迅速挖掘市场机会,他们不仅要与时间赛跑,更要与算力“掰手腕”。

也正是在这一点上,幻方量化展现出了“不差钱”的一面:先后投资超2亿元打造了“萤火一号”深度学习训练平台,搭载了1100 块 GPU;随后又斥资10 亿元升级到“萤火二号”,让GPU数量飙升至1万张英伟达 A100。

这台“算力巨兽”不仅用于量化交易,也为幻方量化向 AI 领域进一步渗透提供了坚实后盾。

雄厚的硬件投入不但在金融圈显示出惊人效益,也为后来的大模型研发埋下了关键伏笔。

也是除了互联网大厂外,举止可数的富裕“玩家”,强支撑了幻方量化以及后来的Deepseek在人工智能领域大规模研究与创新。

初始模型发布:Deepseek的诞生

有了底层硬件做支撑,幻方量化在内部孵化出一个小而精的AI部门。

这个团队由核心技术骨干梁文锋带领,他在量化金融与机器学习领域耕耘多年,在同僚眼中是个“既懂金融又懂AI”的全才。

2020年,为了更集中地研发AI大模型,梁文锋决定将这支团队独立出来,正式创办了Deepseek,标志着梁文锋和他的团队正式踏上了探索 AI 基础技术的新征程。

一切从零开始时,总是带着几分懵懂与热血。

彼时,AI 大模型尚处于“算力为王”的阶段,许多巨头都在加速“参数内卷”。

Deepseek 则没有盲目跟风:他们的第一款产品 DeepSeekCoder(2023年11月2日发布),主要定位于开发者工具和基础的商业应用。

尽管没有引起特别大的轰动,但它为Deepseek在数据收集、算法打磨及团队磨合上埋下了“更进一步”的潜能。

就这样,Deepseek以一种“慢火煲汤”的方式,稳扎稳打地走到了台前。

这个阶段,最关键的策略在于:把底层数据和算法路线夯实,再利用幻方量化的资源搭建算力基础,为后续升级迭代打下牢固根基。

开源策略:孤注一掷or先人一步?

2024年,对于 Deepseek 来说是一个“高光之年”。

这一年,许多大模型厂商都在紧锣密鼓地进行商业化布局,生怕错过风口。而Deepseek却选择了一条近乎“叛逆”的道路——坚定地走开源路线。

在很多投资人眼里,开源意味着失去对模型的完全掌控,也意味着短期盈利不明朗。

Deepseek的团队认为,AI大模型的竞争并非只在“封闭花园”里厮杀;相反,开源可以吸引更多优秀的研究者、开发者参与进来,形成一种“你中有我、我中有你”的社区氛围。

在他们看来,“先把模型开放给社区,形成口碑与技术生态,再进一步构建商业场景”才是更适合Deepseek的成长模式。

后来的事实证明了它的价值:得社区者得天下。

许多技术博主与开发者默契地成为Deepseek的“自来水”。

社交网络、技术沙龙以及各种论坛上热情分享自己的测试体验与二次开发心得,也为Deepseek 贡献了大量实用的改进意见。

单从这一点看,Deepseek 的品牌影响力已悄然攀升。

Deepseek-R1-Lite点燃舆论热度的“预演”

时间回到2024年11月20日,Deepseek 发布了Deepseek-R1-Lite预览版。

这个模型在强化学习方面的技术突破相当引人注目,尤其在复杂的数学、代码生成和逻辑推理场景中,表现出堪比国际顶尖模型的水平。

不少开发者惊呼:“没想到一支相对‘默默无闻’的团队,能在大模型里杀出一条‘奇兵路’。”

“R1-Lite”的成功,让更多人把目光聚焦到Deepseek身上。借助社区的热情与口口相传,这家年轻公司在短短一个月里访问量飙升至1180万次,环比增长164%。

同时,也酝酿出Deepseek 的下一次“王炸”——DeepseekV3。

“大而不贵”:6710亿参数的震撼

2024年12月26日,Deepseek 正式发布了 Deepseek V3。当大家打开其技术报告时,最先被吸引的便是那“惊人的数字”:6710亿模型参数,同时训练数据规模更是达到14.8万亿tokens。

仅看参数量,DeepseekV3的体量已逼近或超越主流巨头的同级别大模型。

最令业界震动的还不是庞大的参数规模,而是其“低成本”。

在公认算力紧缺、训练动辄花费数千万美元的当下,DeepseekV3仅以557.6万美元完成训练,总计280万个GPU小时。

这一份在业内看来颇具“性价比”的数据,迅速在技术圈与社交媒体上成为热门话题。

“他们是怎么做到的?”很多人难掩惊诧。

架构创新:稀疏MoE与FP8混合精度的协奏

不靠砸钱取胜,很多路其实可以走得更巧妙。

在DeepseekV3的技术白皮书中,提到的关键架构创新是采用了稀疏的Mixture of Experts(MoE)。

简单来说,MoE并非让所有参数在每次前向传播和后向传播都“全员出动”,而是只激活5%~10%的“专家网络”,大幅降低大模型训练的算力需求。

对于Deepseek V3这样高达 6710 亿参数级别的庞然大物而言,你可以把MoE架构想象成一个“隐形刹车”,需要加速的地方精准发力,在可以省电的地方灵活收敛,从而提高整体效率。

其次,DeepseekV3大胆采用了FP8混合精度训练。

FP8虽然在数值稳定性上存在一定挑战,但也显著减少了模型训练时的计算量与显存占用,让单位GPU小时“发挥更大价值”。

有技术专家评价道:“这是在工程实现上难度相当高的一步,但一旦突破,就能使训练速度和能效同时上一个台阶。”

数据质量与算力调度:多重优化的结果

大模型训练的要素通常归纳为三大方面:算力、架构和数据。

Deepseek既然不打“重金堆算力”牌,就必须在“架构”和“数据”上发挥最大效能。

数据层面:DeepseekV3的训练数据规模达到14.8万亿tokens,同时对数据的重复度和质量控制进行了更严格的筛选。

更值得一提的是,Deepseek通过后训练与蒸馏策略,大幅减少了对RLHF(人类反馈强化学习)的依赖,既节省了人工成本,也优化了数据处理流程。

算力层面:幻方量化的硬件平台为Deepseek 提供了坚实后盾,但Deepseek 并不满足于单纯地“排队烧卡”,他们开发了高效的软件栈、集群管理与数据管线,令资源调度与集群利用率有了量级提升。

“当你能让GPU‘满负荷’又不浪费时,省下来的都是白花花的银子。”

质疑与对比——何以在“百模乱世”立足?

所谓“树大招风”,当DeepseekV3在技术指标上获得一片赞誉时,也迎来了不少质疑声。

有专家指出,Deepseek V3 的成本核算存在“未尽事宜”:比如最初使用 R1 模型来生成和清洗数据的费用,是否也包含在557.6万美元的数字里?

此外,大模型虽然训练阶段成本降低,但推理和运维依旧需要大量的GPU来支撑,后续费用能否继续保持“亲民”水准,仍需观望。

对此,Deepseek并没有大规模的公开辩驳。

除此之外,在技术圈,最喜欢的莫过于横向对比。

有人把Deepseek V3和GPT-4o、Claude-3.5-Sonnet-1022 等放在同一水平线上进行测试,结论各有侧重:

在代码场景与复杂数学 任务中,Deepseek V3 表现突出,尤其在算法设计或程序生成方面,甚至逼近或超越了国际一线模型。

在知识问答及长文本处理中,GPT-4o依旧稳居最优,在一些特别冗长、复杂的上下文检索与推理环节,DeepseekV3还需进一步打磨。

价格层面,Deepseek V3在百万tokens级别的推理费用只需要几元到十几元不等,远低于业内推测的 GPT-4o(往往在数十美元或更高)。

若企业对于成本极其敏感,Deepseek 无疑是一匹黑马。

可见,DeepseekV3的优势和短板都很鲜明:它以“低成本+在特定任务上的强表现”吸睛,却在通用性与稳定性方面尚未证明自己能全面赶超顶尖选手。

总的来说,DeepseekV3采取了稀疏MoE、FP8 混合精度等颇具创新的架构,在特定的数学、编码场景中展现了极高性能。

但要拓展到各种自然语言理解、多语种对话、内容审核等场景,仍需更多的领域训练与适配。

此外,大模型在长文本上下文保持、逻辑推断一致性以及安全合规性方面,往往是一道“难啃的骨头”。

对初创AI企业来说,这是个并不意外的过程。

结语:商业化与开源的交汇还需更多思考

当下,也有企业在逐步选择开源的道路,这里又不得不提昨天也同样开源的六小虎之一的Minimax,昨天推出的模型之一MiniMax-Text-01,以400万上下文窗口能力强势出圈,也应用MOE架构训练,很难不让人拿来做对比。

单从开源的角度来看,“开源”是一条赢得技术社区与口碑的捷径,但要想在商业化上站稳脚跟,还需要思考如何与企业应用有效结合。

模型仅仅“便宜+好用”还不够,企业更看重数据安全、稳定性以及深度定制化服务。

在金融领域,Deepseek与其“老东家”幻方量化能形成天然协同,或可顺势为一些金融科技、保险、投资机构提供定制化的AI解决方案。

毕竟,量化投资与大数据分析对大模型的实时性与稳定性都有极高要求,而这恰恰是Deepseek擅长的地方。

若能以此为突破口,在行业里形成良好示范效应,Deepseek即有可能从“开源社区的人气王”跃升为“行业级别的高端服务提供商”。

但在未来的行业落地中,也面临着不可回避的难题,模型通用性与推理成本。

尽管DeepseekV3强调了低训练成本,但未来最为棘手的还包括“推理成本”。

大模型投入商用后,每天海量的用户查询将带来巨大的计算需求,不仅需要强大的GPU集群,更要有一整套分布式调用和负载均衡机制。

若推理价格太高,用户可能“望而却步”;太低,企业又难以维持健康的营收。

如何在这两者间找到平衡,考验着 Deepseek的资源管理和商业策略。

另一个层面,通用性永远是大模型的“终极考验”。

如何解决“幻方量化”这种纯技术背景出身团队在多场景下的瓶颈,是Deepseek能否迈向“通用化”大模型的关键。

在不同文化背景、不同行业领域提出的问题能否自如应对、保持高准确度和自然度,是大模型走向大规模商用的门槛之一。

Deepseek若想扛起国产大模型的大旗,在通用性与“精专性”之间,还需找到独特的平衡点。

值得欣慰的是,Deepseek提升了训练速度与生成效率,其TPS(Tokens Per Second)从之前的20提升到60,达到了3倍增长。

可见,这个团队在工程实现与硬件利用率上功力深厚,也说明他们具备快速迭代的能力。

如果能将这种“硬核能力”继续延伸到更多任务场景和跨语言支持,Deepseek 便有机会在AI大模型的热潮中取得更广泛的应用。