545%! DeepSeek首披露成本利润率 专家:若在美国已是一家价值逾百亿美元公司
12 小时前 / 阅读约4分钟
来源:集微网
中国AI新创公司DeepSeek近来「开源」一波波,上周六 (1日) 又有更大惊喜,全面揭秘DeepSeek-V3/R1推理系统,不仅公开其推理系统的核心优化方案,更首次披露成本获利率等关键数据,引发产业震动。

中国AI新创公司DeepSeek近来「开源」一波波,上周六 (1日) 又有更大惊喜,全面揭秘DeepSeek-V3/R1推理系统,不仅公开其推理系统的核心优化方案,更首次披露成本获利率等关键数据,引发产业震动。

DeepSeek上周六在知乎平台发布首条文章,公布模型推理成本利润细节,并披露成本获利率关键资讯,若所有tokens全按DeepSeek-R1的定价计算,理论上一天的总收入为56万2027美元,成本获利率为545%,这一数字刷新全球AI大模型领域的获利天花板。

根据DeepSeek官方披露,DeepSeek V3和R1的所有服务均使用H800 GPU,使用和训练一致的精度,即矩阵计算和dispatch传输采用和训练一致的FP8格式,core-attention计算和combine传输采用和训练一致的BF16,最大程度保证了服务效果。

在最近24小时 (2025年2月27日12:00至28日12:00) 的统计周期,若 GPU租赁成本按2美元 / 小时计算,日均成本为8万7072美元,而若所有输入 / 输出token按R1定价 (输入1元 / 百万token、输出16元 / 百万 token) 计算,单日收入可达56万2027美元(约1865万新台币),成本获利率高达545%。

MenloVentures投资人Deedy在看完上述数据后指出,获利率超过500%这一商业效率在美国将是一家价值逾百亿美元的公司。

中国硅基流动创办人袁进辉也在第一时间发表了自己的感受说:「DeepSeek官方披露大规模部署成本和收益,又一次颠覆了很多人认知。」

DeepSeek的高获利率源于其创新的推理系统设计,核心包括大规模跨节点专家并行(EP)、计算通信重叠与负载均衡优化三大技术支柱。 EP提升吞吐与回应速度,针对模型稀疏性(每层仅启动8/256个专家),采用EP 策略扩展总体批处理规模,确保每个专家获得足够的计算负载,显著提升GPU利用率,部署单元动态调整 (如Prefill阶段4节点、Decode阶段18 节点),平衡资源分配与任务需求。

简言之,EP就像是「多人协作」,把模型中的「专家」分散到多张GPU上进行计算,大幅提升Batch Size,榨干GPU算力,同时专家分散,降低存储器压力,更快回应。

DeepSeek在工程层面进一步压缩成本,加上昼夜资源调配,白天高峰时段全力支援推理服务,夜间闲置节点转用于研发训练,最大化硬件利用率,缓存命中率达56.3%,通过KVCache硬盘缓存减少重复计算,在输入token中,有3420亿个(56.3%)直接命中缓存,大幅降低算力消耗。

有分析称DeepSeek此次披露的数据,不仅验证其技术路线的商业可行性,更为行业树立高效获利标竿,模型训练成本仅为同类产品的1%至5%,此前发布的DeepSeek-V3模型训练成本仅557.6万美元,远低于OpenAI等巨头。在推理定价优势方面,DeepSeek-R1的API定价仅为OpenAI o3-mini的七分之一到一半左右,低成本策略加速市场渗透。

还有分析指出,DeepSeek此次「透明化」披露不仅展示其技术实力与商业潜力,更向行业传递明确信号,也就是AI大模型的获利循环已从理想照进现实,代表AI技术从实验室迈向产业化的关键转折。

不过,DeepSeek官方坦言实际上没有这么多收入,因V3定价更低,同时收费服务只占了一部分,另外夜间还会有折扣。

中信证券认为,Deepseek在模型训练成本降低方面的最佳实践,料将刺激科技巨头采用更经济方式加速前沿模型的探索和研究,同时将使得大量AI应用得以解锁和落地。演算法训练带来的规模报酬递增效应,以及单位算力成本降低对应的杰文斯悖论等,均代表中短期维度科技巨头继续在AI算力领域进行持续、规模投入仍将是高确定性事件。