DeepMind也酸了?CEO怒喷 DeepSeek 成本是炒作:很多技术都来自谷歌和DeepMind
8 小时前 / 阅读约11分钟
来源:36kr
就在最近,谷歌 DeepMind 围绕 DeepSeek 模型成果及其低成本所发表的看法再一次受到关注与热议。2

就在最近,谷歌 DeepMind 围绕 DeepSeek 模型成果及其低成本所发表的看法再一次受到关注与热议。2 月 9 日,谷歌 DeepMind 首席执行官 Demis Hassabis 在一场活动上表示,DeepSeek 的人工智能模型 “可能是我见过的来自中国的最好作品”。该人工智能模型表明,DeepSeek 可以完成 “极其出色的工程”,它 “在地缘政治层面上改变了一切”。

不过,他认为,从技术角度来看,DeepSeek“并未展示任何新的科学进步”。Hassabis 称,“尽管炒作得很厉害,但实际上并没有什么新的科学进展。它使用的是已知的技术。实际上,很多技术都是我们在谷歌和 DeepMind 发明的。谷歌本周向所有人发布的公司 Gemini 2.0 Flash 模型比 DeepSeek 的模型更有效。“

此外,这位高管还驳斥了 DeepSeek 的出现颠覆了人工智能开发经济学的观点:“我们没有看到任何新的灵丹妙药技术,DeepSeek 在效率曲线上并不是一个例外。”在这方面,Anthropic 创始人 Dario Amodei 先前也称,“DeepSeek-V3 没有从根本上改变大模型的经济模式,只是符合持续降低成本曲线上的一个预期节点。不同之处在于,率先实现的是一家中国公司。”

557.6 万美元训练成本的“误会” 

谈到 DeepSeek 所发布模型的训练成本数据,Hassabis 强调,DeepSeek “似乎只报告了最后一轮训练的成本,而这只是总成本的一小部分”。

与 Hassabis 观点相似,独立研究机构 SemiAnalysis 也称,目前被宣传的 DeepSeek 成本价格“明显有误解”,仅计入了物料清单中的特定部分,并不能反映其全周期内的总体投入。具体来讲,“预训练投入远远不是 DeepSeek 花在模型身上的总体金额。通过估算,该公司单硬件支出就远高于 5 亿美元。而新架构的设计与创新、以及后续模型的实际开发都需要耗费大量资金,包括测试新想法、探索新架构的可行性和进行消融实验等。”

SemiAnalysis 得出的结论是:DeepSeek 论文中提到的 557.6 万美元成本仅仅是预训练阶段的 GPU 直接成本,只占模型总实现成本中的一小部分,此外还有硬件本身的研发以及总体拥有成本(TCO)等其他投入。SemiAnalysis 还举了 Claude 的例子作为参考:Claude 3.5 Sonnet 的训练成本为数千万美元,但如果 Anthropic 真的只需要这样的投入就能完成模型构建,那他们就不会急于从谷歌和亚马逊处数十筹集亿乃至数百亿美元。这多出来的部分,还要被用于进行探索性实验、新架构设计、数据收集与清洗、支付人员工资等。

但其实即使用 DeepSeek 557.6 万美元的训练成本与 Claude 更广泛的成本做对比,也并没有太大意义。对于 557.6 万美元的训练成本,DeepSeek 在论文中已经有明确的解释:

我们再次强调下 DeepSeek-V3 的训练成本,总结在表 1 中。这是我们通过对算法、框架和硬件的优化协同设计实现的。在预训练阶段,在每万亿个 token 上训练 DeepSeek-V3 只需要 180000 个 H800 GPU 小时,即在我们拥有 2048 个 H800 GPU 的集群上需要 3.7 天。因此,我们的预训练阶段是在不到两个月的时间内完成的,成本为 2664,000 个 GPU 小时。再加上 119000 个 GPU 小时用于扩展上下文长度和 5000 个 GPU 小时的后训练,DeepSeek-V3 的总训练成本仅为 278.8 万个 GPU 小时。假设 H800 GPU 的租赁价格为 2 美元 / 每 GPU 小时,那我们的总训练成本仅为 557.6 万美元。请注意,上述成本仅包括 DeepSeek-V3 的官方训练,不包括与先前研究、架构、算法、数据和消融实验相关的成本。

关于 SemiAnalysis 提到的结构、算法、消融实验等成本问题,DeepSeek 在论文中也已经说明。不过,对于 Hassabis“仅最后一轮训练成本”的猜测,论文中并未提及。

SemiAnalysis 还对比了 OpenAI 成本下降幅度来证明成本下降是“自然”的。“目前运行在笔记本电脑上的小模型已经具备与 GPT-3 相当的性能,而当初后者可是需要一台超级计算机进行训练、再由多张 GPU 支撑推理;就 GPT-3 级别的推理成本而言,其当前成本已经下降至当初的 1/1200;将目光投向 GPT-4,其成本也出现了类似的下降幅度,只是这条曲线尚处于早期阶段。”

因此,在 SemiAnalysis 看来,“算法的改进使我们能够以更少的算力支持训练与推理,最终实现能力相同的模型,而且这样的情况仍在不断上演。(DeepSeek )之所以引发了全世界关注,是因为 V3 来自中国实验室,而小模型越来越强本身并不算什么新闻。”

据 SemiAnalysis 估计,算法的进步速度为每年 4 倍,就是说每过一年,实现相同功能所需要的算力资源就降低至四分之一。不过同时,SemiAnalysis 也强调,DeepSeek 的独特之处正在于他们率先实现了这种强大的成本与能力组合。而且虽然 DeepSeek 目前的成本水平已经相当低廉,但到今年年底,其服务成本可能会进一步降低至五分之一。

当前成果背后的更多投入 

我们都知道,DeepSeek 背后是“财大气粗”的对冲基金幻方量化,管理规模超 600 亿元。据了解,幻方量化也是在交易算法中引入 AI 技术的早期先驱之一。他们很早就意识到 AI 在金融业以外领域的巨大潜力与扩展空间,因此一直在持续增加 GPU 投入,在通过具有数千张 GPU 的集群运行模型实验之后,幻方量化在出口限制尚未落地的 2021 年决定一举将 A100 GPU 增加至 1 万张。

随着项目推进,他们决定在 2023 年 5 月拆分成立“DeepSeek”,旨在更专注于追求并塑造 AI 能力。幻方量化之所以选择自筹资金,是因为当时外部投资者对于 AI 兴趣不大,认为其缺乏有利可图的商业模式。如今,幻方量化与 DeepSeek 似乎始终在大量共享资源,包括算力及人力等方面。

GPU 储备成本 

DeepSeek 现已发展成为一个紧密协同的严肃项目,绝非许多人声称的“附带探索”。根据独立研究机构 SemiAnalysis 的估算,即使考虑到出口管制,其 GPU 总投资额超过了 5 亿美元(合约 36.5 亿元人民币)。SemiAnalysis 在分析报告中称,“预计 DeepSeek 共掌握约 5 万张 Hopper GPU,而非部分评论人士所言的 5 万张 H100。我们认为,DeepSeek 拥有约 1 万张 H800 和约 1 万张 H100。此外,他们还大量订购 H20 GPU。”

目前,英伟达按照法规要求推出了多个 H100 版本(分为 H800 和 H20),其中 H20 是专供中国模型服务商的型号。具体来讲,H800 的算力水平与 H100 相同,但网络带宽较低。过去 9 个月内,英伟达共生产了超百万张专供中国的 GPU H20。SemiAnalysis 指出,这批 GPU 由幻方量化与 DeepSeek 共同使用,且分散在不同地理区域,主要用于交易、推理、训练和研究等用途。

通过分析认定,SemiAnalysis 判断 DeepSeek 的总服务器资本支出约为 16 亿美元,这批集群的运营成本亦高达 9.44 亿美元。需要注意的是,设备分散化部署将带来资源集中挑战,这类情况的各 AI 实验室和超大规模基础设施运营商可能都必须采购更多 GPU 以支撑各地的研究和训练任务。现在只有 X.AI 的情况比较特殊,其全部 GPU 均集中在同一处设施之内。

人力成本 

DeepSeek 专门从中国国内招募人才,不考虑以往资历,重点关注能力和好奇心。据了解,DeepSeek 定期在北大和浙江大学等顶尖高校举办校招活动,公司员工也多数毕业于这些大学。DeepSeek 提供的工作岗位往往并非提前设定好,而是具有一定灵活性,且在招聘广告中称员工可随意使用多达 1 万张 GPU。并且,DeepSeek 开出的年薪不菲。有消息称,DeepSeek 为顶尖申请者提供超过 130 万美元的年薪,远远高于其他中国科技巨头及月之暗面等竞争对手。

据公开资料显示,DeepSeek 目前的员工数量大约为 150 人左右,且仍处于快速扩张阶段。在某招聘平台可以看到,截止今日(2 月 11 日),DeepSeek 放出了 38 个招聘职位,招聘的岗位涵盖客户端研发工程师、核心系统研发工程师、AGI 数据百晓生、深度学习研发工程师、全栈开发工程师、自然语言处理算法、高级移动端开发工程师等多种不同的岗位,其中大部分岗位月薪 3 万元起步,最高至 9 万元,且都是“14 薪”,算下来年薪最高能达到百万级别。就连实习生,都开出了 500-1000 的日薪。其人力成本可见一斑。

但从 DeepSeek 的工商信息来看,杭州深度求索人工智能基础技术研究有限公司在缴社保员工仅 4 人,北京深度求索人工智能基础技术研究有限公司参保 0 人。也就是说,现在 DeepSeek 团队中的大部分人很可能都借调于母公司幻方量化。

此外,近日 DeepSeek 在北京的办公地址也被曝出位于北京北四环边上,这栋楼里还有 AMD、百度风投、苹果智元公司、红帽软件、超威半导体等,租金应当也不菲。

参考链接:

https://semianalysis.com/2025/01/31/deepseek-debates/#deepseek%e2%80%99s-cost-and-performance

https://www.cnbc.com/2025/02/09/deepseeks-ai-model-the-best-work-out-of-china-google-deepmind-ceo.html