低价接入DeepSeek后,百度再掀算力接力赛
5 小时前 / 阅读约10分钟
来源:凤凰网
AI应用爆发离不开高效算力

2025年是AI游戏规则被改写的一年。

在DeepSeek以中式务实震惊全球之前,AI大模型竞赛是一条由资本和GPU所主导的不计成本之路,参赛者的技术信仰只有一个Scaling Law,大力出奇迹。DeepSeek-R1掀起的AI普及浪潮,相当于在大路旁边开辟了一个分岔,它迫使主要参与者开始反思,让更多人把AI用起来的前提不仅是技术领先,还要有足够低的成本、超预期的体验。

最直观的例子是,ChatGPT-o1虽然与DeepSeek能力相当,但一个月200美元的订阅费已经将大多数普通人拒之门外。幡然醒悟的OpenAI,将1月31日上线的推理模型o3-mini设置为免费用户也可使用。

目之所及,AI大模型的花式降本将成为2025年的主线之一。抵达方式有很多,比如高效算力,又或者算法和工程创新。具体到中国,在DeepSeek的激励之下,BAT、字节、华为等国内AI大厂已经加紧在上述方向你追我赶。

2月5日,业内再传新进展——首个国产芯片万卡集群正式点亮,本土化AI在高效算力上向前一步。

01 本土自研万卡集群正式点亮

在宣布低价接入DeepSeek模型两天后,百度再公布算力降本新进展。

2月5日,百度智能云宣布点亮昆仑芯三代万卡集群。这也是国内首个正式点亮的自研万卡集群。

从全球范围来看,以合理成本获得可靠的算力,在当前的AI竞争中至关重要。谷歌、Meta、亚马逊、特斯拉等公司都在加快自研芯片的进程,希望以此打破算力瓶颈、降低模型成本。与微软因为GPU供应问题而貌合神离的OpenAI,也屡被传出计划自研AI芯片。

不过,拥有自研芯片只是实现万卡集群的第一步。要训练基础大模型,需要将一万张以上的加速卡(如GPU、TPU或其他专用AI芯片)组成一个高性能的「超级计算机」,工程难度极高。

中国工程院院士、清华大学计算机系教授郑纬民此前表示,当下构建国产自主万卡系统充满挑战,但「至关重要」。

以百度自研万卡集群为例,它不仅为百度带来坚实的算力支持,也有望推动模型降本趋势,成为中国科技界在人工智能领域的又一次突破。

客观而言,国产芯片早期顶多相当于AI大厂基础设施的一个「副本」,更多是作为算力供应的一个补充而存在,主要满足单任务算力消耗。而在算力空前紧张、技术追求自主可控的趋势下,国产智算开始承受更多期待,集群效能最大化成为核心目标。

这个核心目标受市场需求驱动。目前国内客户对大模型的关键诉求至少有两个:一是缩短训练时间。百度智能云事业群总裁沈抖此前提到,由于大模型行业的发展日新月异,客户普遍希望能在两周内完成训练,最晚也应在一个月内完成。

二是降本。从信息时代到AI时代,降低技术成本曲线是科技行业永恒的主题。按照目前的硅谷规律,模型训练成本每年大约能降低四分之一,但这远不及市场期待。否则DeepSeek也不会在美国引发「强震」。据多方测算,DeepSeek-R1的整体成本约为OpenAI o1模型的1/30。

DeepSeek已经让全世界看到中国AI花小钱办大事的务实能力。《华尔街日报》称之为「够用就好」策略,英国《金融时报》则直言,「并不是每个司机都需要一辆法拉利。」而百度点亮国产万卡集群,则属于中国AI从算力层面寻求成本突破的一个解法。

理论上,超大规模并行计算能力可实现训练效率跃升,万卡集群可将千亿参数模型的训练周期大幅降低,满足AI原生应用快速迭代的需求;同时也能支持更大模型与复杂任务和多模态数据,支撑Sora类应用的开发。

另一方面,万卡集群能够支持多任务并发能力,通过动态资源切分,单集群可同时训练多个轻量化模型,通过通信优化与容错机制,提升集群综合利用率,实现训练成本指数级下降。

不过在实践中,超大规模集群的调度效率至关重要。比如怎么做模型的拆分,如何将训练、微调、推理任务混合部署,都会影响算力的有效发挥。

百度能率先点亮自研万卡集群,其实背后离不开百舸AI异构计算平台4.0等超前基础设施的支撑。

2024年9月升级的百舸4.0属于大模型降本的「全能型选手」。仅降低通信瓶颈一项,便将带宽有效性提升到90%以上。在提供容错与稳定性机制上,通过避免由于单卡故障率随规模指数上升而造成的集群有效性大幅下降,保障有效训练率达到98%。

据了解,在百舸4.0的支撑下,百度自研3万卡集群也已经在路上。

从行业发展角度来看,百度通过自研大规模集群的建设,不仅解决了自身算力供应的问题,也为整个行业提供了新的思路和方向。

02 AI应用爆发的杰文斯悖论

中外科技公司狂卷AI成本,行业影响深远。

如果没有DeepSeek「上线20天日活2000万」的现场教学,科技界或许很难将大模型降本带来的变量具像化。尽管业界领袖都认为这一天早晚会到来。

比如微软CEO纳德拉,在DeepSeek爆发前夕,他还在社交媒体上布道,「随着人工智能变得更加高效和普及,我们将看到它的使用量猛增,成为一种永远无法满足的商品」,经济学中的「杰文斯悖论」会在AI领域复现。

AI芯片初创公司Groq的首席执行官此前直言,运行AI模型的成本越低,AI能力显然就越强,「如果推理成本太高,人们就不会太多使用」,而更高的使用率才能催生更好的模型。

翻译过来,英伟达的软肋,未尝不是AI开发者以及整个AI生态的幸事。

在移动互联网时代,从应用层到基础设施的倒三角型利益分配,催生了数量众多的超级应用和明星独角兽,支撑了移动生态的长久繁荣。而在生成式AI时代初期,绝大多数AI投资最终流向了基础设施层企业——强如微软,其AI基础设施投资中约有一半的钱也要用来买卡。

这一客观现实无形中抬高了AI应用开发的门槛。

DeepSeek的崛起,意味着AI行业的发展正从硬件基础设施层向软件应用层转移。花旗在最新产业研报中预测:DeepSeek、百度等中国模型的高效低成本将有助于加速全球AI应用开发,可能在全球引发更多技术创新,并推动2025年人工智能应用的拐点。

举个例子,百度自研万卡集群所代表的低成本算力,可以支撑Sora类多模态应用的开发。目前海外视频生成的成本并不算低。Runway生成一条5秒视频的价格为1.2美元,Sora生成一个5秒480P视频成本约为0.5美元,如果多模态模型成本继续下探,理论上会有更多的多模态应用出现。

而DeepSeek-R1的高效推理能力,可能会直接带来企业智能体领域的突破性进展。企业智能体的目标是处理工作任务,如果能以更低的推理成本拥有智能体类的AI员工,企业客户的盈利能力也将间接得到提升。

为了加速AI应用开发的繁荣,在DeepSeek出圈以来,百度智能云、华为云、阿里云、腾讯云、火山引擎等也在争相接入DeepSeek模型,并以优惠条件吸引更多的企业客户和开发者。

这其中,百度在「砍门槛」上算是比较激进的一家。2月3日百度智能云直接宣布打折——千帆ModelBuilder平台上的DeepSeek-R1仅为官方刊例价的5折,DeepSeek-V3仅为官方刊例价的3折,并提供限时免费服务。

「砍门槛」的背后,是百度智能云在推理引擎性能优化技术、推理服务工程架构创新以及推理服务全链路安全保障上的深度融合。

在推理引擎性能上,针对DeepSeek模型MLA结构的计算进行了极致的性能优化,并通过计算、通信、内存不同资源类型算子的有效重叠及高效的Prefill/Decode分离式推理架构等,在核心延迟指标TTFT/TPOT满足SLA的条件下,实现模型吞吐的大幅度提升。

在推理服务的工程架构上,百度智能云做了严格的推/拉模式的性能对比。为了进一步提升系统的稳定性和用户体验,设计了请求失败的续推机制,这显著增强了系统的容错能力和服务SLA达标率。同时针对多轮对话和system设定等场景中存在重复Prompt前缀的情况,实现了主流的KV-Cache复用技术,并辅以全局Cache感知的流量调度策略。

在稳定安全保障上,集成了百度智能云独家内容安全算子,实现模型安全增强与企业级高可用保障,基于大模型全生命周期数据安全与模型保护机制,在千帆平台上的模型均拥有使用安全的安全保障。

DeepSeek模型上线首日,已有超1.5万家客户通过千帆平台进行模型调用。

「价格战」背后,本质还是一个由于AI应用所主导的AI生态之争。

在这个过程中,对冲基金桥水判断,AI对算力的需求不会放缓,反而可能加速。「杰文斯悖论」似乎永不过时。

这也是为什么微软、Meta、谷歌、百度、字节今年都在算力上加大投入。根据目前的公开信息,微软计划在截至今年6月份的财年对AI数据中心投资800亿美元,Meta今年计划在AI基础设施等领域投入650亿美元。用谷歌CEO皮查伊的话说,大家都想拥抱更多的发展机会。

在纳德拉宣布微软在 AI 和云基础设施方面的800 亿美元后,马斯克转发了这一消息

纵观全球AI竞争,拥有更高性能、更低成本的算力,始终是AI巨头保证领先地位的重要抓手。

国内头部企业如百度,除了已经路上的3万卡集群,百舸4.0设计之初可支持10万卡用量,这一「留白」为中国AI企业更低门槛的创新突破积蓄了一定的空间。

凭借其强大的算力优势、成本效益以及百舸平台的全方位赋能,百度等国内AI公司有望为人工智能的发展注入新的活力。