第三代昆仑芯万卡集群点亮，全版本适配DeepSeek训练推理 - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

第三代昆仑芯万卡集群点亮，全版本适配DeepSeek训练推理

2025-02-10 / 阅读约4分钟

来源：集微网

两周之内，DeepSeek成为全球增速最快的AI应用。2月6日，昆仑芯宣布，已完成DeepSeek训练推理全版本适配，在追求低成本、高效率的基础上支持卓越性能，能够实现一键部署，为广大开发者提供更快、更强、更省的训练推理体验。

强力适配DeepSeek，轻松完成全版本训练推理任务

昆仑芯表示，其在DeepSeek-V3/R1上线后不久便率先完成全版本模型适配，其中包括V3系列的DeepSeek-V3和DeepSeek-V3-Base，R1系列的DeepSeek-R1、DeepSeek-R1-Zero等8个不同版本，MoE（混合专家）模型及其蒸馏的Llama/Qwen等小规模dense（稠密）模型。不仅如此，昆仑芯已全面适配文心系列、Llama、Qwen、ChatGLM、Baichuan等各类大模型的推理和训练任务，性能优势明显。

昆仑芯训练推理全版本适配DeepSeek

P800是昆仑芯厚积薄发推出的第三代产品，也是昆仑芯现阶段最具代表性的算力产品，可以较好地支撑DeepSeek系列MoE模型大规模训练任务，全面支持MLA（多头潜注意力）、多专家并行等特性，仅需32台即可支持模型全参数训练，高效完成模型持续训练和微调。

与此同时，P800显存规格优于同类主流GPU20%~50%，对MoE架构更加友好，且率先支持8bit推理，单机8卡即可运行671B模型。正因如此，昆仑芯相较同类产品更加易于部署，同时可显著降低运行成本，轻松完成DeepSeek-V3/R1全版本推理任务。

P800生态完备，易用性强，可以实现对训练和推理任务的快速适配。P800快速适配支持了DeepSeek-V3/R1的持续全参数训练，LoRA（低秩自适应）等PEFT（参数高效微调）能力，提供给用户“开箱即用”的训练体验。基于昆仑芯完整的软件栈生态，两个步骤即可轻松实现在昆仑芯P800上进行DeepSeek-V3/R1推理部署，对广大开发者十分友好。

深耕AI加速十余年，大模型时代实力凸显

昆仑芯前身为百度智能芯片及架构部，在百度内部真实业务场景中深耕十年，于2021年4月完成独立融资。十余年的成长过程中，昆仑芯始终秉承着“让计算更智能”的使命，专注AI加速，打造拥有强大通用性、易用性和高性能的通用AI芯片。