又一清华团队出手!助力国产芯片突破FP8模型及DeepSeek部署成本与效率难题
13 小时前 / 阅读约2分钟
来源:凤凰网
DeepSeek的发展推动了FP8精度模型成为行业主流。

凤凰网科技讯 3月14日,凤凰网科技获悉,清华大学高性能计算研究所翟季冬教授团队与清华系科创企业清程极智联合宣布,开源大模型推理引擎“赤兔Chitu”,该引擎首次实现在非英伟达Hopper架构GPU及各类国产芯片上原生运行FP8精度模型,为国产AI芯片的广泛应用和生态建设带来了新的突破。

DeepSeek的发展推动了FP8精度模型成为行业主流,随着DeepSeek的持续火热, 企业大模型私有化部署的需求也呈现井喷态势。

然而,当前全球领先的FP8模型长期依赖英伟达H系列高端GPU,这使得国内企业在部署大模型时受限于AI芯片的限制。一方面,英伟达H系列芯片的进口受限,导致国内企业难以获取高性能硬件支持;另一方面,大多数国产芯片因不支持FP8数据类型,无法充分发挥新一代AI模型的性能,企业部署成本高昂。

为打破这一困境,清华大学与清程极智联合开源的“赤兔”推理引擎应运而生。该引擎通过底层技术革新,首次实现了非H卡设备(包括英伟达Hopper架构之前的GPU卡及各类国产卡)对原生FP8模型的高效部署,摆脱对特定硬件的依赖,极大地降低了企业部署AI模型的门槛和成本。

在实测方面,在首期开源版本中,赤兔引擎部署DeepSeek-R1-671B满血版时,在A800集群的测试中,相比部分国外开源框架,GPU使用量减少50%的情况下推理速度仍有3.15倍提速。这意味着企业可以用更少的硬件资源获得更高的推理性能,极大降低了部署门槛和运营成本。

清华大学翟季冬教授强调,赤兔凝结了团队多年并行计算与编译优化技术积累,目标是“弥合先进模型与多样化硬件之间的差距,让国产算力真正‘跑起来’,为中国大模型产业落地提供关键支撑”。清程极智CEO汤雄超表示:“赤兔的定位是成为连接多元算力与大模型应用的桥梁。我们不仅支持英伟达全系列GPU,还针对国产芯片深度优化,未来将陆续开源适配版本。”