DeepSeek 发布开源第一弹 让大模型在GPU上跑得更快
2025-02-24

2月24日,DeepSeek启动了“开源周”,并开源了首个代码库FlashMLA。该解码内核是专为Hopper GPU优化的高效MLA设计,用于处理可变长度序列,并已投入生产使用。DeepSeek表示,在H800上,FlashMLA能实现3000 GB/s的内存带宽和580 TFLOPS的计算性能。