今早9点30,开源大模型平台DeepSeek开启了为期5天的技术分享活动,首日开源了针对Hopper GPU优化的高效MLA解码内核FlashMLA。该内核在Github发布后迅速获得超过1000颗星。FlashMLA针对可变长度序列进行了优化,能加速LLM解码过程,提高模型响应速度和吞吐量。DeepSeek表示,FlashMLA可在H800芯片上实现最高3000GB/S带宽和580TFLOPS算力。