DeepSeek 再放降本大招：NSA 官宣发布，加速推理降低成本，并且不牺牲性能 - AI - C114+

7 x 24跟踪全球科技动态

热门话题

白天

搜索

/

/

资讯

/

/

DeepSeek 再放降本大招：NSA 官宣发布，加速推理降低成本，并且不牺牲性能

2025-02-18 / 阅读约1分钟

来源：IT之家

DeepSeek 官方表示，该机制可优化现代硬件设计，加速推理同时降低预训练成本，并且不牺牲性能。在通用基准、长上下文任务和基于指令的推理上，其表现与全注意力模型相当或更加优秀。

IT之家 2 月 18 日消息，DeepSeek 今日官宣推出 NSA（Native Sparse Attention），这是一种硬件对齐且原生可训练的稀疏注意力机制，用于超快速长上下文训练与推理。

NSA 的核心组件包括：

动态分层稀疏策略
粗粒度 token 压缩
细粒度 token 选择

DeepSeek 官方表示，该机制可优化现代硬件设计，加速推理同时降低预训练成本，并且不牺牲性能。在通用基准、长上下文任务和基于指令的推理上，其表现与全注意力模型相当或更加优秀。

IT之家附论文链接：

https://arxiv.org/abs/2502.11089

上一篇：DeepSeek宣布推出NSA 用于超快速长上下文训练和推理

下一篇：百度 2024 年营收 1331 亿元同比下滑 1%，对 AI 投资充满信心

相关新闻

关键词：DeepSeek

2 天前

H20被禁之后，黄仁勋为何紧急访华？

2 天前

消息称苹果 / 高通 / 联发科确定明年上台积电 2nm，预计成本大幅增长

2 天前

华裔学者Nature发文：多模态AI大模型将开启生物学分析新时代

2 天前

关税前夕订单激增，台积电Q1净利润同比增60%超预期，市场聚焦法说会

2 天前

飞牛私有云 fnOS 获 v0.8.47 系统更新，笔记本设备支持将内置电池作为 UPS 使用

2 天前

OpenAI的"星际之门"项目着眼于国际扩张

2 天前

卖越多亏越多长安汽车被“亲儿子”拖累董事长年薪缩水

2 天前

着急清库存：特斯拉为 Cybertruck 祭出巨大折扣及终身免费超充

2 天前

DeepSeek引爆“万物皆可AI”时代，20余位大咖分析行业痛点，万字梳理干货在此

1 天前

英特尔知悉锐炫显卡部分游戏中表现“吃 CPU”问题，正扩大范围调查

上一篇：DeepSeek宣布推出NSA 用于超快速长上下文训练和推理

下一篇：百度 2024 年营收 1331 亿元同比下滑 1%，对 AI 投资充满信心

C114通信网
通信人家园

7 X 24跟踪全球科技动态

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们

通信人家园