DeepSeek宣布推出NSA 用于超快速长上下文训练和推理 - AI - C114+

7 x 24跟踪全球科技动态

热门话题

白天

搜索

/

/

资讯

/

/

DeepSeek宣布推出NSA 用于超快速长上下文训练和推理

2025-02-18 / 阅读约1分钟

来源：cnBeta

DeepSeek宣布推出NSA，用于超快速的长上下文训练和推理。据其介绍，NSA是一种与硬件一致且本机可训练的稀疏注意力机制，用于超快速的长上下文训练和推理。

通过针对现代硬件的优化设计，NSA加快了推理速度，同时降低了预训练成本，而不会影响性能。

在一般基准测试、长上下文任务和基于指令的推理上，它与完全注意力模型相匹配或优于完全注意力模型。

责任编辑：刘明亮

上一篇：反击马斯克恶意收购 OpenAI考虑设置特别投票权

下一篇：DeepSeek 再放降本大招：NSA 官宣发布，加速推理降低成本，并且不牺牲性能

相关新闻

关键词：DeepSeek

2 天前

AMD 计划出售组装厂，代工厂跨海动起并购脑筋

1 天前

H20被禁之后，黄仁勋为何紧急访华？

2 天前

黄仁勋大意了，美芯片管制或致英伟达中国收入损失超100亿美元

2 天前

消息称苹果 / 高通 / 联发科确定明年上台积电 2nm，预计成本大幅增长

1 天前

关税前夕订单激增，台积电Q1净利润同比增60%超预期，市场聚焦法说会

1 天前

华裔学者Nature发文：多模态AI大模型将开启生物学分析新时代

2 天前

电池江湖的“硅谷悖论”：宁德时代为何越成功越焦虑？

1 天前

传黄仁勋会见DeepSeek创始人梁文锋，讨论新芯片设计

2 天前

Broadcom 使用 Spectre FMC（Fast-MC）快速蒙特卡罗进行时序变化分析

1 天前

让锂电池“返老还童”，我国科学家发现富锂锰基正极材料“遇热收缩”特性

上一篇：反击马斯克恶意收购 OpenAI考虑设置特别投票权

下一篇：DeepSeek 再放降本大招：NSA 官宣发布，加速推理降低成本，并且不牺牲性能

C114通信网
通信人家园

7 X 24跟踪全球科技动态

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们

通信人家园