DeepSeek发表新论文介绍新机制，北大研究生一作，梁文峰署名

水木社区手机版

展开|楼主|同主题展开|返回

上一篇|下一篇|同主题下篇

主题:DeepSeek发表新论文介绍新机制，北大研究生一作，梁文峰署名
qikule|2025-02-19 10:17:15|
2月18日，DeepSeek团队发布一篇论文介绍了新的注意力机制NSA（Natively Sparse Attention，原生稀疏注意力机制）。
NSA专为长文本训练与推理设计，能利用动态分层稀疏策略等方法，通过针对现代硬件的优化设计，显著优化传统AI模型在训练和推理过程中的表现，特别是提升长上下文的推理能力，在保证性能的同时提升了推理速度，并有效降低了预训练成本。

第一作者Jingyang Yuan（袁景阳）是在DeepSeek实习期间完成的这项研究。袁景阳目前为北京大学硕士研究生。他的研究领域包括大型语言模型（LLM）、人工智能在科学中的应用（AI for Science）。他是DeepSeek-V3技术报告的主要作者之一，还参与了DeepSeek-R1项目，该项目旨在通过强化学习激励大型语言模型的推理能力。

DeepSeek创始人梁文锋现身论文著作者之中，在作者排名中位列倒数第二
--
FROM 117.129.64.*

上一篇|下一篇|同主题下篇

BYR-Team©2010. KBS Dev-Team©2011 登录完整版