Re: DeepSeek发表新论文介绍新机制，北大研究生一作，梁文峰署

水木社区手机版

展开|楼主|同主题展开|溯源|返回

上一篇|下一篇|同主题上篇|同主题下篇

主题:Re: DeepSeek发表新论文介绍新机制，北大研究生一作，梁文峰署
mean2010|2025-02-22 11:43:44|
这是发哪里了？

【在 qikule 的大作中提到: 】
: 2月18日，DeepSeek团队发布一篇论文介绍了新的注意力机制NSA（Natively Sparse Attention，原生稀疏注意力机制）。
: NSA专为长文本训练与推理设计，能利用动态分层稀疏策略等方法，通过针对现代硬件的优化设计，显著优化传统AI模型在训练和推理过程中的表现，特别是提升长上下文的推理能力，在保证性能的同时提升了推理速度，并有效降低了预训练成本。
: 第一作者Jingyang Yuan（袁景阳）是在DeepSeek实习期间完成的这项研究。袁景阳目前为北京大学硕士研究生。他的研究领域包括大型语言模型（LLM）、人工智能在科学中的应用（AI for Science）。他是DeepSeek-V3技术报告的主要作者之一，还参与了DeepSeek-R1项目，该项目旨在通过强化学习激励大型语言模型的推理能力。
: ...................
--
FROM 222.131.25.*

上一篇|下一篇|同主题上篇|同主题下篇

BYR-Team©2010. KBS Dev-Team©2011 登录完整版