这是发哪里了?
【 在 qikule 的大作中提到: 】
: 2月18日,DeepSeek团队发布一篇论文介绍了新的注意力机制NSA(Natively Sparse Attention,原生稀疏注意力机制)。
: NSA专为长文本训练与推理设计,能利用动态分层稀疏策略等方法,通过针对现代硬件的优化设计,显著优化传统AI模型在训练和推理过程中的表现,特别是提升长上下文的推理能力,在保证性能的同时提升了推理速度,并有效降低了预训练成本。
: 第一作者Jingyang Yuan(袁景阳)是在DeepSeek实习期间完成的这项研究。袁景阳目前为北京大学硕士研究生。他的研究领域包括大型语言模型(LLM)、人工智能在科学中的应用(AI for Science)。他是DeepSeek-V3技术报告的主要作者之一,还参与了DeepSeek-R1项目,该项目旨在通过强化学习激励大型语言模型的推理能力。
: ...................
--
FROM 222.131.25.*