一、AI模型的“开源”,至少包括3个层次:
1. Open-Weight 开源权重
开放AI模型(通过训练所得到的)权重参数,以及加载权重参数的脚本代码,和相关的说明文档。
2.Open-Training 开源训练
开放AI模型的训练方法细节,包括训练用到的脚本代码,评估脚本,以及相关的说明文档。
3.Full Open: Open-Archituecture codes & Algorithms 全开源,开放架构和算法和实现代码
4. 各个开源层次,可能对用户的友好性
Open-Weight,可以支持用户在本地部署这个模型;
Open-Training 可以支持用户根据具体需要和知识领域在本地自己定制模型的训练;
前两个层次的模型“开源”,用户依然需要依赖模型提供方,模型的提供方可以通过提供相关的服务来赢利;
而Full Open则支持用户对模型本身全方位的定制、仿照,或改进优化,属于彻底开源,用户可能可以完全脱离AI模型的提供方。
上述三个层次是大致的划分,没有绝对分明的泾渭,例如有些模型,可能主要是open-weight的,但是也可能开放部分架构算法的说明或论文。
二、关于DS和其他一些模型的“开源”
1、DS的“开源”
DS之前属于Open-Weight的,他们最新发布声明,下周将陆续“开源”5个代码库主要都是涉及training相关的,因此属于Open-Training.
所以,一些网友不要再以为DS“开源”就是full-open其他人可以随便抄袭复制,或者不理解DS的开源而对lwf感到可惜。
当然,之前DS也开放了部分架构算法的说明论文。
2. Quwen的“开源”
阿里Qwen接近 Open-Training 层次。以 Qwen 2.5 系列为例,它不仅提供了模型权重(Open-Weight),还在 GitHub 上公开了部分训练相关的代码和文档,例如预训练和微调的脚本、评估方法等。所以,我们看到许多模型声称使用了Qwen进行训练。
Qwen 系列的开源策略比 DeepSeek 之前的版本更进一步,提供了训练流程的细节(比如如何使用某些数据集进行训练),但数据集本身通常不公开,且底层架构的具体实现细节(例如 Transformer 的具体优化)也并非完全透明。
因此,Qwen 的开源程度高于单纯的 Open-Weight,但由于未提供完整的架构代码和训练数据,自然不算 Full-Open。
3. Open-AI
什么都不open,只提供交互界面或API接口,而且现在对用户和API审查趋严,以反蒸馏为借口,对于其认为风险的帐号和应用,甚至直接封号或偷偷降智(即:用低级版本模型的回答伪装高级模型回答你误导你)。它是个完全的close AI。
4. 哪些模型“全开源”?
目前有一些小型模型或研究性项目(如 GPT-2 的完整开源版本)会选择全开源方式,鼓励社区创新。
--
修改:anylinkin FROM 223.104.40.*
FROM 223.104.40.*