- 主题:看了一遍DeepSeek的论文才知道只有671B版本才是原汁原味的
其他的版本都是DeepSeek训练时生成的数据集用在其他开源模型基础上fine tuning出来的。
比如1.5B,7B,14B和32B版本基于Qwen训练获得(Qwen应该是阿里巴巴的千问)
8B和70B版本基于Meta 的Llama训练获得。
也就是说这几个版本根本就不是DeepSeek架构。。。
--
FROM 223.101.86.*
你这反应速度够慢的了!
【 在 booble 的大作中提到: 】
: 其他的版本都是DeepSeek训练时生成的数据集用在其他开源模型基础上fine tuning出来的。
: 比如1.5B,7B,14B和32B版本基于Qwen训练获得(Qwen应该是阿里巴巴的千问)
: 8B和70B版本基于Meta 的Llama训练获得。
: ...................
--
FROM 123.191.87.*
刚开始看论文,尴尬
【 在 heideggerr 的大作中提到: 】
: 你这反应速度够慢的了!
:
--
修改:booble FROM 223.101.86.*
FROM 223.101.86.*
还有量化低精度的671『满血版』
--
FROM 221.222.240.*
那些模型名字上已经写了蒸馏 qwen 啊
【 在 booble 的大作中提到: 】
: 其他的版本都是DeepSeek训练时生成的数据集用在其他开源模型基础上fine tuning出来的。
: 比如1.5B,7B,14B和32B版本基于Qwen训练获得(Qwen应该是阿里巴巴的千问)
: 8B和70B版本基于Meta 的Llama训练获得。
: ...................
--
FROM 222.129.6.*
这么说也不算是满血了。
【 在 x97 的大作中提到: 】
: 还有量化低精度的671『满血版』
--
FROM 223.101.86.*
以前没注意看模型信息。
【 在 omelet 的大作中提到: 】
: 那些模型名字上已经写了蒸馏 qwen 啊
:
--
FROM 223.101.86.*