看了一遍DeepSeek的论文才知道只有671B版本才是原汁原味的

水木社区手机版

主题:看了一遍DeepSeek的论文才知道只有671B版本才是原汁原味的
楼主|booble|2025-02-20 16:04:25|只看此ID
其他的版本都是DeepSeek训练时生成的数据集用在其他开源模型基础上fine tuning出来的。
比如1.5B，7B，14B和32B版本基于Qwen训练获得（Qwen应该是阿里巴巴的千问）
8B和70B版本基于Meta 的Llama训练获得。
也就是说这几个版本根本就不是DeepSeek架构。。。
--
FROM 223.101.86.*
1楼|heideggerr|2025-02-20 17:57:58|只看此ID
你这反应速度够慢的了！

【在 booble 的大作中提到: 】
: 其他的版本都是DeepSeek训练时生成的数据集用在其他开源模型基础上fine tuning出来的。
: 比如1.5B，7B，14B和32B版本基于Qwen训练获得（Qwen应该是阿里巴巴的千问）
: 8B和70B版本基于Meta 的Llama训练获得。
: ...................
--
FROM 123.191.87.*
2楼|booble|2025-02-20 19:20:26|只看此ID
刚开始看论文，尴尬

【在 heideggerr 的大作中提到: 】
: 你这反应速度够慢的了！
:
--
修改:booble FROM 223.101.86.*
FROM 223.101.86.*
3楼|x97|2025-02-20 21:29:32|只看此ID
还有量化低精度的671『满血版』
--
FROM 221.222.240.*
4楼|omelet|2025-02-20 22:40:59|只看此ID
那些模型名字上已经写了蒸馏 qwen 啊

【在 booble 的大作中提到: 】
: 其他的版本都是DeepSeek训练时生成的数据集用在其他开源模型基础上fine tuning出来的。
: 比如1.5B，7B，14B和32B版本基于Qwen训练获得（Qwen应该是阿里巴巴的千问）
: 8B和70B版本基于Meta 的Llama训练获得。
: ...................
--
FROM 222.129.6.*
5楼|booble|2025-02-21 09:04:11|只看此ID
这么说也不算是满血了。

【在 x97 的大作中提到: 】
: 还有量化低精度的671『满血版』
--
FROM 223.101.86.*
6楼|booble|2025-02-21 09:04:49|只看此ID
以前没注意看模型信息。

【在 omelet 的大作中提到: 】
: 那些模型名字上已经写了蒸馏 qwen 啊
:
--
FROM 223.101.86.*