- 主题:deepseek原来是蒸馏的啊,怪不得训练成本低
白高兴一场
--
FROM 39.144.154.*
我早说了,关键是他的R1的训练过程,目前看有点东西,可能是真创新。Deepseek V3只能说很一般。
Hugging face已经在企图复原R1的训练过程了
【 在 artech51 的大作中提到: 】
: 白高兴一场
--
FROM 114.102.121.*
以为什么神奇算法呢
--
FROM 39.144.181.*
openai不开源,数据只有输出,实际上常规蒸馏根本就不可能,别在污蔑了好吗?
【 在 artech51 的大作中提到: 】
: 白高兴一场
--
FROM 117.136.47.*
污蔑啥啊,deepseek论文就说训练第一步是蒸馏
数据只有输出就不能蒸馏了?你不是做技术的料
【 在 dqxl 的大作中提到: 】
: openai不开源,数据只有输出,实际上常规蒸馏根本就不可能,别在污蔑了好吗?
--
FROM 39.144.155.*
它说是蒸馏的openai吗?蒸馏别的开源的,本来就可以。
【 在 artech51 的大作中提到: 】
: 污蔑啥啊,deepseek论文就说训练第一步是蒸馏
: 数据只有输出就不能蒸馏了?你不是做技术的料
--
FROM 117.136.47.*
不管是蒸馏啥,都是蒸馏。我说蒸馏openai了吗?
【 在 dqxl 的大作中提到: 】
: 它说是蒸馏的openai吗?蒸馏别的开源的,本来就可以。
--
FROM 39.144.155.*
人家花了巨资做原始大模型,蒸馏出来说600万. 这哪能这么比成本。都不去创新,都去等死吧
【 在 dqxl 的大作中提到: 】
: 它说是蒸馏的openai吗?蒸馏别的开源的,本来就可以。
--
FROM 119.125.216.*
你提个方案,蒸馏下开源的,能达到deepseek的水平吗?
【 在 artech51 的大作中提到: 】
: 不管是蒸馏啥,都是蒸馏。我说蒸馏openai了吗?
--
FROM 117.136.47.*
我当然不行,deepseek有多少人我才几个?
【 在 dqxl 的大作中提到: 】
: 你提个方案,蒸馏下开源的,能达到deepseek的水平吗?
--
FROM 39.144.155.*