Re: DeepSeek开源权重不开源模型对“商用”没啥意义

水木社区手机版

主题:Re: DeepSeek开源权重不开源模型对“商用”没啥意义
10楼|netvideo|2025-02-17 01:42:29|只看此ID
谁这么有钱去复现训练别人的完整大模型，大风吹来的钱也不是这么花的。再说大模型给全部源代码也不好复现，写论文都定随机种子，工程上都不定随机种子，利用随机性取得最好的效果，不同的人，不同的时间出来的结果可能差很多。

【在 Ezer 的大作中提到: 】
: 没有源代码，很难复现包括encoder的完整模型
: 发自「今日水木 on M2012K11AC」
--
FROM 125.69.13.*
11楼|dreamr|2025-02-17 08:46:58|只看此ID
哪个encoder？
我记得deepseek 也是decoder only 的Transformer架构

【在 Ezer 的大作中提到: 】
: 没有源代码，很难复现包括encoder的完整模型
: 发自「今日水木 on M2012K11AC」
--
FROM 111.206.94.*
12楼|NewMonk|2025-02-17 10:32:46|只看此ID
一个乞丐，还要嫌弃别人施舍的粥太稀了。
这明显是自己没有摆正自己的位置！

【在 Ezer 的大作中提到: 】
: 不开源模型，就无法自己更新迭代，用得越多套得越牢
: 发自「今日水木 on M2012K11AC」
--
FROM 223.70.82.*
13楼|chunhui|2025-02-17 10:45:32|只看此ID
ds没有把服务器密钥公开，也不算完全的开源。

【在 heideggerr 的大作中提到: 】
: LZ的意思应该是把模型训练过程也开源，包括模型训练算法、语料，甚至训练设备也应该放到云端，让大家免费使用！
--
FROM 111.196.128.*