deepseek是“革命性”创新还是“微”创新？

水木社区手机版

主题:deepseek是“革命性”创新还是“微”创新？
楼主|chndgnx|2025-01-26 17:43:00|只看此ID
是提出了新训练方法，还是专注于模型蒸馏，在让模型可以变得更小方面有重要进展？
--
FROM 114.247.186.*
1楼|profounder|2025-01-26 17:44:52|只看此ID
整个架构算是革命性的。

【在 chndgnx 的大作中提到: 】
: 是提出了新训练方法，还是专注于模型蒸馏，在让模型可以变得更小方面有重要进展？
--
FROM 61.150.11.*
2楼|chndgnx|2025-01-26 17:45:42|只看此ID
架构依然在Transformer框架内的改进，还是突破了？

【在 profounder 的大作中提到: 】
: 标题: Re: deepseek是“革命性”创新还是“微”创新？
: 发信站: 水木社区 (Sun Jan 26 17:45:08 2025), 站内
:
:
: 整个架构算是革命性的。
:
: 【在 chndgnx 的大作中提到: 】
: : 是提出了新训练方法，还是专注于模型蒸馏，在让模型可以变得更小方面有重要进展？
:
: --
:
: ※ 来源:·水木社区 mysmth.net·[FROM: 61.150.11.*]
--
FROM 114.247.186.*
3楼|profounder|2025-01-26 17:46:35|只看此ID

总体结构是创新的。

【在 chndgnx 的大作中提到: 】
: 架构依然在Transformer框架内的改进，还是突破了？
--
FROM 61.150.11.*
4楼|Xjt|2025-01-26 17:51:32|只看此ID
如果真的大幅降低了训练成本，那么是革命性的。
【在 chndgnx 的大作中提到: 】
: 是提出了新训练方法，还是专注于模型蒸馏，在让模型可以变得更小方面有重要进展？
--
FROM 39.144.161.*
5楼|anylinkin|2025-01-26 18:44:16|只看此ID
outcome award RL，不是创新，而且不少人认为不如process award强化学习

。稀疏激活MOE（就是只激活部分参数运算），是新的研究领域，但也不是它创新的，算
是比较早的应用，目前这个领域还有很多需要解决的问题，存在局限。但是这两点，本
身是可以大规模降低算力需求。这大概是现在，夸它的人强调其算力资源需求少，而贬
他的人说体验一般般，对比一些模型在某写具体的点上也不如。

【在 profounder 的大作中提到: 】
: 总体结构是创新的。
--
FROM 223.104.40.*
6楼|mindcontrol|2025-01-27 09:03:49|只看此ID
训练成本降低是因为它可以利用现有语言模型来进行训练

有人在刚发布时用英文提问它的model
回答是chatgpt

因为站在了巨人们的肩膀上
所以成本大幅降低

国外的大语言模型也用过文心一言

【在 Xjt (Voldemort) 的大作中提到: 】
:  如果真的大幅降低了训练成本，那么是革命性的。
:  【在 chndgnx 的大作中提到: 】
:  : 是提出了新训练方法，还是专注于模型蒸馏，在让模型可以变得更小方面有重要进展？
:
--
FROM 175.163.144.*
7楼|profounder|2025-01-27 09:06:18|只看此ID
这个不是根本原因。

【在 mindcontrol 的大作中提到: 】
: 训练成本降低是因为它可以利用现有语言模型来进行训练
: 有人在刚发布时用英文提问它的model
: 回答是chatgpt
: ...................
--
FROM 61.150.11.*
8楼|mindcontrol|2025-01-27 09:19:33|只看此ID
有什么比利用近似标准答案的数据来训练
来的更加节省资源？

【在 profounder (o(∩_∩)o) 的大作中提到: 】
:
:   这个不是根本原因。
:
:  【在 mindcontrol 的大作中提到: 】
--
FROM 175.163.144.*
9楼|xianwuyiye|2025-01-30 12:53:32|只看此ID
不重要，结果上是低成本，高性能，没被美的甩开就行了
--
FROM 218.12.19.*