- 主题:deepseek是“革命性”创新还是“微”创新?
是提出了新训练方法,还是专注于模型蒸馏,在让模型可以变得更小方面有重要进展?
--
FROM 114.247.186.*
整个架构算是革命性的。
【 在 chndgnx 的大作中提到: 】
: 是提出了新训练方法,还是专注于模型蒸馏,在让模型可以变得更小方面有重要进展?
--
FROM 61.150.11.*
架构依然在Transformer框架内的改进,还是突破了?
【 在 profounder 的大作中提到: 】
: 标 题: Re: deepseek是“革命性”创新还是“微”创新?
: 发信站: 水木社区 (Sun Jan 26 17:45:08 2025), 站内
:
:
: 整个架构算是革命性的。
:
: 【 在 chndgnx 的大作中提到: 】
: : 是提出了新训练方法,还是专注于模型蒸馏,在让模型可以变得更小方面有重要进展?
:
: --
:
: ※ 来源:·水木社区 mysmth.net·[FROM: 61.150.11.*]
--
FROM 114.247.186.*
总体结构是创新的。
【 在 chndgnx 的大作中提到: 】
: 架构依然在Transformer框架内的改进,还是突破了?
--
FROM 61.150.11.*
如果真的大幅降低了训练成本,那么是革命性的。
【 在 chndgnx 的大作中提到: 】
: 是提出了新训练方法,还是专注于模型蒸馏,在让模型可以变得更小方面有重要进展?
--
FROM 39.144.161.*
outcome award RL,不是创新,而且不少人认为不如process award强化学习
。稀疏激活MOE(就是只激活部分参数运算),是新的研究领域,但也不是它创新的,算
是比较早的应用,目前这个领域还有很多需要解决的问题,存在局限。但是这两点,本
身是可以大规模降低算力需求。这大概是现在,夸它的人强调其算力资源需求少,而贬
他的人说体验一般般,对比一些模型在某写具体的点上也不如。
【 在 profounder 的大作中提到: 】
: 总体结构是创新的。
--
FROM 223.104.40.*
训练成本降低是因为它可以利用现有语言模型来进行训练
有人在刚发布时用英文提问它的model
回答是chatgpt
因为站在了巨人们的肩膀上
所以成本大幅降低
国外的大语言模型也用过文心一言
【 在 Xjt (Voldemort) 的大作中提到: 】
: 如果真的大幅降低了训练成本,那么是革命性的。
: 【 在 chndgnx 的大作中提到: 】
: : 是提出了新训练方法,还是专注于模型蒸馏,在让模型可以变得更小方面有重要进展?
:
--
FROM 175.163.144.*
这个不是根本原因。
【 在 mindcontrol 的大作中提到: 】
: 训练成本降低是因为它可以利用现有语言模型来进行训练
: 有人在刚发布时用英文提问它的model
: 回答是chatgpt
: ...................
--
FROM 61.150.11.*
有什么比利用近似标准答案的数据来训练
来的更加节省资源?
【 在 profounder (o(∩_∩)o) 的大作中提到: 】
:
: 这个不是根本原因。
:
: 【 在 mindcontrol 的大作中提到: 】
--
FROM 175.163.144.*
不重要,结果上是低成本,高性能,没被美的甩开就行了
--
FROM 218.12.19.*