- 主题:deepseek是“革命性”创新还是“微”创新?
是提出了新训练方法,还是专注于模型蒸馏,在让模型可以变得更小方面有重要进展?
--
FROM 114.247.186.*
整个架构算是革命性的。
【 在 chndgnx 的大作中提到: 】
: 是提出了新训练方法,还是专注于模型蒸馏,在让模型可以变得更小方面有重要进展?
--
FROM 61.150.11.*
架构依然在Transformer框架内的改进,还是突破了?
【 在 profounder 的大作中提到: 】
: 标 题: Re: deepseek是“革命性”创新还是“微”创新?
: 发信站: 水木社区 (Sun Jan 26 17:45:08 2025), 站内
:
:
: 整个架构算是革命性的。
:
: 【 在 chndgnx 的大作中提到: 】
: : 是提出了新训练方法,还是专注于模型蒸馏,在让模型可以变得更小方面有重要进展?
:
: --
:
: ※ 来源:·水木社区 mysmth.net·[FROM: 61.150.11.*]
--
FROM 114.247.186.*
总体结构是创新的。
【 在 chndgnx 的大作中提到: 】
: 架构依然在Transformer框架内的改进,还是突破了?
--
FROM 61.150.11.*
如果真的大幅降低了训练成本,那么是革命性的。
【 在 chndgnx 的大作中提到: 】
: 是提出了新训练方法,还是专注于模型蒸馏,在让模型可以变得更小方面有重要进展?
--
FROM 39.144.161.*
训练成本降低是因为它可以利用现有语言模型来进行训练
有人在刚发布时用英文提问它的model
回答是chatgpt
因为站在了巨人们的肩膀上
所以成本大幅降低
国外的大语言模型也用过文心一言
【 在 Xjt (Voldemort) 的大作中提到: 】
: 如果真的大幅降低了训练成本,那么是革命性的。
: 【 在 chndgnx 的大作中提到: 】
: : 是提出了新训练方法,还是专注于模型蒸馏,在让模型可以变得更小方面有重要进展?
:
--
FROM 175.163.144.*
这个不是根本原因。
【 在 mindcontrol 的大作中提到: 】
: 训练成本降低是因为它可以利用现有语言模型来进行训练
: 有人在刚发布时用英文提问它的model
: 回答是chatgpt
: ...................
--
FROM 61.150.11.*
有什么比利用近似标准答案的数据来训练
来的更加节省资源?
【 在 profounder (o(∩_∩)o) 的大作中提到: 】
:
: 这个不是根本原因。
:
: 【 在 mindcontrol 的大作中提到: 】
--
FROM 175.163.144.*
不重要,结果上是低成本,高性能,没被美的甩开就行了
--
FROM 218.12.19.*
微创新,就和星舰之于N1
也不过是思考链而已
【 在 chndgnx 的大作中提到: 】
: 是提出了新训练方法,还是专注于模型蒸馏,在让模型可以变得更小方面有重要进展?
--
FROM 223.198.81.*