[合集] deepseek肯定有贡献，但不属于原创

水木社区手机版

展开|楼主|同主题展开|返回

主题:[合集] deepseek肯定有贡献，但不属于原创
albedo|2025-02-13 15:20:03|
☆─────────────────────────────────────☆
   Y93SSYS711 (Mikle) 于  (Mon Feb 10 14:38:39 2025)  提到:

发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。

其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。

deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。

有 98 位用户评价了这篇文章：
[  ] angusta: DS相当于六代机。深度学习相当三代机，上世纪神经网络是一代机
[-5] cnlisy90: 工程化不属于原创？
[-5] yutouno1: 太low
[-5] OxFFFFF: 先把单词写对：chatGPT
[  ] Biowas: 看标题我就觉得楼主会被扣分，果不其然！
[-5] Barbidou: 蒸馏早就有了
[-5] vickiewang: 脏口就来
[-5] wholeholes:
[  ] ROGERMOORE: 科兴疫苗肯定有贡献，但不知道是不是属于原创
[-5] i90: 最后一句话彻底暴露了您的无知
[-5] likenk:
[-5] TENNARX: deepseek发现蒸馏？这义务尽孝的素质真不如拿狗粮的
[-5] jcz: 楼主厉害，一句话都没说对也不容易，果然是无知者无畏，真敢喷。
[-5] lt0: 你是一事无成的lowb
[  ] dcxj: 人总是要学会承认别人很厉害
[-5] wangsee: 多说一句都是……
[-5] meander: 不懂装懂，张口就来
[-5] september2: 看不完都
[-5] shaolimin:
[  ] armes: 1到100同样厉害的，为啥要负分。
[-5] kevinz: 连ChatGPT都拼不对的人也来评论AI了……
[+1] ksxfhs: 工程优化性质，但蒸馏不是原创，上面的都啥玩易
[  ] linkoutline2: 别的版就不扣你分了，这里的水发言真是菜
[-5] semper:
[-5] genetics:
[-5] zvi8891:
[-5] smem:
[+5] gongbo0801: 打负分的，一群傻吊。楼主说的话，明明是正确的
[-5] ganymedes: 毛也不懂就敢瞎评，神经网络和深度学习才是0-1
[  ] shouliudan: 跟上主流算法就不错了，不像清朝那样脱离工业革命
[  ] alamoo: 无知基础上的错判、无能基础上的偏激
[-5] queue: sb
[  ] nOOneknOws: chat'gpt也不算0-1，只有非洲的猴子第一次走出森林才算
[-5] blueblue001: 就是你们这些软骨病把青椒名声毁了
[-5] haili: 最后一句暴露了你的SB
[-5] RealBetis: 结论一半一半但论据全错，互联网就是不懂的也有话语权可以瞎逼逼
[-5] flukeox: Σ(☉▽☉"a
[-5] orangeNDY: 国内锁IP，原创你个大头鬼
[  ] lovefreewind: 连深度学习都不是纯原创....
[-5] sinclair6:
[-5] sym:
[-5] Milutinovic: 这是那个一天到晚抹黑裤子大学的傻子
[-5] solomon99: chargpt是啥。另外GPT也是transformer架构
[-5] fanzhou: 无知到没底线
[  ] baoqi3: 应用很重要，但全社会也要鼓励和尊重原创，科学家不要钱但要尊重
[-5] foresteen: 无知且low
[-5] yj0613: 黑化角度不好，重新编，要用潜移默化、不知不觉的方法，效果才好
[-5] boeingbwb:
[-5] bravapple: 你对啥是原创一无所知。
[-5] T24: 独醒？
[-5] musheng: 无知无畏
[-5] kuailedemao: 文科生？
[-5] morrischen12:
[-5] flyingfairy: 什么人都能指点江山啊
[-5] wayne28: 原创是相对的，其实没必要纠结于此。
[-5] Comgarden: 懒得评论，直接扣分吧
[-5] pkupctner: 工程应用是不是原创没那么重要
[-5] yidaoqie:
[-5] cangyue0608: 又给科大丢人来了
[-5] luoboxiong1: 没有中国人发明指南针，世界还是原始社会。这些发明都不是原创。
[-5] TY0723: 蠢货又来带节奏了
[-5] heyuanlie:
[-5] blueboy76:
[  ] t430: 莱特对飞机贡献大后来各家飞机制造商一样伟大
[-5] skx:
[-5] fire2gold: 确实
[-5] vinbo:
[-5] thereader: 智力堪忧
[-5] fensefa: 一看就是不懂技术的
[-5] xiaomayi0214:
[-5] WCDMA:
[-5] chinesehero: 不懂还喜欢瞎BB。
[-5] haiyy:
[-5] gaabby:
[-5] GGman: 这不是原创什么是原创
[-5] hpf911:
[-5] psrido: 中国人发明火药算0-1么，列强用火药打开国门算1-100不
[-5] huazhzhai:
[-5] yourcarin0:
[-5] zdzaba: 令人目瞪口呆的低智贴
[-5] king07: 喜欢跟风，看到这么多人给你负分，那我必须跟一个，哈哈
[-5] rjra:
[-5] caodish5ci: 没长进
[  ] hothail: 本帖肯定对畜牧业有贡献，但肯定不是原创
[+5] uprollup:
[-5] soleID:
[-2] Wkalone: 谨慎怀疑楼主是美帝或者日本派来的JD，请网警关注
[-5] afterlife: 脑子是个好东西，但是你没有
[-5] ArhatX:
[-5] xsw: 跪着的反思党？
[  ] chaojigong: 说的没错吧
[+1] black2009: 可以分清楚事情，大家再吵观点
[-5] ct00: 往前看，bb这些没鸟用，努力加油干，超过他才是本事
[-5] dccxww:
[-5] axlyyj: 跪久了？
[-5] blueken: 一个外行看了几个短视频就自以为是的来指点江山了
[-5] nikon550d: 给你。。。
[-5] kahniu: 按照这个，第一个从树上下地的猴子，第一个出现的单细胞才是原创

☆─────────────────────────────────────☆
   Y93SSYS711 (Mikle) 于  (Mon Feb 10 14:39:18 2025)  提到:

欢迎大家实事求是讨论

☆─────────────────────────────────────☆
   Armageddon (双子星--闭关修炼) 于  (Mon Feb 10 14:42:35 2025)  提到:

1-100同样重要啊，爱因斯坦的质能方程是原子弹的理论基础，后面把原子弹造出来的

就是1-100啊，但意义不大么？

按照你这说法，其实连chatGPT都不算0-1，只能算1-10，deepseek可以算10-100了

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   angusta (big toe) 于  (Mon Feb 10 14:42:42 2025)  提到:

DS相当于六代机。深度学习相当三代机，上世纪神经网络是一代机

【在 Y93SSYS711 的大作中提到: 】
: 欢迎大家实事求是讨论

☆─────────────────────────────────────☆
   carbon (On the list) 于  (Mon Feb 10 14:44:10 2025)  提到:

主要是“突破了帝国主义的封锁”，往前几年的话，就没多大价值了

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   Y93SSYS711 (Mikle) 于  (Mon Feb 10 14:45:28 2025)  提到:

也同意你的说法

【在 Armageddon 的大作中提到: 】
: 1-100同样重要啊，爱因斯坦的质能方程是原子弹的理论基础，后面把原子弹造出来的
: 就是1-100啊，但意义不大么？
: 按照你这说法，其实连chatGPT都不算0-1，只能算1-10，deepseek可以算10-100了
: ...................

☆─────────────────────────────────────☆
   Y93SSYS711 (Mikle) 于  (Mon Feb 10 14:46:13 2025)  提到:

这么比如，还是夸大了DS，不准确，不实在

【在 angusta 的大作中提到: 】
: DS相当于六代机。深度学习相当三代机，上世纪神经网络是一代机
:
:

☆─────────────────────────────────────☆
   Y93SSYS711 (Mikle) 于  (Mon Feb 10 14:47:03 2025)  提到:

你从更高的层面进行评价，也对

【在 carbon 的大作中提到: 】
: 主要是“突破了帝国主义的封锁”，往前几年的话，就没多大价值了
:

☆─────────────────────────────────────☆
   FDA (药监局) 于  (Mon Feb 10 14:47:36 2025)  提到:

  是不是名师出高徒的意思？ deepseek找chatgpt学习？

  或者玩命问其他模型然后记下来？

【在 Y93SSYS711 的大作中提到: 】
: 标  题: deepseek肯定有贡献，但不属于原创
: 发信站: 水木社区 (Mon Feb 10 14:38:39 2025), 站内
:
:
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
:
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
:
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
:
:
:
: --
:
: ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 223.104.41.*]
:

☆─────────────────────────────────────☆
   Y93SSYS711 (Mikle) 于  (Mon Feb 10 14:48:58 2025)  提到:

这么比如，也没有错

【在 FDA 的大作中提到: 】
: 是不是名师出高徒的意思？ deepseek找chatgpt学习？
:   或者玩命问其他模型然后记下来？
:

☆─────────────────────────────────────☆
   FDA (药监局) 于  (Mon Feb 10 15:11:42 2025)  提到:

  把师傅会的都学过来然后自己再学点新的

  教会徒弟饿死师傅啊哈哈

【在 Y93SSYS711 的大作中提到: 】
: 标  题: Re: deepseek肯定有贡献，但不属于原创
: 发信站: 水木社区 (Mon Feb 10 14:48:58 2025), 站内
:
:
: 这么比如，也没有错
:
:
: 【在 FDA 的大作中提到: 】
: : 是不是名师出高徒的意思？ deepseek找chatgpt学习？
: :   或者玩命问其他模型然后记下来？
: :
:
: --
:
: ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 223.104.41.*]

☆─────────────────────────────────────☆
   Y93SSYS711 (Mikle) 于  (Mon Feb 10 15:16:09 2025)  提到:

哈哈，没错，所以美国那边猴急

【在 FDA 的大作中提到: 】
: 把师傅会的都学过来然后自己再学点新的
:   教会徒弟饿死师傅啊哈哈
:

☆─────────────────────────────────────☆
   FDA (药监局) 于  (Mon Feb 10 15:21:53 2025)  提到:

能不急么

如果再弄出机器人被东大拆了学老美就没招了

东大海量工程师穷举都能穷举死老美

【在 Y93SSYS711 的大作中提到: 】
: 标  题: Re: deepseek肯定有贡献，但不属于原创
: 发信站: 水木社区 (Mon Feb 10 15:16:09 2025), 站内
:
:
:
: 哈哈，没错，所以美国那边猴急
:
:
: 【在 FDA 的大作中提到: 】
: : 把师傅会的都学过来然后自己再学点新的
: :   教会徒弟饿死师傅啊哈哈
: :
:
: --
:
: ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 223.104.41.*]

☆─────────────────────────────────────☆
   jinpp (jinpp) 于  (Mon Feb 10 15:29:34 2025)  提到:

这版总纠结这个问题，是没想明白，到底是0到1重要，还是最牛逼重要
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   iilxyz (小二) 于  (Mon Feb 10 15:32:20 2025)  提到:

【在 FDA 的大作中提到: 】
: 把师傅会的都学过来然后自己再学点新的
:   教会徒弟饿死师傅啊哈哈
:
谁都没证据说是学习别人的来的，就是最贵的收费账号都没有中间的推理过程，ds的推理过程从哪里学来的。

☆─────────────────────────────────────☆
   flyingpetals (flyingpetals) 于  (Mon Feb 10 15:41:15 2025)  提到:

蒸馏不是他发明的，

☆─────────────────────────────────────☆
   carbon (On the list) 于  (Mon Feb 10 15:42:26 2025)  提到:

是Hinton发明的，投稿nature还被枪毙了
【在 flyingpetals 的大作中提到: 】
: 蒸馏不是他发明的，

☆─────────────────────────────────────☆
   flyingpetals (flyingpetals) 于  (Mon Feb 10 15:44:40 2025)  提到:

然后现在成了大模型提高效率的基石，
这是2014年提出来的，
Hinton是不是今年得物理诺奖的那位

【在 carbon 的大作中提到: 】
: 是Hinton发明的，投稿nature还被枪毙了

☆─────────────────────────────────────☆
   karaisan (karaisan) 于  (Mon Feb 10 15:48:45 2025)  提到:

我们已经厌恶所谓的，0-1理论了。
其实，hinton也不能说是彻底的从0-1，他必定也借鉴了前人的东西。
与其说追求从0-1，不如说追求在既定做法下的突破，不需要管他原不原创。
如果你能针对现有的情况，从古老的文献中发掘并改进一种做法，大幅提高效果，
那就是创新，。

【在 flyingpetals 的大作中提到: 】
: 然后现在成了大模型提高效率的基石，
: 这是2014年提出来的，
: Hinton是不是今年得物理诺奖的那位
: ...................

☆─────────────────────────────────────☆
   zfbdcyj (zfbdcyj) 于  (Mon Feb 10 15:51:32 2025)  提到:

说白了就是自由探索。但是现在要搞有组织研究，必然是投入到已有的路线里面。

【在 karaisan 的大作中提到: 】
: 我们已经厌恶所谓的，0-1理论了。
: 其实，hinton也不能说是彻底的从0-1，他必定也借鉴了前人的东西。
: 与其说追求从0-1，不如说追求在既定做法下的突破，不需要管他原不原创。
: ...................

☆─────────────────────────────────────☆
   liufeiniu (一年八万里) 于  (Mon Feb 10 15:51:35 2025)  提到:

对，屠呦呦从古籍受到启发，冷萃青蒿素，如果按照0-1理论，原创属于葛洪。

【在 karaisan 的大作中提到: 】
: 我们已经厌恶所谓的，0-1理论了。
: 其实，hinton也不能说是彻底的从0-1，他必定也借鉴了前人的东西。
: 与其说追求从0-1，不如说追求在既定做法下的突破，不需要管他原不原创。
: ...................

☆─────────────────────────────────────☆
   phagephage (Max Phage) 于  (Mon Feb 10 15:52:00 2025)  提到:

别陷入0到1的思想钢印里，瓦特也不是0到1，爱迪生也不是0到1，马斯克也不是0到1呀，transformer神经网络架构算0到1么，很多人也不这么认为

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   FDA (药监局) 于  (Mon Feb 10 15:52:53 2025)  提到:

  0-1获得声望
  1-100获得财富

  各取所需  不必纠结

【在 phagephage 的大作中提到: 】
: 标  题: Re: deepseek肯定有贡献，但不属于原创
: 发信站: 水木社区 (Mon Feb 10 15:52:00 2025), 站内
:
: 别陷入0到1的思想钢印里，瓦特也不是0到1，爱迪生也不是0到1，马斯克也不是0到1呀，transformer神经网络架构算0到1么，很多人也不这么认为
:
:
: 【在 Y93SSYS711 的大作中提到: 】
: : 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: : 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: : deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: : ...................
:
: --
:
: ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 183.157.160.*]

☆─────────────────────────────────────☆
   phagephage (Max Phage) 于  (Mon Feb 10 15:54:39 2025)  提到:

没有绝对的0，哪个理论是石头里蹦出来的？最多0.1到1，那和1到10也就尺度的区别了，何必纠结

【在 FDA 的大作中提到: 】
: 0-1获得声望
:   1-100获得财富
:   各取所需  不必纠结
: ...................

☆─────────────────────────────────────☆
   zfbdcyj (zfbdcyj) 于  (Mon Feb 10 15:55:10 2025)  提到:

中国人其实比欧美更容易走极端。所以孔子才打了个中庸的补丁。

【在 phagephage 的大作中提到: 】
: 别陷入0到1的思想钢印里，瓦特也不是0到1，爱迪生也不是0到1，马斯克也不是0到1呀，transformer神经网络架构算0到1么，很多人也不这么认为
:

☆─────────────────────────────────────☆
   phagephage (Max Phage) 于  (Mon Feb 10 15:56:36 2025)  提到:

深刻
【在 zfbdcyj 的大作中提到: 】
: 中国人其实比欧美更容易走极端。所以孔子才打了个中庸的补丁。
:

☆─────────────────────────────────────☆
   flyingpetals (flyingpetals) 于  (Mon Feb 10 15:59:36 2025)  提到:

0-1当然要尊重，没有0-1，不可能有1-100，
人类历史上每一位0-1都值得人类尊重，
只是只有0-1不行，1-100同样重要，没有1-100，
你就看不到0-1了，0-1太隐秘，难发现
【在 karaisan 的大作中提到: 】
: 我们已经厌恶所谓的，0-1理论了。
: 其实，hinton也不能说是彻底的从0-1，他必定也借鉴了前人的东西。
: 与其说追求从0-1，不如说追求在既定做法下的突破，不需要管他原不原创。
: ...................

☆─────────────────────────────────────☆
   carbon (On the list) 于  (Mon Feb 10 15:59:45 2025)  提到:

哈哈，要啥自行车啊
【在 karaisan 的大作中提到: 】
: 我们已经厌恶所谓的，0-1理论了。
: 其实，hinton也不能说是彻底的从0-1，他必定也借鉴了前人的东西。
: 与其说追求从0-1，不如说追求在既定做法下的突破，不需要管他原不原创。
: ...................

☆─────────────────────────────────────☆
   karaisan (karaisan) 于  (Mon Feb 10 16:57:12 2025)  提到:

0-1之前还有0-0.1呢，没有0-1只有0.1-1

【在 flyingpetals 的大作中提到: 】
: 0-1当然要尊重，没有0-1，不可能有1-100，
: 人类历史上每一位0-1都值得人类尊重，
: 只是只有0-1不行，1-100同样重要，没有1-100，
: ...................

☆─────────────────────────────────────☆
   cperson (王阳明的致良知是真理，要真诚，不能说谎) 于  (Mon Feb 10 18:42:40 2025)  提到:

糊涂，打败外国异族的就是英雄，心中没有同胞民族很不好。在其他国家异族就是个屁，没人在乎异族异种的任何优点，因为要先在乎爱护自己的同胞民族，否则猪狗不如。不爱同胞，对外国异族好不是包容不是善是猪狗不如。明白了吗，原创是个屁。
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。其他的大模型，都是在charGP ...

☆─────────────────────────────────────☆
   cperson (王阳明的致良知是真理，要真诚，不能说谎) 于  (Mon Feb 10 18:45:55 2025)  提到:

我们的电车解决了北京雾霾，弯道超车日本畜牲禽兽民族，居功至伟。狗屁污染环境的油车就是狗屁原创，还要捧欧美日它们吗？看看它们怎么做，它们知道竞争不过伟大的华族，直接掀桌子不弄电车了，要挤掉我们的优势
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。其他的大模型，都是在charGP ...

☆─────────────────────────────────────☆
   cperson (王阳明的致良知是真理，要真诚，不能说谎) 于  (Mon Feb 10 18:47:29 2025)  提到:

它们为了和伟大华族竞争无所不为，再看看你的观点。华族是世界第一民族，华人科学家工程师世界最好，所以占据领先理所应当，这是根本
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。其他的大模型，都是在charGP ...

☆─────────────────────────────────────☆
   cperson (王阳明的致良知是真理，要真诚，不能说谎) 于  (Mon Feb 10 18:48:33 2025)  提到:

任何新技术必然是以前技术的部分传承，从头弄不可能
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。其他的大模型，都是在charGP ...

☆─────────────────────────────────────☆
   Y93SSYS711 (Mikle) 于  (Mon Feb 10 19:16:54 2025)  提到:

学习了

【在 flyingpetals 的大作中提到: 】
: 蒸馏不是他发明的，

☆─────────────────────────────────────☆
   Y93SSYS711 (Mikle) 于  (Mon Feb 10 19:23:48 2025)  提到:

我们中华民族发展科学技术切记浮夸、盲目自大，一定要实事求是。既要看到自己的优势、优点，也要知道自己的缺点，只有这样，我们华族的科学技术才能健康、长久发展，最终屹立在世界科技之巅。

当中华民族的科学技术问鼎全球，彻底征服欧美日的科学家，让他们心服口服，欧美日的科学家就会帮我们轰炸欧美日的政客，我们中华民族此时才能真正征服世界，这是一种长期战略

【在 cperson 的大作中提到: 】
: 它们为了和伟大华族竞争无所不为，再看看你的观点。华族是世界第一民族，华人科学家工程师世界最好，所以占据领先理所应当，这是根本

☆─────────────────────────────────────☆
   carbon (On the list) 于  (Mon Feb 10 19:24:39 2025)  提到:

华族是日本用语
【在 Y93SSYS711 的大作中提到: 】
: 我们中华民族发展科学技术切记浮夸、盲目自大，一定要实事求是。既要看到自己的优势、优点，也要知道自己的缺点，只有这样，我们华族的科学技术才能健康、长久发展，最终屹立在世界科技之巅。
: 当华族的科学技术问鼎全球，彻底征服欧美日的科学家，让他们心服口服，欧美日的科学家就会帮我们轰炸欧美日的政客，我们华族此时才能真正征服世界，这是一种长期战略

☆─────────────────────────────────────☆
   Y93SSYS711 (Mikle) 于  (Mon Feb 10 19:26:07 2025)  提到:

切记浮夸、盲目自大，发展科学技术一定要实事求是，一步一个脚印，只有这样才能让别人真正信服

【在 cperson 的大作中提到: 】
: 糊涂，打败外国异族的就是英雄，心中没有同胞民族很不好。在其他国家异族就是个屁，没人在乎异族异种的任何优点，因为要先在乎爱护自己的同胞民族，否则猪狗不如。不爱同胞，对外国异族好不是包容不是善是猪狗不如。明白了吗，原创是个屁。

☆─────────────────────────────────────☆
   Y93SSYS711 (Mikle) 于  (Mon Feb 10 19:26:42 2025)  提到:

哈哈，那我修改一下

【在 carbon 的大作中提到: 】
: 华族是日本用语

☆─────────────────────────────────────☆
   Y93SSYS711 (Mikle) 于  (Mon Feb 10 19:30:08 2025)  提到:

发展科学技术0-1阶段是最重要的，

要想中华民族科学技术雄霸全球，首先要重视并发现更多的0-1

【在 phagephage 的大作中提到: 】
: 别陷入0到1的思想钢印里，瓦特也不是0到1，爱迪生也不是0到1，马斯克也不是0到1呀，transformer神经网络架构算0到1么，很多人也不这么认为
:

☆─────────────────────────────────────☆
   nobeIaureate (nobeIaureate) 于  (Mon Feb 10 19:39:28 2025)  提到:

有毛病
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   Simu1ink (亖亩林垦) 于  (Mon Feb 10 20:37:51 2025)  提到:

re
都是站在前人肩膀上

【在 karaisan 的大作中提到: 】
我们已经厌恶所谓的，0-1理论了。
其实，hinton也不能说是彻底的从0-1，他必定也借鉴了前人的东西。
与其说追求从0-1，不如说追求在既定做法下的突破，不需要管他原不原创。
如果你能针对现有的情况，从古老的文献中发掘并改进一种做法，大幅提高效果，
那就是创新，。

【在 flyingpetals 的大作中提到: 】
: 然后现在成了大模型提高效率的基石，
: 这是2014年提出来的，
: Hinton是不是今年得物理诺奖的那位
: ...................

☆─────────────────────────────────────☆
   carbon (On the list) 于  (Mon Feb 10 20:38:39 2025)  提到:

这种事情，不在于你活着什么态度，是你死了以后再说

【在 Simu1ink 的大作中提到: 】
: re
: 都是站在前人肩膀上
: 我们已经厌恶所谓的，0-1理论了。
: ...................

☆─────────────────────────────────────☆
   Simu1ink (亖亩林垦) 于  (Mon Feb 10 20:38:56 2025)  提到:

都得上溯到旧石器

【在 phagephage 的大作中提到: 】
没有绝对的0，哪个理论是石头里蹦出来的？最多0.1到1，那和1到10也就尺度的区别了，何必纠结

【在 FDA 的大作中提到: 】
: 0-1获得声望
:   1-100获得财富
:   各取所需  不必纠结
: ...................

☆─────────────────────────────────────☆
   chaobill (若我离去,后会无期) 于  (Mon Feb 10 21:08:05 2025)  提到:

相当于 N1 到星舰的进步
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   iilxyz (小二) 于  (Mon Feb 10 21:46:10 2025)  提到:

【在 flyingpetals 的大作中提到: 】
: 然后现在成了大模型提高效率的基石，
: 这是2014年提出来的，
: Hinton是不是今年得物理诺奖的那位
: ...................
hinton本身也被质疑是重新发现好吧

☆─────────────────────────────────────☆
   newguester (newguester) 于  (Tue Feb 11 08:48:05 2025)  提到:

科学上意义没那么厉害
技术上解决卡脖子问题才巨大
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   victd (rotor) 于  (Tue Feb 11 09:08:13 2025)  提到:

原创是高校的事情，但是学阀只会追热点灌水，原创上表现一坨翔。

现在中国的很多成就是工程技术上的，是企业院所取得的，是海量工程师996的结果，

但是学阀总喜欢拿工程技术的进步给自己贴金，继续忽悠郭嘉集中资源给自己，

这些人是打追击战筛选出来的，根本打不了攻城战，没有训练到深度思考能力。

☆─────────────────────────────────────☆
   MountWater (煮豆烧豆杆，豆子嗷嗷哭) 于  (Tue Feb 11 09:23:37 2025)  提到:

莱特兄弟制造了飞机，但中国的六代机地位同样不弱。

当然，不得不承认，从无到有，是一件不容易的事儿。

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   liuqixiao27 (打架手揣兜) 于  (Tue Feb 11 09:55:27 2025)  提到:

不说结论是否正确，你显然不是行业内的，蒸馏也不是他们发明的

☆─────────────────────────────────────☆
   mbicmer (douba) 于  (Tue Feb 11 10:48:03 2025)  提到:

chatGPT也不是0-1的创新，transformer，深度学习也好多年啦，chatgpt出来之后，各种小创新这几年陆陆续续都有。
但是chatGPT在人工智能发展历史上，无疑算是里程碑式的创新；Deepseek也有划时代的意义，尽管没有chatgpt的意义大。算不算原创不重要，从创新的影响看，肯定是仅次于chatgpt的，可能比Sora的影响还要大。

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   aboveall (沃夫) 于  (Tue Feb 11 10:56:19 2025)  提到:

最后一句"让别人真正信服"纯属多余
【在 Y93SSYS711 的大作中提到: 】
: 切记浮夸、盲目自大，发展科学技术一定要实事求是，一步一个脚印，只有这样才能让别人真正信服
: --

☆─────────────────────────────────────☆
   aboveall (沃夫) 于  (Tue Feb 11 10:56:46 2025)  提到:

顶你
【在 cperson 的大作中提到: 】
: 糊涂，打败外国异族的就是英雄，心中没有同胞民族很不好。在其他国家异族就是个屁，没人在乎异族异种的任何优点，因为要先在乎爱护自己的同胞民族，否则猪狗不如。不爱同胞，对外国异族好不是包容不是善是猪狗不如。明白了吗，原创是个屁。
: --

☆─────────────────────────────────────☆
   Y93SSYS711 (Mikle) 于  (Tue Feb 11 13:01:20 2025)  提到:

deepseek还是基于人家的charGPT、transformer的，相比charGPT、transformer，deepseek算是小创新，咱们自己没必要夸大，自欺欺人，浮夸就把自己搞垮了

【在 mbicmer 的大作中提到: 】
: chatGPT也不是0-1的创新，transformer，深度学习也好多年啦，chatgpt出来之后，各种小创新这几年陆陆续续都有。
: 但是chatGPT在人工智能发展历史上，无疑算是里程碑式的创新；Deepseek也有划时代的意义，尽管没有chatgpt的意义大。算不算原创不重要，从创新的影响看，肯定是仅次于chatgpt的，可能比Sora的影响还要大。
:

☆─────────────────────────────────────☆
   Y93SSYS711 (Mikle) 于  (Tue Feb 11 13:11:39 2025)  提到:

加油干，

【在 FDA 的大作中提到: 】
: 能不急么
:  如果再弄出机器人被东大拆了学老美就没招了
:  东大海量工程师穷举都能穷举死老美
: ...................

☆─────────────────────────────────────☆
   iilxyz (小二) 于  (Tue Feb 11 15:17:32 2025)  提到:

chatgpt技术上哪里有创新,scaling up也是百度的工作，tranformer也不是他的，他究
竟提了啥技术，除了力大飞转

【在 Y93SSYS711 的大作中提到: 】
: deepseek还是基于人家的charGPT、transformer的，相比charGPT、transformer，deepseek算是小创新，咱们自己没必要夸大，自欺欺人，浮夸就把自己搞垮了

☆─────────────────────────────────────☆
   mbicmer (douba) 于  (Tue Feb 11 15:40:50 2025)  提到:

所以我说要看影响力。

没有创新不基于别人的技术的，chatgpt也是基于transformer的，不能说chatgpt就是小创新吧，transformer也不是openai发明的。还要网上追溯吗，还有深度学习、神经网络，都玩了几十年了。

从行业影响力，deepseek就是仅次于chatgpt的影响力。不浮夸，也不至于这点都不承认吧。

【在 Y93SSYS711 的大作中提到: 】
: deepseek还是基于人家的charGPT、transformer的，相比charGPT、transformer，deepseek算是小创新，咱们自己没必要夸大，自欺欺人，浮夸就把自己搞垮了
:

☆─────────────────────────────────────☆
   yasaka (睡神) 于  (Wed Feb 12 00:08:10 2025)  提到:

蒸馏早就有了
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
:
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、
: ..................

发自「今日水木 on ALN-AL10」

☆─────────────────────────────────────☆
   angusta (big toe) 于  (Wed Feb 12 00:12:16 2025)  提到:

1.硅谷大公司股价跌了，实实在在的。

2.欧美Z.F以及媒体都表达非常恐慌了。

3.国内一帮XF这么多年，在AI领域有什么拿的出手的东西？还不是死命的搞砸钱搞基建的路子。

@victd @carbon

【在 Y93SSYS711 的大作中提到: 】
: deepseek还是基于人家的charGPT、transformer的，相比charGPT、transformer，deepseek算是小创新，咱们自己没必要夸大，自欺欺人，浮夸就把自己搞垮了
:

☆─────────────────────────────────────☆
   angusta (big toe) 于  (Wed Feb 12 00:12:42 2025)  提到:

1.硅谷大公司股价跌了，实实在在的。

2.欧美Z.F以及媒体都表达非常恐慌了。

3.国内一帮XF这么多年，在AI领域有什么拿的出手的东西？还不是死命的搞砸钱搞基建的路子。

@victd @carbon

【在 mbicmer 的大作中提到: 】
: 所以我说要看影响力。
: 没有创新不基于别人的技术的，chatgpt也是基于transformer的，不能说chatgpt就是小创新吧，transformer也不是openai发明的。还要网上追溯吗，还有深度学习、神经网络，都玩了几十年了。
: 从行业影响力，deepseek就是仅次于chatgpt的影响力。不浮夸，也不至于这点都不承认吧。
: ...................

☆─────────────────────────────────────☆
   angusta (big toe) 于  (Wed Feb 12 00:12:59 2025)  提到:

1.硅谷大公司股价跌了，实实在在的。

2.欧美Z.F以及媒体都表达非常恐慌了。

3.国内一帮XF这么多年，在AI领域有什么拿的出手的东西？还不是死命的搞砸钱搞基建的路子。

@victd @carbon

【在 yasaka 的大作中提到: 】
: 蒸馏早就有了
: 发自「今日水木 on ALN-AL10」

☆─────────────────────────────────────☆
   larryxin (神眼微尘) 于  (Wed Feb 12 01:02:59 2025)  提到:

ChatGPT和transformer也不是0~1

☆─────────────────────────────────────☆
   Eldo (秋景) 于  (Wed Feb 12 02:10:45 2025)  提到:

你可能是被之前的说法给影响了，说什么中国人只擅长1-100，不擅长0-1，也就是不擅长创新。
其实01是创新，但1-100里面也有许多创新的。事实上，绝大多数东西都是在前人基础上创新啊，完全是零的领域几乎没有了，又不是原始社会。
所以不用纠结这个问题。
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   bhfwg (bhfwg) 于  (Wed Feb 12 04:51:54 2025)  提到:

chatgpt基础是tranform，tranformer才算0-1吧

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   geroge (geroge) 于  (Wed Feb 12 05:17:47 2025)  提到:

这些年无数的案例表明，0-1的想法创新米帝最擅长，主要是有天马行空的想法，米帝那种创新型的教育模式适合这个，1-100的工程化落地兔子最擅长，主要是有大量的严谨功底扎实的工程师来不断迭代微创新来落地。
光伏也是米帝那边先创新，几个回国人员在兔子这边开始创业抄作业，结果现在兔子光伏独霸蓝星，无他，成本太低了
电磁弹射米帝先提出方案，成型也是兔子用着更顺溜
还有电磁炮，电动车，高超声速飞行器，甚至像长江存储这种，一开始被封锁，一旦突破了就开始用低成本卷死你，未来还有创新药，大飞机，甚至gpu。
对了，像减肥药glp_1，也是米帝先研发出来，再看看国内多少个在二期三期临床中，甚至双靶点，马上就卷成pd-1了
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新
: 。
:
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
:
: deepseek的主要贡献：
: 在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率
: 。
发自「快看水母于 2210132C」

☆─────────────────────────────────────☆
   ia (阿弥陀佛，我佛慈悲。) 于  (Wed Feb 12 06:13:22 2025)  提到:

你这是对蒸馏有误解。

蒸馏只能在持有大模型的基础上蒸馏出小模型，所以它可以使用Qwen/Llama蒸馏，没法使用chatgpt蒸馏。蒸馏也只能得到能力弱化版的模型，没法得到能力相当甚至更强的大模型。

deepseek目前的推理能力，强于所有的开源模型，不可能是从这些开源模型中蒸馏出来的。
deepseek r1 发布时间早于能力更强的openai o3 mini, 就算是偷到了 openai 的模型，也没有时间蒸馏了。

至于使用chatgpt的语料，也只能减少数据采集/购买成本和数据标注成本，无法减少训练成本。

【在 Y93SSYS711 的大作中提到: 】
: 标  题: deepseek肯定有贡献，但不属于原创
: 发信站: 水木社区 (Mon Feb 10 14:38:39 2025), 站内
:
:
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
:
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
:
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
:
:
:
: --
:
: ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 223.104.41.*]
:

☆─────────────────────────────────────☆
   ia (阿弥陀佛，我佛慈悲。) 于  (Wed Feb 12 06:19:54 2025)  提到:

确认大力飞砖有效这件事本身，就是最近这一波人工智能狂飙中最关键的创新了。

如果算创新的贡献的话，第一是实践并确认大力飞砖有效的openai, 第二是搞出transformer这一基础架构的google.

【在 iilxyz 的大作中提到: 】
: 标  题: Re: deepseek肯定有贡献，但不属于原创
: 发信站: 水木社区 (Tue Feb 11 15:17:32 2025), 站内
:
: chatgpt技术上哪里有创新,scaling up也是百度的工作，tranformer也不是他的，他究
: 竟提了啥技术，除了力大飞转
:
:
:
: 【在 Y93SSYS711 的大作中提到: 】
: : deepseek还是基于人家的charGPT、transformer的，相比charGPT、transformer，deepseek算是小创新，咱们自己没必要夸大，自欺欺人，浮夸就把自己搞垮了
:
: --
:
: ※ 来源:·水木社区 mysmth.net·[FROM: 117.67.155.*]

☆─────────────────────────────────────☆
   cheapestnan (cheapestnan) 于  (Wed Feb 12 06:53:04 2025)  提到:

其实，大模型本来就有。最爆炸的是打破了西方大模型对算力需求，这样就打破了对我们算力的围堵。
发自「快看水母于 JSC-AN00」

☆─────────────────────────────────────☆
   DraculaW (DraculaW) 于  (Wed Feb 12 07:01:32 2025)  提到:

你说的对牛顿肯定有贡献但是肯定不如伽利略
因为不是原创

☆─────────────────────────────────────☆
   Y3 (DZN) 于  (Wed Feb 12 07:14:30 2025)  提到:

没有从阿拉伯数字开始算
【在 Armageddon 的大作中提到: 】
: 1-100同样重要啊，爱因斯坦的质能方程是原子弹的理论基础，后面把原子弹造出来的
:
: 就是1-100啊，但意义不大么？
: ...................

☆─────────────────────────────────────☆
   xxxlll (河内股市大户) 于  (Wed Feb 12 07:19:00 2025)  提到:

美国负责0-1，中国负责1-100

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   goalgoalgoal (球进了) 于  (Wed Feb 12 07:26:07 2025)  提到:

知识蒸馏是2015年Hinton提出的经典技术，非DeepSeek原创
DeepSeek真实贡献在于：
  - 改进了分布式训练框架的能耗效率
  - 提出了特定场景下的模型压缩方案
  - 优化了中文语料预处理流程
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
:
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: ...................
--来自微微水木3.5.17

☆─────────────────────────────────────☆
   quautum (牛头) 于  (Wed Feb 12 07:33:38 2025)  提到:

你要是青椒，赶紧切腹，别误人子弟。全篇一个字都不对，能胡说八道到这个地步，真是无知者无畏

☆─────────────────────────────────────☆
   MachvPicchv (菠菜帝) 于  (Wed Feb 12 07:38:53 2025)  提到:

降低成本根本不是因为蒸馏，你屁都不懂。
如果蒸馏就可以降低成本，其他家都能实现。
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   chaojigong (大大的气球) 于  (Wed Feb 12 07:39:28 2025)  提到:

deepseek有什么？
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   mycorecpu (mycorecpu) 于  (Wed Feb 12 07:50:48 2025)  提到:

transformer也不是chatgpt发明的啊
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
:
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、
: ..................

发自「今日水木 on BVL-AN00」

☆─────────────────────────────────────☆
   frankli (我爱大美牛) 于  (Wed Feb 12 07:53:28 2025)  提到:

ds相当于瓦特的改良蒸汽机福特的t型车

【在 Y93SSYS711 (Mikle) 的大作中提到: 】
:
:  发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
:
:  其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。

☆─────────────────────────────────────☆
   rexfan (饮水思源蓬蓬獐) 于  (Wed Feb 12 07:59:58 2025)  提到:

和lenet alexnet resnet 相比如何
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   ghostcloud (行胜于言) 于  (Wed Feb 12 08:17:07 2025)  提到:

技术就没有0-1的，哪个不是长期的积累
科学发现才有，发现了就是1，没找到就是0
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   stdrj (神探狄仁杰) 于  (Wed Feb 12 08:21:56 2025)  提到:

不依赖人工的强化学习算吗？

【在 goalgoalgoal 的大作中提到: 】
: 知识蒸馏是2015年Hinton提出的经典技术，非DeepSeek原创
: DeepSeek真实贡献在于：
:   - 改进了分布式训练框架的能耗效率
: ...................

☆─────────────────────────────────────☆
   wierxian (Quantum X) 于  (Wed Feb 12 08:26:19 2025)  提到:

Transformer什么时候出来的？
神经网络算法我在2003年读研究生的时候就在研究了，虽然那个时候还没有AI这些东西
这么说Transformer远不是0-1的创新

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   liuchunhui (liuchunhui) 于  (Wed Feb 12 08:31:07 2025)  提到:

扯这个干啥，显得你牛？先拿出0-1的创新来再评价别人

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   liuchunhui (liuchunhui) 于  (Wed Feb 12 08:32:06 2025)  提到:

谁也没觉得DS是0-1的创新，人家做这个的初衷就是为了提供服务，你叫唤啥

☆─────────────────────────────────────☆
   XiaoYaMiMi (小呀嘛小咪咪) 于  (Wed Feb 12 08:33:47 2025)  提到:

明白的很呢，就是因为它不牛逼了，才跟你扯什么 0-1的

【在 jinpp (jinpp) 的大作中提到: 】
:  这版总纠结这个问题，是没想明白，到底是0到1重要，还是最牛逼重要
:  【在 Y93SSYS711 的大作中提到: 】
:  : 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
:  : 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。

☆─────────────────────────────────────☆
   BubbleRider (Bubblerider) 于  (Wed Feb 12 08:34:35 2025)  提到:

研发洁癖的最典型特征就是强调“原创”的那些人，这些人我观察大部分自己搞科研搞的都不太行，一般比较曲高和寡。
总是强调你车企就得从轮子开始造或者你卖汤圆的就得从种水稻小麦开始种地。。。

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   youself (helloword) 于  (Wed Feb 12 08:35:05 2025)  提到:

我觉得应该这么说，原创其实就是早期一堆猜测，提议，苗头，模糊的现象被一些人捕
捉到了，但是谁都说不清楚，所以只能发表等待后人验证。

后来者就去尝试这些早期的可能性，有些成功就保留下来，有些不成功，或者现阶段不
行，就只能继续束之高阁。

所以一个原创被证明有价值，实际上应该是在整个链条上所有人的贡献，换句话说要不
是这些公司把学者早期的设想实践一遍，也没人知道这些方法可行。

并且老黄要没把显卡改成ai核心算力，也无法让后来者去实验。早期这些神经网络最大
的问题就是优化。

我觉得现在最大的问题，就是所有人被所谓从0到1，原创，创新这些词语限制住了。我
经常觉得工程上的很多工作非常重要，就比方像matlab等等之类的工具，非说创新真没
有。但是通过降低科研门槛，让更多人参与进来，做更多地尝试，也是非常大的贡献。

所有的工作，应该按照不同阶段，在不同阶段产生的效应来评价。不能天天急着评奖，
数论文，数专利。

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   yzjba (菩提) 于  (Wed Feb 12 08:38:20 2025)  提到:

你起码看看论文在评价，蒸馏只是最近两篇论文中一篇论文的一个subsection
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   gsss (谷诗诗湿) 于  (Wed Feb 12 08:55:45 2025)  提到:

纠结这个没什么意义，研究都是站在巨人肩膀上的。如果没人发明电，没人发明电脑，这些都没法弄。
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
:
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: ...................
--来自微微水木3.5.16

☆─────────────────────────────────────☆
   wuan (阿呆·小虫子·点点) 于  (Wed Feb 12 08:59:07 2025)  提到:

这居然是青年教师版发的文章。
transformer也不是凭空出来的。
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   L234118 (达到) 于  (Wed Feb 12 09:00:54 2025)  提到:

【在 Y93SSYS711 的大作中提到: 】
: 欢迎大家实事求是讨论
你自己都没去人帮实事也没去求是  在这扯什么实事求是的讨论？你说这四个字时脸不臊么

☆─────────────────────────────────────☆
   laoqi (会然一笑) 于  (Wed Feb 12 09:02:41 2025)  提到:

肯定也属于原创，工程上的原创更难，带来的产业和社会影响也更容易被快速感知。我们也不用过于强调0-1，ChatGPT在开发的时候，同时在做的LLM也另外有几家。
现在不清楚Deepseek手上到底拥有哪些数据用于训练。如果都是蒸馏数据的话，下一步如何去提升模型的预测能力，以及自己开发更底层的Foundation Model，都是摆在面前的挑战。
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   ihv (tdii) 于  (Wed Feb 12 09:08:41 2025)  提到:

moe fp8 大幅降低成本但用自我强化学习反而数理能力超过了chatgpt
这是绑着一只手还超过了师傅

这个版的人如果只从所谓蒸馏这个角度讨论deepseek.
有失水平

【在 FDA 的大作中提到: 】
: 是不是名师出高徒的意思？ deepseek找chatgpt学习？
:   或者玩命问其他模型然后记下来？
:

☆─────────────────────────────────────☆
   coocodelie ( 懒得输入) 于  (Wed Feb 12 09:09:22 2025)  提到:

这是要被批死的节奏呀。
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   gfkid (gfkid) 于  (Wed Feb 12 09:10:08 2025)  提到:

毛线啊，大模型前加一个路由就成六代了
路由这么值钱
【在 angusta 的大作中提到: 】
: DS相当于六代机。深度学习相当三代机，上世纪神经网络是一代机
:
:

☆─────────────────────────────────────☆
   coocodelie ( 懒得输入) 于  (Wed Feb 12 09:12:43 2025)  提到:

简单问一下，你爱护lz了吗？

【在 cperson 的大作中提到: 】
: 糊涂，打败外国异族的就是英雄，心中没有同胞民族很不好。在其他国家异族就是个屁，没人在乎异族异种的任何优点，因为要先在乎爱护自己的同胞民族，否则猪狗不如。不爱同胞，对外国异族好不是包容不是善是猪狗不如。明白了吗，原创是个屁。

☆─────────────────────────────────────☆
   iam9527 (你灿烂的微笑，我拼命的奔跑) 于  (Wed Feb 12 09:15:08 2025)  提到:

加了color，也说的不对啊

首先，ds压根就不是蒸馏，distill需要概率对齐
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   verilog (Recall Ocean) 于  (Wed Feb 12 09:17:51 2025)  提到:

蒸馏不是辛顿早就提出来了吗？照你这么分析，DS一点贡献也没有
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   xinxinde (星星的弹孔里，将流出血红的黎明) 于  (Wed Feb 12 09:23:14 2025)  提到:

作为一个青椒，建议去读读论文再发表意见吧

chatgpt的0-1从哪儿体现？

transformer之前，CNN，RNN，attention早已经被提出了，如何体现0-1？

研究都是站在别人的肩膀上，Deepseek最重要的是性能优化和开源，影响我觉得比较大
（当然需要时间去证明）

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   lugc (刀枪剑戟) 于  (Wed Feb 12 09:23:34 2025)  提到:

米国的原子弹 H弹算原创，其他国家不算
【在 Armageddon 的大作中提到: 】
: 1-100同样重要啊，爱因斯坦的质能方程是原子弹的理论基础，后面把原子弹造出来的
: 就是1-100啊，但意义不大么？
: 按照你这说法，其实连chatGPT都不算0-1，只能算1-10，deepseek可以算10-100了
: ...................

☆─────────────────────────────────────☆
   wsischief (巴伐利亚拖拉机厂) 于  (Wed Feb 12 09:24:02 2025)  提到:

算法创新加极致的工程优化，虽然不是什么根技术创新，但是ds牛在能把点状创新成线联网，并且用极强的工程能力实现
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
:
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、
: ..................

发自「今日水木 on iPhone 15 Pro Max」

☆─────────────────────────────────────☆
   serprathu (serprathu) 于  (Wed Feb 12 09:30:37 2025)  提到:

你能解释解释什么叫做蒸馏吗？

【在 Y93SSYS711 的大作中提到: 】
: 标  题: deepseek肯定有贡献，但不属于原创
: 发信站: 水木社区 (Mon Feb 10 14:38:39 2025), 站内
:
:
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
:
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
:
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
:
:
:
: --
:
: ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 223.104.41.*]
:

☆─────────────────────────────────────☆
   rioz (Brasil 2010 & 2014) 于  (Wed Feb 12 09:37:41 2025)  提到:

哈哈，你先搞清楚deepseek做了啥贡献在哪再来讨论吧，还“发现了蒸馏等训练方法”
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   magicme (magic) 于  (Wed Feb 12 09:39:10 2025)  提到:

真的，别去评价自己不懂的了，没有必要

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   halcyonyoung (halcyonyoung) 于  (Wed Feb 12 09:39:49 2025)  提到:

transformer是0到1，gpt是验证transformer的可行性，其他大模型是重复造轮子，ds是用轮造小推车
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   lbj6 (feng) 于  (Wed Feb 12 09:42:52 2025)  提到:

根本性的意义在于可以本地部署，这是未来个体机器人必须的步骤
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
:
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、
: ..................

发自「今日水木 on iPhone SE 2」

☆─────────────────────────────────────☆
   chndgnx (中国龙) 于  (Wed Feb 12 09:46:40 2025)  提到:

到目前为止，中国的科技之路和日本差别不大。美国原始创新，东亚改进型创新。

【在 Y93SSYS711 的大作中提到: 】
: 标  题: deepseek肯定有贡献，但不属于原创
: 发信站: 水木社区 (Mon Feb 10 14:38:39 2025), 站内
:
:
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
:
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
:
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
:
:
:
: --
:
: ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 223.104.41.*]
:

☆─────────────────────────────────────☆
   chndgnx (中国龙) 于  (Wed Feb 12 09:47:21 2025)  提到:

本地部署的模型多了去了，llama，qwen都可以本地部署。

【在 lbj6 的大作中提到: 】
: 标  题: Re: deepseek肯定有贡献，但不属于原创
: 发信站: 水木社区 (Wed Feb 12 09:42:52 2025), 站内
:
: 根本性的意义在于可以本地部署，这是未来个体机器人必须的步骤
: 【在 Y93SSYS711 的大作中提到: 】
: : 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: :
: : 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、
: : ..................
:
: 发自「今日水木 on iPhone SE 2」
: --
:
: ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 111.199.185.*]

☆─────────────────────────────────────☆
   alygunia (神不为者，人为之) 于  (Wed Feb 12 09:49:47 2025)  提到:

建议看一下GRPO的论文...

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   shs (相约到永久) 于  (Wed Feb 12 09:50:08 2025)  提到:

chatgpt 都写成chargpt还讨论个毛线。如果只有蒸馏的话，学生模型水平是超过不了教师模型，现在deepseek在reasoning 方面是超出的，这不矛盾吗？deepseek除了在现有技术上提出了mla、moe、mtp等技术降低训练成本外，还有很重要的一点是用强化学习来训练大模型，这是智能化更进一步的核心原因

☆─────────────────────────────────────☆
   iilxyz (小二) 于  (Wed Feb 12 09:52:07 2025)  提到:

力大飞转的理论基础scaling up也是百度提出来，这是他自己的联合创始人承认的

【在 ia 的大作中提到: 】
: 确认大力飞砖有效这件事本身，就是最近这一波人工智能狂飙中最关键的创新了。
: 如果算创新的贡献的话，第一是实践并确认大力飞砖有效的openai, 第二是搞出transformer这一基础架构的google.

☆─────────────────────────────────────☆
   lbj6 (feng) 于  (Wed Feb 12 09:52:45 2025)  提到:

但普遍人知道的能够流行的就是DS ，这就是差别
【在 chndgnx 的大作中提到: 】
:
: 本地部署的模型多了去了，llama，qwen都可以本地部署。
:
:

发自「今日水木 on iPhone SE 2」

☆─────────────────────────────────────☆
   diamonddust (钻石星辰) 于  (Wed Feb 12 09:55:15 2025)  提到:

原创没那么重要，瓦特的蒸汽机也不是原创。

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   chndgnx (中国龙) 于  (Wed Feb 12 09:55:35 2025)  提到:

好像这个是青椒版啊。

【在 lbj6 的大作中提到: 】
: 标  题: Re: deepseek肯定有贡献，但不属于原创
: 发信站: 水木社区 (Wed Feb 12 09:52:45 2025), 站内
:
: 但普遍人知道的能够流行的就是DS ，这就是差别
: 【在 chndgnx 的大作中提到: 】
: :
: : 本地部署的模型多了去了，llama，qwen都可以本地部署。
: :
: :
:
: 发自「今日水木 on iPhone SE 2」
: --
:
: ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 111.199.185.*]

☆─────────────────────────────────────☆
   cooldograul2 (酷狗) 于  (Wed Feb 12 10:06:51 2025)  提到:

已经很牛了另辟蹊径

☆─────────────────────────────────────☆
   ganymedes (伐木丁丁，鸟鸣嘤嘤) 于  (Wed Feb 12 10:07:55 2025)  提到:

都是持续创新的一个环节，每个环节都很重要，贡献都很大
真说起来，神经网络和深度学习才是0-1的过程，纯粹理论原创
chatGPT最多是1-3，后面的三生万物。。。。都是应用突破
站在前人肩膀上再创新促进技术走向实用贡献同样大

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   lalula (Twin●泰山) 于  (Wed Feb 12 10:09:35 2025)  提到:

正解
这才是贵版应有的水准

【在 ia 的大作中提到: 】
: 标  题: Re: deepseek肯定有贡献，但不属于原创
: 发信站: 水木社区 (Wed Feb 12 06:13:22 2025), 站内
:
:
: 你这是对蒸馏有误解。
:
: 蒸馏只能在持有大模型的基础上蒸馏出小模型，所以它可以使用Qwen/Llama蒸馏，没法使用chatgpt蒸馏。蒸馏也只能得到能力弱化版的模型，没法得到能力相当甚至更强的大模型。
:
: deepseek目前的推理能力，强于所有的开源模型，不可能是从这些开源模型中蒸馏出来的。
: deepseek r1 发布时间早于能力更强的openai o3 mini, 就算是偷到了 openai 的模型，也没有时间蒸馏了。
:
: 至于使用chatgpt的语料，也只能减少数据采集/购买成本和数据标注成本，无法减少训练成本。
:
: 【在 Y93SSYS711 的大作中提到: 】
: : 标  题: deepseek肯定有贡献，但不属于原创
: : 发信站: 水木社区 (Mon Feb 10 14:38:39 2025), 站内
: :
: :
: : 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: :
: : 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: :
: : deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: :
: :
: :
: : --
: :
: : ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 223.104.41.*]
: :
:
: --
:
: ※ 来源:·水木社区 mysmth.net·[FROM: 131.107.1.*]

☆─────────────────────────────────────☆
   victd (rotor) 于  (Wed Feb 12 10:11:12 2025)  提到:

楼主是量子的舆情办，只有某些人的量子才是原创，可是诺贝尔奖又给了别人。

☆─────────────────────────────────────☆
   Phillyman (却道天凉好个秋) 于  (Wed Feb 12 10:22:08 2025)  提到:

奉劝楼主还有类似楼主那些自以为很清醒的人这年头还是少说话

☆─────────────────────────────────────☆
   sor (途安○凹凸手动党) 于  (Wed Feb 12 10:24:51 2025)  提到:

科研届都很强调原创
是被洗脑了
科技本身就是相互抄袭
在模仿中发展超越
然后被模仿再被超越

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   kakash (kakash) 于  (Wed Feb 12 10:24:54 2025)  提到:

最近体验感不是很好

☆─────────────────────────────────────☆
   taotao (陶涛) 于  (Wed Feb 12 10:25:39 2025)  提到:

规模化应用也是一种创新

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   carbon (On the list) 于  (Wed Feb 12 10:28:15 2025)  提到:

东大的科研界没有你这个苦恼，都是嘴上说原创，实际去抄袭。

【在 sor 的大作中提到: 】
: 科研届都很强调原创
: 是被洗脑了
: 科技本身就是相互抄袭
: ...................

☆─────────────────────────────────────☆
   harbersea (snoopy) 于  (Wed Feb 12 10:34:04 2025)  提到:

瓦特改良蒸汽机

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   sor (途安○凹凸手动党) 于  (Wed Feb 12 10:34:35 2025)  提到:

有得抄说明还落后
落后就需要抄袭
这么干下去
总有一天老外要抄东大

不让抄袭，直白点，就是不让东大发展的意思

【在 carbon 的大作中提到: 】
: 东大的科研界没有你这个苦恼，都是嘴上说原创，实际去抄袭。
:

☆─────────────────────────────────────☆
   kod2009 (hoohoo) 于  (Wed Feb 12 10:35:52 2025)  提到:

2006年，Hinton 发表论文《A Fast Learning Algorithm for Deep Belief Nets》，使深度网络的实用化成为可能。
可能是这三个关键，决定了2012年以来的AI浪潮的大势：
1 深度神经网络 -> 2 transformer -> 3 发现大模型是正确方向
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   carbon (On the list) 于  (Wed Feb 12 10:36:57 2025)  提到:

所以人家已经把诺奖得走了

【在 kod2009 的大作中提到: 】
: 2006年，Hinton 发表论文《A Fast Learning Algorithm for Deep Belief Nets》，使深度网络的实用化成为可能。
: 可能是这三个关键，决定了2012年以来的AI浪潮的大势：
: 1 深度神经网络 -> 2 transformer -> 3 发现大模型是正确方向
: ...................

☆─────────────────────────────────────☆
   godabout (godabout) 于  (Wed Feb 12 10:39:45 2025)  提到:

争论这个有那么重要吗
看谁现阶段更优秀才最重要。
再说chatgpt算是0-1的创新吗？有啥根据？
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   carbon (On the list) 于  (Wed Feb 12 10:41:27 2025)  提到:

非也非也。下一代就没有以后了

【在 sor 的大作中提到: 】
: 有得抄说明还落后
: 落后就需要抄袭
: 这么干下去
: ...................

☆─────────────────────────────────────☆
   JavaGuyHan (苔丝狄梦娜之吻) 于  (Wed Feb 12 10:47:58 2025)  提到:

其实最后那个也不算原创，md有论文早就提出蒸馏法，只算一个成功的应用。
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   legendwall (The Legend Wall) 于  (Wed Feb 12 10:49:14 2025)  提到:

是不要感谢李飞飞老师的Imagenet？
【在 karaisan 的大作中提到: 】
: 我们已经厌恶所谓的，0-1理论了。
: 其实，hinton也不能说是彻底的从0-1，他必定也借鉴了前人的东西。
: 与其说追求从0-1，不如说追求在既定做法下的突破，不需要管他原不原创。
: ...................

☆─────────────────────────────────────☆
   legendwall (The Legend Wall) 于  (Wed Feb 12 10:50:30 2025)  提到:

现在都2025了？还拿机器人举例。。。。？

【在 FDA 的大作中提到: 】
: 能不急么
:  如果再弄出机器人被东大拆了学老美就没招了
:  东大海量工程师穷举都能穷举死老美
: ...................

☆─────────────────────────────────────☆
   Spruance (Spruance) 于  (Wed Feb 12 10:50:51 2025)  提到:

看看评价我就放心了，一人一口唾沫就能淹死你。哈哈
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   buxiang (喜欢家庭) 于  (Wed Feb 12 10:56:56 2025)  提到:

肯定算创新，继续创新的一种，不是原始创新。但是已经很强了。
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   xfsunnysm (风间) 于  (Wed Feb 12 10:57:34 2025)  提到:

认同这个比如，你这个认知和知识水平就太低了，真是青椒吗？
【在 Y93SSYS711 的大作中提到: 】
: 这么比如，也没有错
:

☆─────────────────────────────────────☆
   anisotropic (鑫森淼焱垚) 于  (Wed Feb 12 11:03:13 2025)  提到:

人的脑细胞也是100多亿。为什么必须上万亿参数的模型？
蒸馏得好同样不错

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   zhuliang06 () 于  (Wed Feb 12 11:08:10 2025)  提到:

参数对应的是突触数量吧，脑细胞100亿，突触好像是百万亿

☆─────────────────────────────────────☆
   baoqi3 (风云) 于  (Wed Feb 12 11:18:56 2025)  提到:

应用层面的价值当然重大，但是稍微有点儿逻辑思维的都知道原创的绝对重要性，这才是领先的源源不断的动力。你想赚钱的就去赚钱，但这世界上有任何一个科学家是冲着钱去发现新东西的么？整个社会都这么急功近利就永远无法原创，就会一直被卡脖子，不知道你理解不什么叫卡脖子？

这次DS之所以这么轰动，我看主要是戳了硅谷背后资金的喉咙，DS成本太太太低了，以1%不到的综合成本搞出了性能极强的应用级产品，让他们无法跟资本交代，要被质问被抽资所以才恐慌。

【在 Armageddon 的大作中提到: 】
: 1-100同样重要啊，爱因斯坦的质能方程是原子弹的理论基础，后面把原子弹造出来的
: 就是1-100啊，但意义不大么？
: 按照你这说法，其实连chatGPT都不算0-1，只能算1-10，deepseek可以算10-100了
: ...................

☆─────────────────────────────────────☆
   zhuliang06 () 于  (Wed Feb 12 11:19:38 2025)  提到:

据神经生理学家们提供的数据表明：人类的脑细胞在出生时就超过了1000亿个，而且这个数目在出生时为最高值，等到成年的时候，大概860亿，也有写850亿。
2009 年，Suzana Herculano-Houzel 等使用新方法估计整个人脑含有约 860 亿个神经元（更具体地说，成年男性人脑含有约 861 亿 ± 81 亿个神经元），其中约 19% 在大脑皮层。“860 亿”的数字被相对广泛地报道。

☆─────────────────────────────────────☆
   boardcast (广播) 于  (Wed Feb 12 11:24:39 2025)  提到:

你说得对
但是对于人类的贡献，dp和原创一样大
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   secics (123) 于  (Wed Feb 12 12:00:49 2025)  提到:

对，造纸术印刷术火药指南针是原创，西方的打印机抢炮弹药导航都不是原创，都不重要，只能说有贡献
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
:
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
:
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: --

发自「今日水木 on Android」

☆─────────────────────────────────────☆
   ALL100 (just feeling) 于  (Wed Feb 12 12:13:38 2025)  提到:

难道不是0-1最牛逼吗，不然以后别人不告诉你0-1，自己1-100也没辙啊
【在 jinpp 的大作中提到: 】
: 这版总纠结这个问题，是没想明白，到底是0到1重要，还是最牛逼重要

☆─────────────────────────────────────☆
   jinpp (jinpp) 于  (Wed Feb 12 12:22:47 2025)  提到:

分什么事儿，99.9%的事儿都是能做到100那个牛逼，你拿着一堆0-1也不如拿着一个100牛逼

再说现在迭代这么快，你能保守住0-1不让别人知道就两个可能，一个是确实没有第二个人知道，当然这样也不用想着到100了，第二个就是没第二个人想知道
【在 ALL100 的大作中提到: 】
: 难道不是0-1最牛逼吗，不然以后别人不告诉你0-1，自己1-100也没辙啊

☆─────────────────────────────────────☆
   beinghalf (wellbeing) 于  (Wed Feb 12 12:28:29 2025)  提到:

你个吊毛，charGPT按照你的逻辑凭啥就是原创？死跪族
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   beinghalf (wellbeing) 于  (Wed Feb 12 12:30:59 2025)  提到:

GPT本身就是transformer的延展，这里面的T你知道啥意思了吧？你个文盲，还0-1呢？现在的知青都这么低端了吗？
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   ghxyydx (biggao) 于  (Wed Feb 12 12:42:16 2025)  提到:

最终还可以收敛到谁发明了计算机，谁发明了编程语言。。

☆─────────────────────────────────────☆
   defeatyou (lance~天地一沙鷗) 于  (Wed Feb 12 12:45:36 2025)  提到:

你不知道重大改进也是发明？
蔡伦瓦特都不是原创
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   wayne28 (wayne28) 于  (Wed Feb 12 12:53:13 2025)  提到:

楼主说的有一定道理。
但是，不一定0-1就比1-100的贡献大。

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   pkupig (有意思吗？) 于  (Wed Feb 12 12:53:54 2025)  提到:

蒸馏你妈啊
不懂就别说话
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   mbx (mbx) 于  (Wed Feb 12 12:58:12 2025)  提到:

属于方法上的改进，不属于本质的提升。但是很多事情也是一点点改进发展而来的。论贡献，那肯定不如神经网络，反向回归和transformer这些贡献大。甚至勉强和cot、蒸馏这些方法相提并论。但仍然意义重大。

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   lllxs (lllxs) 于  (Wed Feb 12 13:07:49 2025)  提到:

一个是科学，一个是工程，ds不是agi方向

【在 Y93SSYS711 (Mikle) 的大作中提到: 】
:
:  发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
:
:  其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。

☆─────────────────────────────────────☆
   JiangNan (江南) 于  (Wed Feb 12 13:08:44 2025)  提到:

        连 ChatGPT 都能拼写错误，水平可想而知

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   iknow (我知道) 于  (Wed Feb 12 13:09:32 2025)  提到:

不是原创的东西就不能搞了？deepseek贡献很大，这是一个国家和另一个国家谁有的问题，原不原创有个鸟意义。

☆─────────────────────────────────────☆
   zea (zea mays) 于  (Wed Feb 12 13:41:56 2025)  提到:

火枪火炮这个事，近代西方侵略者船坚炮利，谁原创谁发展。

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   wanllow (wower) 于  (Wed Feb 12 13:48:43 2025)  提到:

?Claude、?Llama、?Gemini Ultra
下次记得安装大陆公司开发的输入法就不会引入?这种乱码了
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   choice2018 (choice2018) 于  (Wed Feb 12 13:59:19 2025)  提到:

DS是在模型微调这一步的创新，蒸馏是骗不懂技术的盆的

☆─────────────────────────────────────☆
   kevinton (xiaosi) 于  (Wed Feb 12 14:29:57 2025)  提到:

你说是你发一篇nature重要，还是国家当年复制出原子弹重要？

☆─────────────────────────────────────☆
   heartself (heartself) 于  (Wed Feb 12 14:40:13 2025)  提到:

明白了，莱特兄弟发明了飞机属于原创，后面所有的努力都不是原创

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   Fgps (good luck ! my father) 于  (Wed Feb 12 15:02:35 2025)  提到:

虽然不是原创，但是确实加速了技术发展
催化剂也是伟大的发明
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   h0pe (l@ve) 于  (Wed Feb 12 15:12:22 2025)  提到:

文科生思维方式！理工科都在干实事，文科生还搁这咬文嚼字辩论不休，哈哈哈

☆─────────────────────────────────────☆
   qbb (lake) 于  (Wed Feb 12 15:21:20 2025)  提到:

不重要，陶瓷我们原创，但现在日本陶瓷做的比国内还好，要接受现实。
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
:
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
:
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: --

发自「今日水木 on TAS-AN00」

☆─────────────────────────────────────☆
   larryxin (神眼微尘) 于  (Wed Feb 12 15:40:32 2025)  提到:

呸，莱特兄弟哪里原创了，他的飞机也是东抄西抄，各种拼凑，他前面的飞机多了去了，连发动机都不是他自己造的，他最多算是1-100

【在 heartself 的大作中提到: 】
: 明白了，莱特兄弟发明了飞机属于原创，后面所有的努力都不是原创
:

☆─────────────────────────────────────☆
   angusta (big toe) 于  (Wed Feb 12 15:43:00 2025)  提到:

古代羽毛翼装才是0-1？

【在 larryxin 的大作中提到: 】
: 呸，莱特兄弟哪里原创了，他的飞机也是东抄西抄，各种拼凑，他前面的飞机多了去了，连发动机都不是他自己造的，他最多算是1-100
: :

☆─────────────────────────────────────☆
   shertty (那个秋天) 于  (Wed Feb 12 15:47:15 2025)  提到:

第一个从海洋里跃起的鱼才是原创
【在 larryxin 的大作中提到: 】
: 呸，莱特兄弟哪里原创了，他的飞机也是东抄西抄，各种拼凑，他前面的飞机多了去了，连发动机都不是他自己造的，他最多算是1-100
: :

☆─────────────────────────────────────☆
   FreshSun (fresh) 于  (Wed Feb 12 15:48:35 2025)  提到:

奇怪了，一遇到这种情况，总有反思怪跳出来叨叨这种调调，神经病

【在 Y93SSYS711 的大作中提到: 】
: deepseek还是基于人家的charGPT、transformer的，相比charGPT、transformer，deepseek算是小创新，咱们自己没必要夸大，自欺欺人，浮夸就把自己搞垮了
:

☆─────────────────────────────────────☆
   BigGrayWolf (大灰狼) 于  (Wed Feb 12 16:14:34 2025)  提到:

优化很多工程化的问题，降低训练和推理成本，将问题分而治之，已经很强了
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   db1 (db2) 于  (Wed Feb 12 16:34:35 2025)  提到:

你说的大致没错，但是然并卵还惹人嫌

【在 Y93SSYS711 (Mikle) 的大作中提到: 】
:
:  发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
:
:  其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。

☆─────────────────────────────────────☆
   haiyy (神圣的理想永不磨灭) 于  (Wed Feb 12 16:44:17 2025)  提到:

最大的贡献之一是使用强化学习方法训练大模型，让模型自己去找解决问题的思路，以前公开的大模型采用的是基于人类反馈的强化学习。

☆─────────────────────────────────────☆
   angusta (big toe) 于  (Wed Feb 12 16:58:08 2025)  提到:

之前也用了吧，不是新创的。

【在 haiyy 的大作中提到: 】
: 最大的贡献之一是使用强化学习方法训练大模型，让模型自己去找解决问题的思路，以前公开的大模型采用的是基于人类反馈的强化学习。

☆─────────────────────────────────────☆
   wuan (阿呆·小虫子·点点) 于  (Wed Feb 12 16:59:53 2025)  提到:

在大模型训练上用强化学习的框架并且取得很好的效果，他是第一家
【在 angusta 的大作中提到: 】
: 之前也用了吧，不是新创的。
:
:

☆─────────────────────────────────────☆
   yongxinliang (用心良) 于  (Wed Feb 12 17:30:57 2025)  提到:

不用跟他讲这些，楼主典型的已经有了观点，然后硬凑各种素材来支持自己的观点，根本不管这些素材是不是客观的，完全是自己臆想的。连chatgpt都拼错了，你指望他有什么了解呢？
【在 goalgoalgoal 的大作中提到: 】
: 知识蒸馏是2015年Hinton提出的经典技术，非DeepSeek原创
: DeepSeek真实贡献在于：
:   - 改进了分布式训练框架的能耗效率
: ...................
--来自微微水木3.5.17

☆─────────────────────────────────────☆
   sunvirus (未来) 于  (Wed Feb 12 17:31:25 2025)  提到:

原创不原创的有啥用干就完了，干赢就是胜利
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   ares08 (DEM) 于  (Wed Feb 12 17:42:04 2025)  提到:

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

啥叫原创？只有上帝才是，ds能引起这么大的海啸，足以载入史册了，原创这些词简直是贬低

☆─────────────────────────────────────☆
   miaorongrong (穿书自救指南) 于  (Wed Feb 12 17:52:38 2025)  提到:

Ai之间相互学习，为何不是越学越聪明，而是有上限呢
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   npp (pgg) 于  (Wed Feb 12 17:54:40 2025)  提到:

那前提是开源了不开源你做的出来吗
【在 Armageddon 的大作中提到: 】
: 1-100同样重要啊，爱因斯坦的质能方程是原子弹的理论基础，后面把原子弹造出来的
: 就是1-100啊，但意义不大么？
: 按照你这说法，其实连chatGPT都不算0-1，只能算1-10，deepseek可以算10-100了
: ...................

☆─────────────────────────────────────☆
   fangwei1113 (贴地飞行) 于  (Wed Feb 12 17:55:20 2025)  提到:

我也这么觉得。帝国主义妄图用芯片卡脖子，在AI领域跟我们拉开差距，DeepSeek一通操作贴脸输出，直接开源昭告天下，我们能突破。

【在 carbon 的大作中提到: 】
: 主要是“突破了帝国主义的封锁”，往前几年的话，就没多大价值了
:

☆─────────────────────────────────────☆
   Maxiu (Matthew) 于  (Wed Feb 12 18:28:57 2025)  提到:

总理都邀请梁文峰去了，国家还不比你懂。

【在 Y93SSYS711 的大作中提到: 】
:
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
:
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
:

#发自zSMTH@OXF-AN10

☆─────────────────────────────────────☆
   wanderInRain (fhq) 于  (Wed Feb 12 18:48:05 2025)  提到:

虽然  但是

【在 Y93SSYS711 (Mikle) 的大作中提到: 】
:
:  发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
:
:  其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。

☆─────────────────────────────────────☆
   jjmmqq (jjmmqq) 于  (Wed Feb 12 19:19:56 2025)  提到:

说的没问题啊，为什么那么多人给负分


【在 Y93SSYS711 (Mikle) 的大作中提到: 】
:
:  发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
:
:  其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。

☆─────────────────────────────────────☆
   anotherstone (初级K线分析员) 于  (Wed Feb 12 19:27:05 2025)  提到:

强化学习融入思维链啊！

啥都不懂就敢评价，哎
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
:
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、
: ..................

发自「今日水木 on HBN-AL00」

☆─────────────────────────────────────☆
   iilxyz (小二) 于  (Wed Feb 12 19:29:51 2025)  提到:

fft对数字信号处理有没有贡献

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   wierxian (Quantum X) 于  (Wed Feb 12 20:09:01 2025)  提到:

神经网络也不是0-1 谢谢
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   ksxfhs (ksxfhs) 于  (Wed Feb 12 20:55:15 2025)  提到:

戳到红和贵的肺管子上了，想借着炒一波股的发财机会也没了，那怎么不急。。。

买DS股票概念的培训大师都乌泱乌泱的，多大的产业，其它重要么

等这一波发财梦过去了才能正经讨论点啥。。。几个月顶多了

【在 jjmmqq 的大作中提到: 】
: 说的没问题啊，为什么那么多人给负分
:
:

☆─────────────────────────────────────☆
   airbusforu (airbus4u) 于  (Wed Feb 12 20:57:01 2025)  提到:

一派胡言。按此逻辑，所有的贡献和奖项都给冯诺依曼得了，他没有发明二进制计算机，就没有今天。

【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   Wkalone (aizhuzhu) 于  (Wed Feb 12 22:23:06 2025)  提到:

谨慎怀疑楼主是美帝或者日本派来的JD，请网警关注

【在 Y93SSYS711 的大作中提到: 】
:发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新[/

- 来自水木社区APP v3.5.7

☆─────────────────────────────────────☆
   victd (rotor) 于  (Wed Feb 12 22:33:13 2025)  提到:

【在 Wkalone 的大作中提到: 】
: 谨慎怀疑楼主是美帝或者日本派来的JD，请网警关注
: :[color=#DC143C]发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新[/
: - 来自水木社区APP v3.5.7

他是某量子团队舆情办的。

☆─────────────────────────────────────☆
   sugary (sugary) 于  (Wed Feb 12 22:43:43 2025)  提到:

牛逼

☆─────────────────────────────────────☆
   yayiyayiya (快乐的人儿) 于  (Wed Feb 12 22:59:36 2025)  提到:

大
侄子，chatGPT都写错了，是不是应该回去认真反思？拿钱发帖这么容易吗?

【在 Y93SSYS711 的大作中提到: 】

[color=#DC143C]发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。

其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。

deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。

☆─────────────────────────────────────☆
   uprollup (uprollup) 于  (Wed Feb 12 23:14:14 2025)  提到:

你说的有一定道理
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
:
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、
: ..................

☆─────────────────────────────────────☆
   fornothing (fornothing) 于  (Wed Feb 12 23:48:39 2025)  提到:

传统意义上的"蒸馏"指的是对token概率（logits）的训练，而ChatGPT并未开放这类数据，所以基本不可能去“蒸馏”ChatGPT。

因此，从技术角度看，DeepSeek的成就不应因此受到质疑。由于OpenAI o1相关思维链推理过程从未公开，单纯依靠"蒸馏"ChatGPT根本难以实现这一成果。
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   FLYBBS (空手套白狼) 于  (Wed Feb 12 23:58:53 2025)  提到:

蒸馏训练方法也不是deepseek发明的吧？
【在 Y93SSYS711 的大作中提到: 】
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   FLYBBS (空手套白狼) 于  (Thu Feb 13 00:03:14 2025)  提到:

学阀这种万金油玩法，只能彻底抛弃。
不然但凡学阀守着一个基础学科方向，
把社会上工程的成就都说成以自己论文成果为基础，你也办法。

【在 victd 的大作中提到: 】
: 标  题: Re: deepseek肯定有贡献，但不属于原创
: 发信站: 水木社区 (Tue Feb 11 09:08:13 2025), 站内
:
: 原创是高校的事情，但是学阀只会追热点灌水，原创上表现一坨翔。
:
: 现在中国的很多成就是工程技术上的，是企业院所取得的，是海量工程师996的结果，
:
: 但是学阀总喜欢拿工程技术的进步给自己贴金，继续忽悠郭嘉集中资源给自己，
:
: 这些人是打追击战筛选出来的，根本打不了攻城战，没有训练到深度思考能力。
: --
:
: ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 125.88.24.*]

☆─────────────────────────────────────☆
   FLYBBS (空手套白狼) 于  (Thu Feb 13 00:06:30 2025)  提到:

主要问题是美帝基本没有国内这种学阀。
只要找到教职，学校都给基本相同的科研资源（实验室面积，启动基金，研究生数量）。
只靠学校的资助，就能做些百花齐放，有意义的工作，所以年轻老师能出成绩。

【在 geroge 的大作中提到: 】
: 这些年无数的案例表明，0-1的想法创新米帝最擅长，主要是有天马行空的想法，米帝那种创新型的教育模式适合这个，1-100的工程化落地兔子最擅长，主要是有大量的严谨功底扎实的工程师来不断迭代微创新来落地。
: 光伏也是米帝那边先创新，几个回国人员在兔子这边开始创业抄作业，结果现在兔子光伏独霸蓝星，无他，成本太低了
: 电磁弹射米帝先提出方案，成型也是兔子用着更顺溜
: ...................

☆─────────────────────────────────────☆
   olefin (覀) 于  (Thu Feb 13 02:57:41 2025)  提到:

洋人用洋枪洋炮把中国变成了半殖民地

然而大家都知道火药的0-1是中国搞出来的，而西洋人的洋枪洋炮本质上是1→100

【在 Y93SSYS711 的大作中提到: 】
:发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新[/

- 来自水木社区APP v3.5.7

☆─────────────────────────────────────☆
   ia (阿弥陀佛，我佛慈悲。) 于  (Thu Feb 13 03:41:45 2025)  提到:

米帝没有学阀，张益唐也不至于没有推荐信就去刷盘子。

【在 FLYBBS 的大作中提到: 】
: 标  题: Re:deepseek肯定有贡献，但不属于原创
: 发信站: 水木社区 (Thu Feb 13 00:06:30 2025), 站内
:
: 主要问题是美帝基本没有国内这种学阀。
: 只要找到教职，学校都给基本相同的科研资源（实验室面积，启动基金，研究生数量）。
: 只靠学校的资助，就能做些百花齐放，有意义的工作，所以年轻老师能出成绩。
:
: 【在 geroge 的大作中提到: 】
: : 这些年无数的案例表明，0-1的想法创新米帝最擅长，主要是有天马行空的想法，米帝那种创新型的教育模式适合这个，1-100的工程化落地兔子最擅长，主要是有大量的严谨功底扎实的工程师来不断迭代微创新来落地。
: : 光伏也是米帝那边先创新，几个回国人员在兔子这边开始创业抄作业，结果现在兔子光伏独霸蓝星，无他，成本太低了
: : 电磁弹射米帝先提出方案，成型也是兔子用着更顺溜
: : ...................
:
: --
:
: ※ 修改:·FLYBBS 于 Feb 13 00:08:19 2025 修改本文·[FROM: 175.160.201.162]
: ※ 来源:·水木社区 mysmth.net·[FROM: 175.160.201.162]

☆─────────────────────────────────────☆
   FLYBBS (空手套白狼) 于  (Thu Feb 13 06:41:33 2025)  提到:

国内这种团队学阀。。。

【在 ia 的大作中提到: 】
: 米帝没有学阀，张益唐也不至于没有推荐信就去刷盘子。
:
: 【在 FLYBBS 的大作中提到: 】
: ...................
--来自微微水木3.5.16

☆─────────────────────────────────────☆
   BigZhou (大周) 于  (Thu Feb 13 07:38:10 2025)  提到:

跟这儿说个屁，去跟白头鹰说去，跟皮衣黄说去，跟大金毛说去

【在 Y93SSYS711 (Mikle) 的大作中提到: 】
:
:  发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
:
:  其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。

☆─────────────────────────────────────☆
   qiaolin (风儿) 于  (Thu Feb 13 08:23:36 2025)  提到:

看了十页的帖子，发现只有十个人左右的版友说清楚了ds的贡献。。。。

首先要分清楚ds v3和ds r1，前者是工程和算法联合优化，把训练成本降低到十分之一，这个引起了轰动了但是还不够

后面发布的r1更是让人破防，因为用大规模的强化学习搞定了o1这样的推理模型，不再使用rlhf，这个可以说之前是openai的独门秘籍（目前还不知道openai怎么搞的）。而r1的效果基本持平闭源的o1！！

这两个事情结合，再加上完全开源模型和论文，真正的打破了封锁，让他们害怕了，发现东大居然也可以这么牛逼！

☆─────────────────────────────────────☆
   qiaolin (风儿) 于  (Thu Feb 13 08:27:16 2025)  提到:

对了，补一句，ds论文里的蒸馏不是传统意义的模型蒸馏，所以引起了一些网上的混乱。另外论文的主要贡献也不是蒸馏啊。。。。，我感觉论文更多的是想说r1能力强，所以用来蒸馏别的模型效果好。
大家去读一下ds的论文吧，加上引用才22页，很容易读的

☆─────────────────────────────────────☆
   huaiqing (拒绝变成老油条) 于  (Thu Feb 13 09:07:17 2025)  提到:

ds真的挺不错的
比chatgpt3强，以后的没用过

【在 Y93SSYS711 的大作中提到: 】
:[color=#DC143C]发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新[/

- 来自水木社区APP v3.5.7

☆─────────────────────────────────────☆
   ncepuwzy (难痴俄怕你位置远) 于  (Thu Feb 13 09:09:41 2025)  提到:

教条主义的道德婊

【在 Y93SSYS711 的大作中提到: 】
:
: 发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
:
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
:

#发自zSMTH@RMX3700

☆─────────────────────────────────────☆
   raylei (ray.org.cn) 于  (Thu Feb 13 09:18:06 2025)  提到:

两弹一星的理论原理都不是原创，说这个逻辑上没问题，但是如果卖茶叶蛋的说卖导弹的，感觉有点诡异

【在 Y93SSYS711 的大作中提到: 】
: [color=#DC143C]发明charGPT大模型、发明transformer神经网络架构都属于0-1的原始创新。
: 其他的大模型，都是在charGPT、transformer的基础上加入自己的算法、训练自己的数据，比如?Claude、?Llama、?Gemini Ultra、deepseek、盘古、文心一言、智谱、星火、千问、豆包等等，这些都属于1以后，1-100的创新。
: deepseek的主要贡献：在charGPT、transformer的基础上，发现了“蒸馏”等训练方法能降低大模型训练成本，提高大模型执行速率。
: ...................

☆─────────────────────────────────────☆
   KeymanHero (英雄无敌) 于  (Thu Feb 13 10:05:22 2025)  提到:

ds还没达到100倍gpt的水平吧？

☆─────────────────────────────────────☆
   MVPRose (治不服的来了) 于  (Thu Feb 13 10:38:32 2025)  提到:

啊呸，莱特兄弟之前的“飞机”能叫飞机？？小学十万个为什么都没看过的水平？别搁这偷换概念

【在 larryxin 的大作中提到: 】
: 呸，莱特兄弟哪里原创了，他的飞机也是东抄西抄，各种拼凑，他前面的飞机多了去了，连发动机都不是他自己造的，他最多算是1-100
: :

☆─────────────────────────────────────☆
   heartself (heartself) 于  (Thu Feb 13 11:28:06 2025)  提到:

那你这溯源论的话，是不是要归到麦克斯韦方程组去了
【在 larryxin 的大作中提到: 】
: 呸，莱特兄弟哪里原创了，他的飞机也是东抄西抄，各种拼凑，他前面的飞机多了去了，连发动机都不是他自己造的，他最多算是1-100
: :

☆─────────────────────────────────────☆
   larryxin (神眼微尘) 于  (Thu Feb 13 12:03:40 2025)  提到:

啊呸，莱特那只飞了几十米的飞机也能叫飞机？

【在 MVPRose 的大作中提到: 】
: 啊呸，莱特兄弟之前的“飞机”能叫飞机？？小学十万个为什么都没看过的水平？别搁这偷换概念

修改:FLYBBS FROM 175.160.201.162
FROM 175.160.201.162