梁文峰在《自然》披露ds的训练成本不到30万美金

水木社区手机版

主题:梁文峰在《自然》披露ds的训练成本不到30万美金
30楼|youyo|2025-09-20 12:39:14|展开
DS根本没有花钱维护自己的月活，但现在基于DS的大模型已经遍地开花了。

【在 binghuo2025 的大作中提到: 】
: 月活大幅下跌，已经不是老大了
--
FROM 218.249.94.*
31楼|youyo|2025-09-20 12:41:03|展开
现在私人部署基本上都是DS
最近的《知识分子》有篇解读这篇Nature封面，比较完整。
语言文字方面不是优势，但文科生只看得到这个。

【在 ghostcloud 的大作中提到: 】
: 1、刚发布的时候推理能力明显高啊，现在新的基本都具备了类似的能力
: 2、模型开源、规模小，经得起群众“监督”、私有化部署以及在其基础上的魔改
--
FROM 218.249.94.*
32楼|youyo|2025-09-20 12:43:03|展开
去看看《知识分子》上对这篇Nature封面的解读吧
你对大模型的需求是什么？当个集成的搜索引擎？还是当做文字工具?

【在 verber 的大作中提到: 】
: 比如deepseek比豆包之类的到底好在哪里呢？
: 如果有需求用大模型，我经常是四五个大模型一起用，参考他们各自的回复
: 但也没看出来谁比谁强
--
FROM 218.249.94.*
34楼|youyo|2025-09-20 12:49:00|展开
这方面不是DS强项

【在 verber 的大作中提到: 】
: 搜索+文字工具
--
FROM 218.249.94.*
74楼|youyo|2025-09-20 19:07:29|展开
自己去看啊
最近一期的知识分子
【在 verber 的大作中提到: 】
: 强项是啥
--
FROM 218.249.94.*
77楼|youyo|2025-09-20 19:12:34|展开
闭着眼睛道听途说张口就来啊

【在 drifter777 的大作中提到: 】
: ds用了chatgpt的蒸馏数据进行训练的，类似于人家把搞科研发表了论文，你拿着人家的论文按照人家的数据和思路加了你的理解之后从新洗了一篇新论文，难度和成本肯定是不一样的。
:
:
--
FROM 218.249.94.*
78楼|youyo|2025-09-20 19:14:39|展开
国内就是QWEN和DS，你要自己搞开发，当然就DS了，强项是数理和代码

【在 smthhz 的大作中提到: 】
: 不是吧，现在几乎都qwen了，显存多的都gptoss
--
修改:youyo FROM 218.249.94.*
FROM 218.249.94.*
80楼|youyo|2025-09-20 19:29:06|展开
一台DGX Spark就可以了啊，超过100G的需要ollama分层加载。当然qwen也可以，各有所长。

【在 smthhz 的大作中提到: 】
: 开源也是用qwen啊，ds只有大参数的还行，小公司成本太高
--
FROM 218.249.94.*
94楼|youyo|2025-09-21 10:06:59|展开
我说的就是私人用啊，公司买还受限制呢

【在 smthhz 的大作中提到: 】
: 你这只能一个人用用，公司可不行啊
【在 youyo (you and me) 的大作中提到: 】
: 一台DGX...
--
FROM 223.104.44.*
95楼|youyo|2025-09-21 10:11:11|展开
文章里分析了，还有评论，澄清了所谓的蒸馏说法。

【在 amywinehouse 的大作中提到: 】
: 在别人挖出来的鱼塘里捕鱼 ...
--
FROM 223.104.44.*