deepseek远没有前两年chatgpt在本版活跃啊

水木社区手机版

主题:deepseek远没有前两年chatgpt在本版活跃啊
20楼|iwannabe|2025-02-07 20:56:53|只看此ID
ds唯一的作用是让那些非技术类自媒体能低门槛的用到和chatgpt差不多水准的ai产品
所以导致他们一惊一乍的

【在 shootings 的大作中提到: 】
: 这个是在X上面被老外先沸腾了的
: 毕竟买块好的显卡对于老外很容易
--
FROM 163.125.197.*
21楼|fangyuanning|2025-02-07 21:09:04|只看此ID
免费，效率高，性能差不多，这还不够牛逼呀。
--
FROM 43.226.236.*
22楼|zeus2615|2025-02-08 00:57:07|只看此ID
为什么你会觉得老外买快好的显卡很容易？
【在 shootings 的大作中提到: 】
: 这个是在X上面被老外先沸腾了的
: 毕竟买块好的显卡对于老外很容易

论坛助手,iPhone
--
FROM 180.173.63.*
23楼|lvsoft|2025-02-08 02:11:53|只看此ID
.......
14b的r1就是智障吧...
deepseek这种256 moe模型，必须有体量，体量小了是不行的。
这个大小应该部署微软的phi-4。phi4的缺点是中文知识缺乏，不过我觉得这种东西可以搭配rag搞定。
ai好不好，最关键的还是看那个预训练模型的智商。其他都是辅助手段。

不行了，今天被ai气的够呛。必须上来吐槽一下。

尼玛让它用rust写一个https server，带webrtc，来利用浏览器来打开麦克风和播放声音。做了一个最简单的echo测试。

前面流畅无比，几分钟不到一个不依赖任何库的https web server + webrtc frontend全部撸好，就是声音有点点“小”问题。

我以为可以快速秒杀，没想到尼玛这个问题死活就是搞不好，不是电音就是各种断续，要不就是频率不对声音高了或者低了。
尼玛我就奇怪了，这么简单的事情怎么会死活调不好，怎么调都不对，哪怕是调的最好的状态也差点意思会有一点点椒盐噪声...

最后我怒了，亲自追它写的代码。追了好多东西最后发现这货用的是getFloatTimeDomainData来取的音频数据。
尼玛我瞬间喷血....怪不得死活调不好了....浪费我2小时....

【在 PaoloMaldini 的大作中提到: 】
: 真的，我媳妇儿天天念叨，你买个Mac mini回来咱部署个14B的R1帮我做翻译。。
:
--
修改:lvsoft FROM 222.68.51.*
FROM 222.68.51.*
24楼|lvsoft|2025-02-08 02:23:49|只看此ID
买好显卡也没用。想跑deepseek？80G显卡*8是它的标准配置，其他方案要么是弱智，要么就是超级蜗牛。
80G显存的显卡*8对任何普通人来说都是不可能的。
最多4bit量化打个对折勉强凑合下，再少就没法用了。

【在 shootings 的大作中提到: 】
: 这个是在X上面被老外先沸腾了的
: 毕竟买块好的显卡对于老外很容易
:
--
修改:lvsoft FROM 222.68.51.*
FROM 222.68.51.*
25楼|tgfbeta|2025-02-08 09:40:50|只看此ID
我觉得deepseek api也是假聪明
就是把CoT包到模型自动生成了
但是它没有足够的mental model来解决真问题
【在 lvsoft 的大作中提到: 】
: .......
: 14b的r1就是智障吧...
: deepseek这种256 moe模型，必须有体量，体量小了是不行的。
: ...................
--
FROM 111.162.221.*
26楼|ArchLinux|2025-02-08 09:50:11|只看此ID
14b的模型我10年前的笔记本也能跑，就是慢，家里用12代i5的台式机跑速度还可以。

【在 PaoloMaldini 的大作中提到: 】
: 真的，我媳妇儿天天念叨，你买个Mac mini回来咱部署个14B的R1帮我做翻译。。
--
FROM 103.90.178.*
27楼|maruko|2025-02-08 10:47:40|只看此ID
因为本站的成分不同。
【在 iwannabe 的大作中提到: 】
: 为啥看weibo之类的都沸腾了呢
: --
: FROM 163.125.197.*
--来自微微水木3.5.17
--
FROM 223.104.40.*
28楼|O8333|2025-02-08 11:07:12|只看此ID
gpt 已经两年了？真快
【在 iwannabe 的大作中提到: 】
: 为啥看weibo之类的都沸腾了呢
发自「快看水母于 SM-F9460」
--
FROM 39.144.168.*
29楼|lvsoft|2025-02-08 12:29:53|只看此ID
我一直是尽量客观的来分析问题发表观点的。不吹也不黑，只谈事实，尽量不做情绪表达

对于r1，我的观点是它还是对传统的cot路径做出了突破的。最大的价值是基于结果而不是基于过程的反馈，有点类似于alphago zero对比master的突破，但要把这个说清楚，理解到位很难。这是r1值得夸的部分。

但r1毕竟基于的是v3，v3作为一个256 moe，本质上就是在依靠3b的小模型的认知力再x8得到的群体智慧。这种体量我认为聊天吹水是它的极限了，做不了太复杂的事情。ds团队可能是希望利用cot来弥补复杂性方面的不足，现在看来反倒是产生了一个很有意思的结果，就是它在文字领域表现的很出色。因为它本质上是具备了有思维深度的聊天的能力。

所以我还是认可他在cot方面是真实的，但我对llm的观点是最核心的还是那个基础模型。cot，rag，agent等等，本质都是各种外挂辅助手段。好比一套精心设计好的语言，比如Java再加配套的软件工程体系，可以让农民工3个月培训下就上岗当码农。但他们的上限注定不可能达到科班的高度。

这也是为啥目前把r1的思考结果copy paste给claude，就能得到碾压一切模型的最好结果的原因。
当然deepseek的这种256 moe的模式如果再扩大一个数量级，可能会有很不一样的结果。目前的格局基本上是1t的模型探索上限，蒸馏出200b的模型承担sota主力，进一步蒸馏出70b的模型作为开源主流，然后再蒸馏出20b的模型模仿70b的效果。ds如果每个专家模型能拓展到20b这个体量，又提炼的足够好的话，再配合cot可能能展现出agi的效果

【在 tgfbeta 的大作中提到: 】
: 我觉得deepseek api也是假聪明
: 就是把CoT包到模型自动生成了
: 但是它没有足够的mental model来解决真问题
--
FROM 222.68.51.*