- 主题:deepseek远没有前两年chatgpt在本版活跃啊
ds唯一的作用是让那些非技术类自媒体能低门槛的用到和chatgpt差不多水准的ai产品
所以导致他们一惊一乍的
【 在 shootings 的大作中提到: 】
: 这个是在X上面被老外先沸腾了的
: 毕竟买块好的显卡对于老外很容易
--
FROM 163.125.197.*
免费,效率高,性能差不多,这还不够牛逼呀。
--
FROM 43.226.236.*
为什么你会觉得老外买快好的显卡很容易?
【 在 shootings 的大作中提到: 】
: 这个是在X上面被老外先沸腾了的
: 毕竟买块好的显卡对于老外很容易
论坛助手,iPhone
--
FROM 180.173.63.*
.......
14b的r1就是智障吧...
deepseek这种256 moe模型,必须有体量,体量小了是不行的。
这个大小应该部署微软的phi-4。phi4的缺点是中文知识缺乏,不过我觉得这种东西可以搭配rag搞定。
ai好不好,最关键的还是看那个预训练模型的智商。其他都是辅助手段。
不行了,今天被ai气的够呛。必须上来吐槽一下。
尼玛让它用rust写一个https server,带webrtc,来利用浏览器来打开麦克风和播放声音。做了一个最简单的echo测试。
前面流畅无比,几分钟不到一个不依赖任何库的https web server + webrtc frontend全部撸好,就是声音有点点“小”问题。
我以为可以快速秒杀,没想到尼玛这个问题死活就是搞不好,不是电音就是各种断续,要不就是频率不对声音高了或者低了。
尼玛我就奇怪了,这么简单的事情怎么会死活调不好,怎么调都不对,哪怕是调的最好的状态也差点意思会有一点点椒盐噪声...
最后我怒了,亲自追它写的代码。追了好多东西最后发现这货用的是getFloatTimeDomainData来取的音频数据。
尼玛我瞬间喷血....怪不得死活调不好了....浪费我2小时....
【 在 PaoloMaldini 的大作中提到: 】
: 真的,我媳妇儿天天念叨,你买个Mac mini回来咱部署个14B的R1帮我做翻译。。
:
--
修改:lvsoft FROM 222.68.51.*
FROM 222.68.51.*
买好显卡也没用。想跑deepseek?80G显卡*8是它的标准配置,其他方案要么是弱智,要么就是超级蜗牛。
80G显存的显卡*8对任何普通人来说都是不可能的。
最多4bit量化打个对折勉强凑合下,再少就没法用了。
【 在 shootings 的大作中提到: 】
: 这个是在X上面被老外先沸腾了的
: 毕竟买块好的显卡对于老外很容易
:
--
修改:lvsoft FROM 222.68.51.*
FROM 222.68.51.*
我觉得deepseek api也是假聪明
就是把CoT包到模型自动生成了
但是它没有足够的mental model来解决真问题
【 在 lvsoft 的大作中提到: 】
: .......
: 14b的r1就是智障吧...
: deepseek这种256 moe模型,必须有体量,体量小了是不行的。
: ...................
--
FROM 111.162.221.*
14b的模型我10年前的笔记本也能跑,就是慢,家里用12代i5的台式机跑速度还可以。
【 在 PaoloMaldini 的大作中提到: 】
: 真的,我媳妇儿天天念叨,你买个Mac mini回来咱部署个14B的R1帮我做翻译。。
--
FROM 103.90.178.*
因为本站的成分不同。
【 在 iwannabe 的大作中提到: 】
: 为啥看weibo之类的都沸腾了呢
: --
: FROM 163.125.197.*
--来自微微水木3.5.17
--
FROM 223.104.40.*
gpt 已经两年了?真快
【 在 iwannabe 的大作中提到: 】
: 为啥看weibo之类的都沸腾了呢
发自「快看水母 于 SM-F9460」
--
FROM 39.144.168.*
我一直是尽量客观的来分析问题发表观点的。不吹也不黑,只谈事实,尽量不做情绪表达
对于r1,我的观点是它还是对传统的cot路径做出了突破的。最大的价值是基于结果而不是基于过程的反馈,有点类似于alphago zero对比master的突破,但要把这个说清楚,理解到位很难。这是r1值得夸的部分。
但r1毕竟基于的是v3,v3作为一个256 moe,本质上就是在依靠3b的小模型的认知力再x8得到的群体智慧。这种体量我认为聊天吹水是它的极限了,做不了太复杂的事情。ds团队可能是希望利用cot来弥补复杂性方面的不足,现在看来反倒是产生了一个很有意思的结果,就是它在文字领域表现的很出色。因为它本质上是具备了有思维深度的聊天的能力。
所以我还是认可他在cot方面是真实的,但我对llm的观点是最核心的还是那个基础模型。cot,rag,agent等等,本质都是各种外挂辅助手段。好比一套精心设计好的语言,比如Java再加配套的软件工程体系,可以让农民工3个月培训下就上岗当码农。但他们的上限注定不可能达到科班的高度。
这也是为啥目前把r1的思考结果copy paste给claude,就能得到碾压一切模型的最好结果的原因。
当然deepseek的这种256 moe的模式如果再扩大一个数量级,可能会有很不一样的结果。目前的格局基本上是1t的模型探索上限,蒸馏出200b的模型承担sota主力,进一步蒸馏出70b的模型作为开源主流,然后再蒸馏出20b的模型模仿70b的效果。ds如果每个专家模型能拓展到20b这个体量,又提炼的足够好的话,再配合cot可能能展现出agi的效果
【 在 tgfbeta 的大作中提到: 】
: 我觉得deepseek api也是假聪明
: 就是把CoT包到模型自动生成了
: 但是它没有足够的mental model来解决真问题
--
FROM 222.68.51.*