我一直是尽量客观的来分析问题发表观点的。不吹也不黑,只谈事实,尽量不做情绪表达
对于r1,我的观点是它还是对传统的cot路径做出了突破的。最大的价值是基于结果而不是基于过程的反馈,有点类似于alphago zero对比master的突破,但要把这个说清楚,理解到位很难。这是r1值得夸的部分。
但r1毕竟基于的是v3,v3作为一个256 moe,本质上就是在依靠3b的小模型的认知力再x8得到的群体智慧。这种体量我认为聊天吹水是它的极限了,做不了太复杂的事情。ds团队可能是希望利用cot来弥补复杂性方面的不足,现在看来反倒是产生了一个很有意思的结果,就是它在文字领域表现的很出色。因为它本质上是具备了有思维深度的聊天的能力。
所以我还是认可他在cot方面是真实的,但我对llm的观点是最核心的还是那个基础模型。cot,rag,agent等等,本质都是各种外挂辅助手段。好比一套精心设计好的语言,比如Java再加配套的软件工程体系,可以让农民工3个月培训下就上岗当码农。但他们的上限注定不可能达到科班的高度。
这也是为啥目前把r1的思考结果copy paste给claude,就能得到碾压一切模型的最好结果的原因。
当然deepseek的这种256 moe的模式如果再扩大一个数量级,可能会有很不一样的结果。目前的格局基本上是1t的模型探索上限,蒸馏出200b的模型承担sota主力,进一步蒸馏出70b的模型作为开源主流,然后再蒸馏出20b的模型模仿70b的效果。ds如果每个专家模型能拓展到20b这个体量,又提炼的足够好的话,再配合cot可能能展现出agi的效果
【 在 tgfbeta 的大作中提到: 】
: 我觉得deepseek api也是假聪明
: 就是把CoT包到模型自动生成了
: 但是它没有足够的mental model来解决真问题
--
FROM 222.68.51.*