- 主题:半个外行谈谈我的看法,供讨论了批判
隔行如隔山,当年何凯明Resnet 就是一根线,你能否想出?
【 在 JavaGuyHan 的大作中提到: 】
: 感谢你的分享
: 如果像你所说,的确跟我司在电路仿真EDA这方向的情况还挺类似。Cadence和synopsis早就有了业界非常成熟的电路仿真器,但限于传统的架构路径依赖,他们只是小修小补,在没有市场刺激的情况是不会主动去对架构进行大的调整。
: 国产仿真器发展较晚,但是通过研究,我们打磨适配了几种新方法,包括新的lu分解方案和新的电路参数简并的更高效办法,实际上这办法原理国外eda相关论文里早有论述,但是CS限于自身的原因没采用和进一步发展,这就给了我们后来居上的可能性。
: ...................
--
FROM 49.85.194.*
你的观点也很有意思,但是我认为像结论还尚早。ds出现证明了可以用低廉成本通过算法创新获得类似目前o1等同的效果,但是如果是使用md的大力飞砖再加上ds的新算法呢?会不会有更大的飞跃?这目前还没有答案,但是验证这件事花不了多久,毕竟ds开源了,估计几个星期就会有说法,我们拭目以待吧。
一个在半导体这边类似的例子是先进封装chiplet,这个架构原本是为了平摊大规模IC的成本,后来AI出现了,发现这个架构恰好很适合于近存计算、打破存储墙,再后来中国突然发现,通过在立体方向堆叠较落后工艺的芯片,也有可能逼近先进工艺平面芯片的系统性能,所以一下子成为这两年半导体研究的热点。但这还是绕不开一个问题:如果我用本来最先进工艺的平面芯片在加上先进封装堆叠,不是又可以得到更为先进的系统能力吗?
【 在 poggy 的大作中提到: 】
:
: 神经网络虽然取得了很大成效, 集中在网络结构设计和优化算法, 数值计算稳定性。
: 但是, 对于网络结构的动态变化, 也只是让一部分网络进入抑制状态(相当于网络被缩减),
: ...................
--
FROM 120.244.234.*
不会
有边际效应
【 在 JavaGuyHan 的大作中提到: 】
: 你的观点也很有意思,但是我认为像结论还尚早。ds出现证明了可以用低廉成本通过算法创新获得类似目前o1等同的效果,但是如果是使用md的大力飞砖再加上ds的新算法呢?会不会有更大的飞跃?这目前还没有答案,但是验证这件事花不了多久,毕竟ds开源了,估计几个星期就会有说法,我们拭目以待吧。
: 一个在半导体这边类似的例子是先进封装chiplet,这个架构原本是为了平摊大规模IC的成本,后来AI出现了,发现这个架构恰好很适合于近存计算、打破存储墙,再后来中国突然发现,通过在立体方向堆叠较落后工艺的芯片,也有可能逼近先进工艺平面芯片的系统性能,所以一下子成为这两年半导体研究的热点。但这还是绕不开一个问题:如果我用本来最先进工艺的平面芯片在加上先进封装堆叠,不是又可以得到更为先进的系统能力吗?
--
FROM 112.231.27.*
落后工艺堆叠,加上边际效应,先进工艺有个屁用了
--
FROM 124.228.244.*
【 在 mystar1984 的大作中提到: 】
: 资本+技术垄断下,煤气公司还是很霸道的的,让你把灶台都拆了,上燃气,煤球蜂窝煤就更别想了。
: 所以内外都要顶住,既不要拆灶台,还要努力搞出电磁炉,哈。
: 另,垂直这个概念,是不是说距真正的AGI,就更远了?
: ...................
垂直说白了, 就是分化型, 人类也一样, 样样通, 不如一样精,
这个问题有的时候也很奇怪, 能做到样样通的, 偏偏是建立在一样精上,
把一样学精了, 在迁移到其它。 明显远远好于什么都浅尝辄止的半吊子,
尽管后者花费的总功夫一样不少。
似乎AI也这个样子, 上来就学的很杂, 反倒走很多弯路, 浪费算力。
之所以幻方能在这方面出成绩, 很可能也得益于大A的数据结构。
通常, 早期应用强化学习, 如alphago, 一个大前提是, 封闭环境, 也就是规则简单,
外部空间物理多复杂, 毕竟结构封闭且稳定, 这个时候,强化学习就能像一个方向优化, 最终超越人类,
甚至达到人类也无法企及的专家水平。
但是, 资本市场如大A, 结构复杂,多变, 还难言稳定,似乎无法应用强化学习,
但是, 幻方似乎总结出了一套处理这种情况的经验, 就是DS论文中提及的, 混合专家模型。
尽管, 这个市场复杂多变, 混沌不稳定, 但是, 如果局限到一直股, 一段时间, 一个热度, 甚至一个庄家的前提下, 很可能确实有一个优化策略。
把一个无解的复杂问题, 简化成一堆可以解的子问题, 并用神经网络, 分别训练出一堆专家,
这似乎就是幻方经验。
另外, 蒸馏技术 和多精度优化, 也不是原创, 但是更像是找到了发挥几乎优势的地方,
像蒸馏技术, 以前应用于特征分类, 现在, 却可以引入到模型选择, 模型优化上来。
--
FROM 115.171.245.*
觉得ds的路子可能才是ai更合适的形态,因为moe机制更类似人脑的思考过程,人是有注意力机制的,无论是在那种情景下,比如观察、思考、计算、谋划,它都会自动的只去关心对结果可能影响力最大的那些参量,所以这样才能保证大脑在维持只有极低能耗的时候(一天两馒头足够),却能做出极为精准的判断。
【 在 poggy 的大作中提到: 】
:
: 垂直说白了, 就是分化型, 人类也一样, 样样通, 不如一样精,
: 这个问题有的时候也很奇怪, 能做到样样通的, 偏偏是建立在一样精上,
: ...................
--
FROM 120.244.234.*
人脑确实是这样的。内部由多个不同的模块互相抢主导权
【 在 JavaGuyHan 的大作中提到: 】
: 觉得ds的路子可能才是ai更合适的形态,因为moe机制更类似人脑的思考过程,人是有注意力机制的,无论是在那种情景下,比如观察、思考、计算、谋划,它都会自动的只去关心对结果可能影响力最大的那些参量,所以这样才能保证大脑在维持只有极低能耗的时候(一天两馒头足够),却
: 能做出极为精准的判断。
--
FROM 114.241.2.*
为啥不能啊?我看resnet的时候就在拍大腿,这么trivial的想法,这不是随便来个人试试就知道的嘛,
这居然也能是重大发现...
充分说明了早期红利是多么的简单。
【 在 angusta 的大作中提到: 】
: 隔行如隔山,当年何凯明Resnet 就是一根线,你能否想出?
:
:
--
FROM 114.224.57.*
呵呵,那么多斯坦福mit清北的精英都不如你。
【 在 lvsoft 的大作中提到: 】
: 为啥不能啊?我看resnet的时候就在拍大腿,这么trivial的想法,这不是随便来个人试试就知道的嘛,
: 这居然也能是重大发现...
: 充分说明了早期红利是多么的简单。
: ...................
--
FROM 49.85.194.*
个人觉得“先进封装”这个提法很有误导性,chiplet是从生产工艺端变革出发思考的,
不是说封装堆叠了工艺落后的芯片就变“高级”了,更不能直接和AI的需求画等号
另外,目前对deepseek的讨论还是初步阶段,下结论还早,用简单的类比有些轻率了
【 在 JavaGuyHan 的大作中提到: 】
: 你的观点也很有意思,但是我认为像结论还尚早。ds出现证明了可以用低廉成本通过算法创新获得类似目前o1等同的效果,但是如果是使用md的大力飞砖再加上ds的新算法呢?会不会有更大的飞跃?这目前还没有答案,但是验证这件事花不了多久,毕竟ds开源了,估计几个星期就会有说法
: 颐鞘媚恳源伞
: 一个在半导体这边类似的例子是先进封装chiplet,这个架构原本是为了平摊大规模IC的成本,后来AI出现了,发现这个架构恰好很适合于近存计算、打破存储墙,再后来中国突然发现,通过在立体方向堆叠较落后工艺的芯片,也有可能逼近先进工艺平面芯片的系统性能,所以一下子成为这
: ...................
--
FROM 122.246.66.*