- 主题:半个外行谈谈我的看法,供讨论了批判

不知为啥发不出来就传图片吧
--
FROM 120.244.234.*
说得对,很多都是相通的
--
FROM 123.113.230.*
我完全外行,只是最近偶然看到了了剪枝这个词名,然后理解了一下,似乎就是你说的这样
【 在 JavaGuyHan 的大作中提到: 】
:
: 不知为啥发不出来就传图片吧
--
FROM 222.131.15.*
感谢你的分享
如果像你所说,的确跟我司在电路仿真EDA这方向的情况还挺类似。Cadence和synopsis早就有了业界非常成熟的电路仿真器,但限于传统的架构路径依赖,他们只是小修小补,在没有市场刺激的情况是不会主动去对架构进行大的调整。
国产仿真器发展较晚,但是通过研究,我们打磨适配了几种新方法,包括新的lu分解方案和新的电路参数简并的更高效办法,实际上这办法原理国外eda相关论文里早有论述,但是CS限于自身的原因没采用和进一步发展,这就给了我们后来居上的可能性。
但是我们这走通以后,最近几年cadence也推出了自己的下一代仿真,性能也就一下子追上来了,所以任何技术也是不断迭代竞争发展。
【 在 anylinkin 的大作中提到: 】
: 大公司也在对模型做裁减优化啊,他们也采取Pruning(裁减)、通过量化(缩小参数精
: 度)等等方式做基于自己完整大模型的各种小模型,用于各种特定场合。只是这部分工
: 作目前主要是集中在几个大模型自己那里做(他们都有自己的产品模型),外人不好直
: ...................
--
FROM 120.244.234.*
【 在 JavaGuyHan 的大作中提到: 】
: [upload=1][/upload]
: 不知为啥发不出来就传图片吧
神经网络虽然取得了很大成效, 集中在网络结构设计和优化算法, 数值计算稳定性。
但是, 对于网络结构的动态变化, 也只是让一部分网络进入抑制状态(相当于网络被缩减),
但大概是苦于没有理论支撑, 让神经网络动态的增加层数, 甚至节点数目前还没突破,
比起人脑, 每时每刻都有大量的脑细胞新陈代谢, 也许这个方向有很大的潜力。
西方的做法就是一味的把网络做大, 层数足够多, 节点足够多, 就能够表达一切, 没用的节点,
顶多就是参数值无效(变相的抑制死亡状态)。
至于美国的新闻媒体为什么乐得这样, 因为, 这样炒作, 资本获利最丰, 看看美国股市就知道了。
既得利益者的傲慢罢了。
为什么打醒它们的是我们, 大概这也是这些人搞断供,搞封锁带来的后果, 既然, 名义封锁算力,
提高中国的算力成本, 那比然, 探索算力潜力的事情会让中国的研究者义无反顾的深入这个领域。
模型蒸馏这种能更好的聚焦应用的垂直领域, 偏偏是做量化起家的幻方成了幸运儿, 偶然也是比然。
模型优化, 在复杂度适中和数据精细度和质量最好的情况下, 也许能首先容易办到,
恰恰量化领域做到了。
一个有90%散户, 拥有垂直穿透管理的大量交易数据, 和大量公开的平台数据, 还有各种论坛,各种大V
产生的文字数据, 这恐怕也是美国人可望而不可得的。
在没有突破性理论基础前, 这些数据才是最宝贵的东西,
AI大餐, 到底是菜谱重要, 是煤气重要, 还是食材重要? 我记得之前本版就讨论过, 说某院士说,
菜谱都是公开的, 食材重要, 西方舆论, 美国人一直把持煤气公司, 天天炒作煤气重要。
--
修改:poggy FROM 115.171.245.*
FROM 115.171.245.*
资本+技术垄断下,煤气公司还是很霸道的的,让你把灶台都拆了,上燃气,煤球蜂窝煤就更别想了。
所以内外都要顶住,既不要拆灶台,还要努力搞出电磁炉,哈。
另,垂直这个概念,是不是说距真正的AGI,就更远了?
人脑里联想,顿悟等概念,往往是跨领域的。
就人来说,知识面越广,约容易获得更高的成就。
【 在 poggy 的大作中提到: 】
:
: 神经网络虽然取得了很大成效, 集中在网络结构设计和优化算法, 数值计算稳定性。
: 但是, 对于网络结构的动态变化, 也只是让一部分网络进入抑制状态(相当于网络被缩减),
: ...................
--
FROM 221.220.153.*
隔行如隔山,当年何凯明Resnet 就是一根线,你能否想出?
【 在 wgw96 的大作中提到: 】
: 说得对,很多都是相通的
--
FROM 49.85.194.*
隔行如隔山,当年何凯明Resnet 就是一根线,你能否想出?
【 在 WXTLJX 的大作中提到: 】
: 我完全外行,只是最近偶然看到了了剪枝这个词名,然后理解了一下,似乎就是你说的这样
:
--
FROM 49.85.194.*
隔行如隔山,当年何凯明Resnet 就是一根线,你能否想出?
【 在 JavaGuyHan 的大作中提到: 】
: 感谢你的分享
: 如果像你所说,的确跟我司在电路仿真EDA这方向的情况还挺类似。Cadence和synopsis早就有了业界非常成熟的电路仿真器,但限于传统的架构路径依赖,他们只是小修小补,在没有市场刺激的情况是不会主动去对架构进行大的调整。
: 国产仿真器发展较晚,但是通过研究,我们打磨适配了几种新方法,包括新的lu分解方案和新的电路参数简并的更高效办法,实际上这办法原理国外eda相关论文里早有论述,但是CS限于自身的原因没采用和进一步发展,这就给了我们后来居上的可能性。
: ...................
--
FROM 49.85.194.*
你的观点也很有意思,但是我认为像结论还尚早。ds出现证明了可以用低廉成本通过算法创新获得类似目前o1等同的效果,但是如果是使用md的大力飞砖再加上ds的新算法呢?会不会有更大的飞跃?这目前还没有答案,但是验证这件事花不了多久,毕竟ds开源了,估计几个星期就会有说法,我们拭目以待吧。
一个在半导体这边类似的例子是先进封装chiplet,这个架构原本是为了平摊大规模IC的成本,后来AI出现了,发现这个架构恰好很适合于近存计算、打破存储墙,再后来中国突然发现,通过在立体方向堆叠较落后工艺的芯片,也有可能逼近先进工艺平面芯片的系统性能,所以一下子成为这两年半导体研究的热点。但这还是绕不开一个问题:如果我用本来最先进工艺的平面芯片在加上先进封装堆叠,不是又可以得到更为先进的系统能力吗?
【 在 poggy 的大作中提到: 】
:
: 神经网络虽然取得了很大成效, 集中在网络结构设计和优化算法, 数值计算稳定性。
: 但是, 对于网络结构的动态变化, 也只是让一部分网络进入抑制状态(相当于网络被缩减),
: ...................
--
FROM 120.244.234.*