半个外行谈谈我的看法，供讨论了批判

水木社区手机版

主题:半个外行谈谈我的看法，供讨论了批判
楼主|JavaGuyHan|2025-01-28 00:43:47|只看此ID

不知为啥发不出来就传图片吧
--
FROM 120.244.234.*
1楼|wgw96|2025-01-28 06:49:19|只看此ID
说得对，很多都是相通的
--
FROM 123.113.230.*
2楼|WXTLJX|2025-01-28 08:34:47|只看此ID
我完全外行，只是最近偶然看到了了剪枝这个词名，然后理解了一下，似乎就是你说的这样

【在 JavaGuyHan 的大作中提到: 】
:
: 不知为啥发不出来就传图片吧
--
FROM 222.131.15.*
3楼|JavaGuyHan|2025-01-28 09:09:00|只看此ID
感谢你的分享
如果像你所说，的确跟我司在电路仿真EDA这方向的情况还挺类似。Cadence和synopsis早就有了业界非常成熟的电路仿真器，但限于传统的架构路径依赖，他们只是小修小补，在没有市场刺激的情况是不会主动去对架构进行大的调整。
国产仿真器发展较晚，但是通过研究，我们打磨适配了几种新方法，包括新的lu分解方案和新的电路参数简并的更高效办法，实际上这办法原理国外eda相关论文里早有论述，但是CS限于自身的原因没采用和进一步发展，这就给了我们后来居上的可能性。
但是我们这走通以后，最近几年cadence也推出了自己的下一代仿真，性能也就一下子追上来了，所以任何技术也是不断迭代竞争发展。

【在 anylinkin 的大作中提到: 】
: 大公司也在对模型做裁减优化啊，他们也采取Pruning(裁减）、通过量化（缩小参数精
: 度）等等方式做基于自己完整大模型的各种小模型，用于各种特定场合。只是这部分工
: 作目前主要是集中在几个大模型自己那里做（他们都有自己的产品模型），外人不好直
: ...................
--
FROM 120.244.234.*
4楼|poggy|2025-01-28 09:29:58|只看此ID
【在 JavaGuyHan 的大作中提到: 】
: [upload=1][/upload]
: 不知为啥发不出来就传图片吧

神经网络虽然取得了很大成效，集中在网络结构设计和优化算法，数值计算稳定性。
但是，对于网络结构的动态变化，也只是让一部分网络进入抑制状态（相当于网络被缩减），
但大概是苦于没有理论支撑，让神经网络动态的增加层数，甚至节点数目前还没突破，
比起人脑，每时每刻都有大量的脑细胞新陈代谢，也许这个方向有很大的潜力。

西方的做法就是一味的把网络做大，层数足够多，节点足够多，就能够表达一切，没用的节点，
顶多就是参数值无效（变相的抑制死亡状态）。
至于美国的新闻媒体为什么乐得这样，因为，这样炒作，资本获利最丰，看看美国股市就知道了。
既得利益者的傲慢罢了。

为什么打醒它们的是我们，大概这也是这些人搞断供，搞封锁带来的后果，既然，名义封锁算力，
提高中国的算力成本，那比然，探索算力潜力的事情会让中国的研究者义无反顾的深入这个领域。

模型蒸馏这种能更好的聚焦应用的垂直领域，偏偏是做量化起家的幻方成了幸运儿，偶然也是比然。
模型优化，在复杂度适中和数据精细度和质量最好的情况下，也许能首先容易办到，
恰恰量化领域做到了。
一个有90%散户，拥有垂直穿透管理的大量交易数据，和大量公开的平台数据，还有各种论坛，各种大V
产生的文字数据，这恐怕也是美国人可望而不可得的。
在没有突破性理论基础前，这些数据才是最宝贵的东西，
AI大餐，到底是菜谱重要，是煤气重要，还是食材重要？我记得之前本版就讨论过，说某院士说，
菜谱都是公开的，食材重要，西方舆论，美国人一直把持煤气公司，天天炒作煤气重要。

--
修改:poggy FROM 115.171.245.*
FROM 115.171.245.*
5楼|mystar1984|2025-01-28 10:28:18|只看此ID
资本+技术垄断下，煤气公司还是很霸道的的，让你把灶台都拆了，上燃气，煤球蜂窝煤就更别想了。
所以内外都要顶住，既不要拆灶台，还要努力搞出电磁炉，哈。

另，垂直这个概念，是不是说距真正的AGI，就更远了？
人脑里联想，顿悟等概念，往往是跨领域的。
就人来说，知识面越广，约容易获得更高的成就。

【在 poggy 的大作中提到: 】
:
: 神经网络虽然取得了很大成效，集中在网络结构设计和优化算法，数值计算稳定性。
: 但是，对于网络结构的动态变化，也只是让一部分网络进入抑制状态（相当于网络被缩减），
: ...................
--
FROM 221.220.153.*
6楼|angusta|2025-01-28 11:02:54|只看此ID
隔行如隔山，当年何凯明Resnet 就是一根线，你能否想出？

【在 wgw96 的大作中提到: 】
: 说得对，很多都是相通的
--
FROM 49.85.194.*
7楼|angusta|2025-01-28 11:03:05|只看此ID
隔行如隔山，当年何凯明Resnet 就是一根线，你能否想出？

【在 WXTLJX 的大作中提到: 】
: 我完全外行，只是最近偶然看到了了剪枝这个词名，然后理解了一下，似乎就是你说的这样
:
--
FROM 49.85.194.*
8楼|angusta|2025-01-28 11:03:22|只看此ID
隔行如隔山，当年何凯明Resnet 就是一根线，你能否想出？

【在 JavaGuyHan 的大作中提到: 】
: 感谢你的分享
: 如果像你所说，的确跟我司在电路仿真EDA这方向的情况还挺类似。Cadence和synopsis早就有了业界非常成熟的电路仿真器，但限于传统的架构路径依赖，他们只是小修小补，在没有市场刺激的情况是不会主动去对架构进行大的调整。
: 国产仿真器发展较晚，但是通过研究，我们打磨适配了几种新方法，包括新的lu分解方案和新的电路参数简并的更高效办法，实际上这办法原理国外eda相关论文里早有论述，但是CS限于自身的原因没采用和进一步发展，这就给了我们后来居上的可能性。
: ...................
--
FROM 49.85.194.*
9楼|JavaGuyHan|2025-01-28 11:05:15|只看此ID
你的观点也很有意思，但是我认为像结论还尚早。ds出现证明了可以用低廉成本通过算法创新获得类似目前o1等同的效果，但是如果是使用md的大力飞砖再加上ds的新算法呢？会不会有更大的飞跃？这目前还没有答案，但是验证这件事花不了多久，毕竟ds开源了，估计几个星期就会有说法，我们拭目以待吧。
一个在半导体这边类似的例子是先进封装chiplet，这个架构原本是为了平摊大规模IC的成本，后来AI出现了，发现这个架构恰好很适合于近存计算、打破存储墙，再后来中国突然发现，通过在立体方向堆叠较落后工艺的芯片，也有可能逼近先进工艺平面芯片的系统性能，所以一下子成为这两年半导体研究的热点。但这还是绕不开一个问题：如果我用本来最先进工艺的平面芯片在加上先进封装堆叠，不是又可以得到更为先进的系统能力吗？

【在 poggy 的大作中提到: 】
:
: 神经网络虽然取得了很大成效，集中在网络结构设计和优化算法，数值计算稳定性。
: 但是，对于网络结构的动态变化，也只是让一部分网络进入抑制状态（相当于网络被缩减），
: ...................
--
FROM 120.244.234.*