- 主题:半个外行谈谈我的看法,供讨论了批判
不知为啥发不出来就传图片吧
--
FROM 120.244.234.*
说得对,很多都是相通的
--
FROM 123.113.230.*
我完全外行,只是最近偶然看到了了剪枝这个词名,然后理解了一下,似乎就是你说的这样
【 在 JavaGuyHan 的大作中提到: 】
:
: 不知为啥发不出来就传图片吧
--
FROM 222.131.15.*
大公司也在对模型做裁减优化啊,他们也采取Pruning(裁减)、通过量化(缩小参数精
度)等等方式做基于自己完整大模型的各种小模型,用于各种特定场合。只是这部分工
作目前主要是集中在几个大模型自己那里做(他们都有自己的产品模型),外人不好直
接定制裁减,或者需要严重依赖提供模型的公司。
所以,最迟1年多前就有人提出了MOE(Mixture of Expert)和稀疏激活(Sparse Ac
tivation)的架构和算法,就是直接在原始完整大模型里,可以选择激活一些相关的模
块或参数来进行某些步骤的运算,但是选择哪些子模块或参数进行运算,如何确保不带
来新问题,又牵涉到一个算法理论研究。
相当于你做了一个非常完整的EDA工具,对外发布时需要降低运行的配置要求,可以有两
种方式:一种是裁减到一些功能模块,或者弱化某些功能模块的功能,成为一个缩微版
或着不同的金银铜铁版;一种就是做一些可配置选项,根据你需要使用的功能,自动运
行需要的模块子单元。
一些人可能会说,后面一种方法肯定更好啊,但是也不一定,因为毕竟是人工智能关联
性更多,也更复杂,选弱化还是选择不激活,各有优缺点。有人主张通过算力突破来尽
量保持AI模型的完整,因为这样才更符合真正AI的称呼,有人则认为可以先减少裁减阶
段性降低对算力的需求。
后一种方法也不是DeepSeek第一家做的(所以奥特曼说DS是copy something that
works也非全虚),一些大模型早大半年前就推出了MOE和稀疏激活的模型。而
DeepSeek近期会暴火,可能与宣传方式有关(DeepSeek V3推出了1个多月只到这几天
才突然火爆起来的),也可能和技术实现不断进步有关--后来的技术具体实现进一步
成熟完善了些导致突然可以满足某些更多层次的直接应用门槛了,于是就火爆起来了。
【 在 JavaGuyHan 的大作中提到: 】
: [upload=1][/upload]
: 不知为啥发不出来就传图片吧
--
修改:anylinkin FROM 223.104.40.*
FROM 223.104.40.*
感谢你的分享
如果像你所说,的确跟我司在电路仿真EDA这方向的情况还挺类似。Cadence和synopsis早就有了业界非常成熟的电路仿真器,但限于传统的架构路径依赖,他们只是小修小补,在没有市场刺激的情况是不会主动去对架构进行大的调整。
国产仿真器发展较晚,但是通过研究,我们打磨适配了几种新方法,包括新的lu分解方案和新的电路参数简并的更高效办法,实际上这办法原理国外eda相关论文里早有论述,但是CS限于自身的原因没采用和进一步发展,这就给了我们后来居上的可能性。
但是我们这走通以后,最近几年cadence也推出了自己的下一代仿真,性能也就一下子追上来了,所以任何技术也是不断迭代竞争发展。
【 在 anylinkin 的大作中提到: 】
: 大公司也在对模型做裁减优化啊,他们也采取Pruning(裁减)、通过量化(缩小参数精
: 度)等等方式做基于自己完整大模型的各种小模型,用于各种特定场合。只是这部分工
: 作目前主要是集中在几个大模型自己那里做(他们都有自己的产品模型),外人不好直
: ...................
--
FROM 120.244.234.*
技术进步的方式,不止技术原理的代际突破,也可能包括应用模式的创新纳新,或者现
有技术的落地优化或极限挖掘。原理级别的代际突破,可以打开未来上升的无限可能;
但是应用模式的创新纳新,或者现有技术的极限挖掘,也可能带来阶段性的更优。就像
优化的4G甚至超过新出时的5G性能,但是未来就不好说了。而从实用运营角度也不能说
4G开始失败了。
【 在 JavaGuyHan 的大作中提到: 】
: 感谢你的分享
: 如果像你所说,的确跟我司在电路仿真EDA这方向的情况还挺类似。Cadence和synopsis早就有了业界非常成熟的电路仿真器,但限于传统的架构路径依赖,他们只是小修小补,在没有市场刺激的情况是不会主动去对架构进行大的调整。
: 国产仿真器发展较晚,但是通过研究,我们打磨适配了几种新方法,包括新的lu分解方案和新的电路参数简并的更高效办法,实际上这办法原理国外eda相关论文里早有论述,但是CS限于自身的原因没采用和进一步发展,这就给了我们后来居上的可能性。
: ...................
--
修改:anylinkin FROM 223.104.40.*
FROM 223.104.40.*
【 在 JavaGuyHan 的大作中提到: 】
: [upload=1][/upload]
: 不知为啥发不出来就传图片吧
神经网络虽然取得了很大成效, 集中在网络结构设计和优化算法, 数值计算稳定性。
但是, 对于网络结构的动态变化, 也只是让一部分网络进入抑制状态(相当于网络被缩减),
但大概是苦于没有理论支撑, 让神经网络动态的增加层数, 甚至节点数目前还没突破,
比起人脑, 每时每刻都有大量的脑细胞新陈代谢, 也许这个方向有很大的潜力。
西方的做法就是一味的把网络做大, 层数足够多, 节点足够多, 就能够表达一切, 没用的节点,
顶多就是参数值无效(变相的抑制死亡状态)。
至于美国的新闻媒体为什么乐得这样, 因为, 这样炒作, 资本获利最丰, 看看美国股市就知道了。
既得利益者的傲慢罢了。
为什么打醒它们的是我们, 大概这也是这些人搞断供,搞封锁带来的后果, 既然, 名义封锁算力,
提高中国的算力成本, 那比然, 探索算力潜力的事情会让中国的研究者义无反顾的深入这个领域。
模型蒸馏这种能更好的聚焦应用的垂直领域, 偏偏是做量化起家的幻方成了幸运儿, 偶然也是比然。
模型优化, 在复杂度适中和数据精细度和质量最好的情况下, 也许能首先容易办到,
恰恰量化领域做到了。
一个有90%散户, 拥有垂直穿透管理的大量交易数据, 和大量公开的平台数据, 还有各种论坛,各种大V
产生的文字数据, 这恐怕也是美国人可望而不可得的。
在没有突破性理论基础前, 这些数据才是最宝贵的东西,
AI大餐, 到底是菜谱重要, 是煤气重要, 还是食材重要? 我记得之前本版就讨论过, 说某院士说,
菜谱都是公开的, 食材重要, 西方舆论, 美国人一直把持煤气公司, 天天炒作煤气重要。
--
修改:poggy FROM 115.171.245.*
FROM 115.171.245.*
资本+技术垄断下,煤气公司还是很霸道的的,让你把灶台都拆了,上燃气,煤球蜂窝煤就更别想了。
所以内外都要顶住,既不要拆灶台,还要努力搞出电磁炉,哈。
另,垂直这个概念,是不是说距真正的AGI,就更远了?
人脑里联想,顿悟等概念,往往是跨领域的。
就人来说,知识面越广,约容易获得更高的成就。
【 在 poggy 的大作中提到: 】
:
: 神经网络虽然取得了很大成效, 集中在网络结构设计和优化算法, 数值计算稳定性。
: 但是, 对于网络结构的动态变化, 也只是让一部分网络进入抑制状态(相当于网络被缩减),
: ...................
--
FROM 221.220.153.*
隔行如隔山,当年何凯明Resnet 就是一根线,你能否想出?
【 在 wgw96 的大作中提到: 】
: 说得对,很多都是相通的
--
FROM 49.85.194.*
隔行如隔山,当年何凯明Resnet 就是一根线,你能否想出?
【 在 WXTLJX 的大作中提到: 】
: 我完全外行,只是最近偶然看到了了剪枝这个词名,然后理解了一下,似乎就是你说的这样
:
--
FROM 49.85.194.*