半个外行谈谈我的看法，供讨论了批判

水木社区手机版

主题:半个外行谈谈我的看法，供讨论了批判
3楼|anylinkin|2025-01-28 08:23:46|展开
大公司也在对模型做裁减优化啊，他们也采取Pruning(裁减）、通过量化（缩小参数精
度）等等方式做基于自己完整大模型的各种小模型，用于各种特定场合。只是这部分工
作目前主要是集中在几个大模型自己那里做（他们都有自己的产品模型），外人不好直
接定制裁减，或者需要严重依赖提供模型的公司。

所以，最迟１年多前就有人提出了MOE（Mixture of Expert）和稀疏激活（Sparse Ac
tivation）的架构和算法，就是直接在原始完整大模型里，可以选择激活一些相关的模
块或参数来进行某些步骤的运算，但是选择哪些子模块或参数进行运算，如何确保不带
来新问题，又牵涉到一个算法理论研究。

相当于你做了一个非常完整的EDA工具，对外发布时需要降低运行的配置要求，可以有两
种方式：一种是裁减到一些功能模块，或者弱化某些功能模块的功能，成为一个缩微版
或着不同的金银铜铁版；一种就是做一些可配置选项，根据你需要使用的功能，自动运
行需要的模块子单元。

一些人可能会说，后面一种方法肯定更好啊，但是也不一定，因为毕竟是人工智能关联
性更多，也更复杂，选弱化还是选择不激活，各有优缺点。有人主张通过算力突破来尽
量保持AI模型的完整，因为这样才更符合真正AI的称呼，有人则认为可以先减少裁减阶
段性降低对算力的需求。

后一种方法也不是DeepSeek第一家做的（所以奥特曼说DS是copy something that　
works也非全虚），一些大模型早大半年前就推出了MOE和稀疏激活的模型。而
DeepSeek近期会暴火，可能与宣传方式有关（DeepSeek　V3推出了１个多月只到这几天
才突然火爆起来的），也可能和技术实现不断进步有关－－后来的技术具体实现进一步
成熟完善了些导致突然可以满足某些更多层次的直接应用门槛了，于是就火爆起来了。

【在 JavaGuyHan 的大作中提到: 】
: [upload=1][/upload]
: 不知为啥发不出来就传图片吧
--
修改:anylinkin FROM 223.104.40.*
FROM 223.104.40.*
5楼|anylinkin|2025-01-28 09:18:12|展开
技术进步的方式，不止技术原理的代际突破，也可能包括应用模式的创新纳新，或者现
有技术的落地优化或极限挖掘。原理级别的代际突破，可以打开未来上升的无限可能；
但是应用模式的创新纳新，或者现有技术的极限挖掘，也可能带来阶段性的更优。就像
优化的4G甚至超过新出时的5G性能，但是未来就不好说了。而从实用运营角度也不能说
4G开始失败了。

【在 JavaGuyHan 的大作中提到: 】
: 感谢你的分享
: 如果像你所说，的确跟我司在电路仿真EDA这方向的情况还挺类似。Cadence和synopsis早就有了业界非常成熟的电路仿真器，但限于传统的架构路径依赖，他们只是小修小补，在没有市场刺激的情况是不会主动去对架构进行大的调整。
: 国产仿真器发展较晚，但是通过研究，我们打磨适配了几种新方法，包括新的lu分解方案和新的电路参数简并的更高效办法，实际上这办法原理国外eda相关论文里早有论述，但是CS限于自身的原因没采用和进一步发展，这就给了我们后来居上的可能性。
: ...................
--
修改:anylinkin FROM 223.104.40.*
FROM 223.104.40.*