大公司也在对模型做裁减优化啊,他们也采取Pruning(裁减)、通过量化(缩小参数精
度)等等方式做基于自己完整大模型的各种小模型,用于各种特定场合。只是这部分工
作目前主要是集中在几个大模型自己那里做(他们都有自己的产品模型),外人不好直
接定制裁减,或者需要严重依赖提供模型的公司。
所以,最迟1年多前就有人提出了MOE(Mixture of Expert)和稀疏激活(Sparse Ac
tivation)的架构和算法,就是直接在原始完整大模型里,可以选择激活一些相关的模
块或参数来进行某些步骤的运算,但是选择哪些子模块或参数进行运算,如何确保不带
来新问题,又牵涉到一个算法理论研究。
相当于你做了一个非常完整的EDA工具,对外发布时需要降低运行的配置要求,可以有两
种方式:一种是裁减到一些功能模块,或者弱化某些功能模块的功能,成为一个缩微版
或着不同的金银铜铁版;一种就是做一些可配置选项,根据你需要使用的功能,自动运
行需要的模块子单元。
一些人可能会说,后面一种方法肯定更好啊,但是也不一定,因为毕竟是人工智能关联
性更多,也更复杂,选弱化还是选择不激活,各有优缺点。有人主张通过算力突破来尽
量保持AI模型的完整,因为这样才更符合真正AI的称呼,有人则认为可以先减少裁减阶
段性降低对算力的需求。
后一种方法也不是DeepSeek第一家做的(所以奥特曼说DS是copy something that
works也非全虚),一些大模型早大半年前就推出了MOE和稀疏激活的模型。而
DeepSeek近期会暴火,可能与宣传方式有关(DeepSeek V3推出了1个多月只到这几天
才突然火爆起来的),也可能和技术实现不断进步有关--后来的技术具体实现进一步
成熟完善了些导致突然可以满足某些更多层次的直接应用门槛了,于是就火爆起来了。
【 在 JavaGuyHan 的大作中提到: 】
: [upload=1][/upload]
: 不知为啥发不出来就传图片吧
--
修改:anylinkin FROM 223.104.40.*
FROM 223.104.40.*