outcome award RL,不是创新,而且不少人认为不如process award强化学习
。稀疏激活MOE(就是只激活部分参数运算),是新的研究领域,但也不是它创新的,算
是比较早的应用,目前这个领域还有很多需要解决的问题,存在局限。但是这两点,本
身是可以大规模降低算力需求。这大概是现在,夸它的人强调其算力资源需求少,而贬
他的人说体验一般般,对比一些模型在某写具体的点上也不如。
【 在 profounder 的大作中提到: 】
: 总体结构是创新的。
--
FROM 223.104.40.*