虽然是搞这个领域的,但仍然觉得说不太明白,不太好给别人科普
举个最简单例子,我们假定神经元就是两输入一个输出a*x1+b*x2=y,输入是两个x,输出是一个y
现在我要学习一下,有100组x1,x2和y,迭代99次,得出了a和b,别想的那么绝对,这种一元二次方程无解之类的问题。那么好,我们假定最终结果是a=1.1,b=2.2,这两个数字就是学习之后的超参数,反正我是学完了,超参数数量就是两个,只要我日后不再继续学习,超参数的值和数量都不变了,这就是个神经网络。
一般模型呢,也无非就是加减乘除卷积池化变点花花样,这些也不重要,重要的是轻量级的模型设计好了,层数就这么多,每层的参数(学好了就是超参)就固定了,参数越多,系统约复杂,对输入的感知约模糊(嗯,不可名状)。另外还有迭代的次数,迭代的越多,见识就越广;然后模型做的越来越大。貌似一切都在向着好的方向发展,机器可以超越人类
但是,大模型现在也快进了死胡同,单纯基于数据驱动的模型,尽管可以在超参数数量和模型形状上进行优化学习,但现阶段有这几点,一是过渡依赖数据,按照chatGPT的速度,2026年的时候地球的知识就被它学完了。第二可解释性差,几乎不会逻辑推理,可以搜一下CheXzero;第三是灾难性遗忘,没错,就是大模型学成了老年痴呆!确切来说是喜新厌旧,新任务学完了,旧的就忘掉了
【 在 chunhui 的大作中提到: 】
: 哪位给科普一下。多谢。这些参数是具体指什么?参数是由什么划分出来的,根据什么来划分这些参数?
--
FROM 1.202.76.*