- 主题:外行求科普:几十亿参数的参数具体指什么?
简单地说大模型就是一个大函数,输入一个表示问题的大数组,输出一个表示回答的大数组。神经元是包含可训练参数的小函数,将从上一神经元输入的单个数值变成新值输出到下一神经元。
--
FROM 60.191.227.*
虽然是搞这个领域的,但仍然觉得说不太明白,不太好给别人科普
举个最简单例子,我们假定神经元就是两输入一个输出a*x1+b*x2=y,输入是两个x,输出是一个y
现在我要学习一下,有100组x1,x2和y,迭代99次,得出了a和b,别想的那么绝对,这种一元二次方程无解之类的问题。那么好,我们假定最终结果是a=1.1,b=2.2,这两个数字就是学习之后的超参数,反正我是学完了,超参数数量就是两个,只要我日后不再继续学习,超参数的值和数量都不变了,这就是个神经网络。
一般模型呢,也无非就是加减乘除卷积池化变点花花样,这些也不重要,重要的是轻量级的模型设计好了,层数就这么多,每层的参数(学好了就是超参)就固定了,参数越多,系统约复杂,对输入的感知约模糊(嗯,不可名状)。另外还有迭代的次数,迭代的越多,见识就越广;然后模型做的越来越大。貌似一切都在向着好的方向发展,机器可以超越人类
但是,大模型现在也快进了死胡同,单纯基于数据驱动的模型,尽管可以在超参数数量和模型形状上进行优化学习,但现阶段有这几点,一是过渡依赖数据,按照chatGPT的速度,2026年的时候地球的知识就被它学完了。第二可解释性差,几乎不会逻辑推理,可以搜一下CheXzero;第三是灾难性遗忘,没错,就是大模型学成了老年痴呆!确切来说是喜新厌旧,新任务学完了,旧的就忘掉了
【 在 chunhui 的大作中提到: 】
: 哪位给科普一下。多谢。这些参数是具体指什么?参数是由什么划分出来的,根据什么来划分这些参数?
--
FROM 1.202.76.*
a和b叫参数,超参数应该是训练前定的参数,比如iteration_num和学习速度a
【 在 alwaysfaint (熊二出没) 的大作中提到: 】
: 虽然是搞这个领域的,但仍然觉得说不太明白,不太好给别人科普
: 举个最简单例子,我们假定神经元就是两输入一个输出a*x1+b*x2=y,输入是两个x,输出是一个y
: 现在我要学习一下,有100组x1,x2和y,迭代99次,得出了a和b,别想的那么绝对,这种一元二次方程无解之类的问题。那么好,我们假定最终结果是a=1.1,b=2.2,这两个数字就是学习之后的超参数,反正我是学完了,超参数数量就是两个,只要我日后不再继续学习,超参数的值和数量都不变了,这就是个神经网络。
: 一般模型呢,也无非就是加减乘除卷积池化变点花花样,这些也不重要,重要的是轻量级的模型设计好了,层数就这么多,每层的参数(学好了就是超参)就固定了,参数越多,系统约复杂,对输入的感知约模糊(嗯,不可名状)。另外还有迭代的次数,迭代的越多,见识就越广;然后模型做的越来越大。貌似一切都在向着好的方向发展,机器可以超越人类
--
FROM 39.144.45.*
不完全,对于调参训狗这类事,改个lr,bs,设个迭代次数当然这是调整超参
但你从网络还要优化层数和参数数量未知这个角度,学好的参数就是超参
【 在 stevenwyy 的大作中提到: 】
: a和b叫参数,超参数应该是训练前定的参数,比如iteration_num和学习速度a
--
FROM 1.202.76.*
太高估人脑了,现在的大模型在数据量上已经远超人脑,
谁脑子里能装下整个图书馆里的书?更别说整个互联网的信息。
大模型只是某些机制还不成熟,比如遗忘比如更新比如繁殖等等,
一旦完善,就是。。。。
当然一个扭曲的高阶智能可能更可怕。
【 在 finlab 的大作中提到: 】
: 他们回答的都不形象。
: 目前主流的人工智能模式是人工神经网络。
: 大模型就是大规模多层人工神经网络。
: ...................
--
FROM 222.129.134.*
最简单的感应器、bp神经网络,一看便知
--
FROM 118.202.94.*