- 主题:自己部署了一个ChatGLM,有点疑问
一个问题是,现在的这些大模型有推理能力吗?
感觉是训练用了多少数据,就有多少能力,没训练过的,也就不会。不知道我理解的对不对。
再一个,输入新的资料进行再次训练,这也就是所谓的微调吧,这个会导致模型里的已有的知识的丢失或模糊化或者叫做遗忘吗?
现在这个感觉像是学了不少超出他理解的知识的小学生,问啥学过的,能答。模糊点的,能连猜带蒙的答。但是感觉离理性逻辑推理还有距离,也许其实它根本不会推理。而且感觉有个最严重的问题就是,它其实不知道自己知不知道,这是不是就是所谓大模型幻觉。
--
FROM 123.112.66.*
1.训练的意义就是让模型能够胜任没有见过的数据的推理,也就是所谓的泛化generalize 。如果仅仅是对原有数据能够预测,而不能在新数据上做预测的话,这个基本就是overfit了
2. 微调一般是指对已经预训练过的通用模型进一步进行专业数据的小规模训练,一般不会造成原有信息丢失。但如果直接大规模调整原有通用模型的话,是肯定会导致原油知识丧失的
【 在 dukenuke (回车) 的大作中提到: 】
: 一个问题是,现在的这些大模型有推理能力吗?
: 感觉是训练用了多少数据,就有多少能力,没训练过的,也就不会。不知道我理解的对不对。
: 再一个,输入新的资料进行再次训练,这也就是所谓的微调吧,这个会导致模型里的已有的知识的丢失或模糊化或者叫做遗忘吗?
:
--
FROM 117.143.100.*
没训练数据是few shot和zero shot,大模型多少都有些这种能力,不过ChatGLM在这方便不领先
--
FROM 120.244.234.*