- 主题:说说为什么垂域大模型不work
首先,先定义"大模型"。
目前英文语境里,其实没有"大模型"(Large Model)这个概念。大家说的大模型,其实指的都是大语言模型(Large Language Model, LLM)。
那为啥大语言模型能work?
关键是找到了一个"next word prediction"的优化目标,简单,还能scaling。
这个scaling特别重要,能让模型快速吃掉海量数据。只要文本够多,它就能吞得下。再加上一点微调,对话能力就很强了。
为啥垂域模型就不行呢?两个原因:
1. 数据不够多。图像领域都没攒够数据,更别说别的了。文本训练都是几T的token起步。
2. 没找到scaling的方法。就算数据多了,很多还是结构化数据,怎么scale是个问题。
再说两点:
1. 大语言模型根本不懂数值计算。像3.14这种数字,它看成3、.、1、4四个token。所以用LLM微调出来的领域模型,特别是要算数的,基本不work。
那为啥不直接加数值计算?很简单,加了就得特殊处理,一特殊处理就没法scaling了。
2. 通用大模型肯定要比垂域模型先搞出来。现在通用大模型都还没整明白呢,垂域模型怎么可能做得好。
--
FROM 219.142.146.*
赞深辟思考。
求问你这里所的 scaling 是啥意思,是快速获取大量训练素材的方法吗?
--
FROM 180.168.176.*
就是数据越多,参数规模越大效果越好。传统cv领域,你再增加参数规模和数据量,效果也不会有显著提高,甚至会下降。
【 在 chemphy123 的大作中提到: 】
: 赞深辟思考。
: 求问你这里所的 scaling 是啥意思,是快速获取大量训练素材的方法吗?
--
FROM 111.207.140.*
明白了,多谢
【 在 Bragi 的大作中提到: 】
: 就是数据越多,参数规模越大效果越好。传统cv领域,你再增加参数规模和数据量,效果也不会有显著提高,甚至会下降。
--
FROM 180.168.176.*
可以哦
--
FROM 120.239.70.*
赞。
您这里提的垂域大模型是指sft,或者rl的么?
现在一般公司做的,都是基于32b,甚至更少的吧。
这种模型能说话那肯定不行。
好比鹦鹉,经过训练也能算算术题,大家都觉得神奇,但是没人会觉得这种鹦鹉能代替计算器。
【 在 ML232 的大作中提到: 】
: 首先,先定义"大模型"。
: 目前英文语境里,其实没有"大模型"(Large Model)这个概念。大家说的大模型,其实指的都是大语言模型(Large Language Model, LLM)。
: 那为啥大语言模型能work?
: ...................
--
FROM 36.40.165.*
Vit里验证过,数据足够多的时候,Transformer才优于CNN
【 在 Bragi 的大作中提到: 】
: 就是数据越多,参数规模越大效果越好。传统cv领域,你再增加参数规模和数据量,效果也不会有显著提高,甚至会下降。
--
FROM 159.226.52.*