首先,先定义"大模型"。
目前英文语境里,其实没有"大模型"(Large Model)这个概念。大家说的大模型,其实指的都是大语言模型(Large Language Model, LLM)。
那为啥大语言模型能work?
关键是找到了一个"next word prediction"的优化目标,简单,还能scaling。
这个scaling特别重要,能让模型快速吃掉海量数据。只要文本够多,它就能吞得下。再加上一点微调,对话能力就很强了。
为啥垂域模型就不行呢?两个原因:
1. 数据不够多。图像领域都没攒够数据,更别说别的了。文本训练都是几T的token起步。
2. 没找到scaling的方法。就算数据多了,很多还是结构化数据,怎么scale是个问题。
再说两点:
1. 大语言模型根本不懂数值计算。像3.14这种数字,它看成3、.、1、4四个token。所以用LLM微调出来的领域模型,特别是要算数的,基本不work。
那为啥不直接加数值计算?很简单,加了就得特殊处理,一特殊处理就没法scaling了。
2. 通用大模型肯定要比垂域模型先搞出来。现在通用大模型都还没整明白呢,垂域模型怎么可能做得好。
--
FROM 219.142.146.*