大模型的本质其实是模式识别。transformer最大的优势其实是它通过自注意力机制,可以并行地计算每个位置与其他所有位置之间的依赖关系,无论它们之间的距离有多远,都能有效地捕捉到长序列中的长期依赖信息。语言是信息的媒介,大模型通过语言进行训练,本质是对信息模式进行识别。当大模型的参数足够大时,跨领域的模式被识别出来,并被固化到模型参数中,这相当于蕴含在语言里的高维信息模式被抽取出来了。这就是transformer出现涌现和泛化能力跃变的原因。AI 在现阶段,可以被理解为人类大脑的新皮层,是一个以回答你问题作为唯一目标的纯粹理性。
--
FROM 111.196.164.*