LLM是神经网络按概率输出token
LLM的爆发点是原来的google brain部门的大佬搞的transformer技术。
Transformer引入的自注意力机制(Self-Attention)彻底打破了并行计算的瓶颈,使得用海量数据训练超大规模模型成为可能。
现在google brain和deepmind已经合并了,谷歌的AI核心技术全由合并后的这个部门/子公司负责。
【 在 easior 的大作中提到: 】
: 本人对 AI 的理解只停留在 AlphaGO 的搜索树的概率预测算法
: 目前 AI 到底是怎么做推理的并不了解,若只是加权重,估计算法没大改进
:
--
FROM 123.115.128.*