- 主题:回看2010年的AI讨论帖子,那时还有人支持向量机
大模型的精髓。loss函数不是重点。
只要算力够,数据多,用svm也能训出现在ChatGPT的水平,可能就是需要的更多了而已。
--
FROM 101.39.135.*
看ilya刚点赞的那篇论文,只要数据足够多,结果都一样。
而且svm其实和transform也可以配合用,当然,你非得用svm做ChatGPT,工程复杂度肯定要大得多就是了。
【 在 laoqi 的大作中提到: 】
: 这个真不对,一定程度上你可以把SVM看作ChatGPT的特例情况,表达能力上就差远了。
--
FROM 101.39.135.*
cv时代,用svm+cnn做图像任务也很常见呀。
LLM也就是维度更高了。
【 在 laoqi 的大作中提到: 】
: 就当前文献的总结来看,我的理解是Transformer主要基于NN做的。如果非要用SVM或者更广义的Reproducing Kernel来做,基本不太可行。理论上,SVM对应的Reproducing Kernel Hilbert Space(RKHS),它可以看作NN能所表达的泛函空间的子集,而且还只是非常特例的情况,低维下泛化性能就差了很多,数据是高维的情况就更加糟糕了。此外,模型训练对Kernel的计算更是难题,尽管Kernel Trick本身提出来的时候卖点之一是“简化计算”,但是真到数据量大的时候,就要考虑用Random projection减少计算量。我自己尝试着用Reproducing Kernel写文章,最后留下个半成品扔在那里了。
--
FROM 101.39.135.*