就当前文献的总结来看,我的理解是Transformer主要基于NN做的。如果非要用SVM或者更广义的Reproducing Kernel来做,基本不太可行。理论上,SVM对应的Reproducing Kernel Hilbert Space(RKHS),它可以看作NN能所表达的泛函空间的子集,而且还只是非常特例的情况,低维下泛化性能就差了很多,数据是高维的情况就更加糟糕了。此外,模型训练对Kernel的计算更是难题,尽管Kernel Trick本身提出来的时候卖点之一是“简化计算”,但是真到数据量大的时候,就要考虑用Random projection减少计算量。我自己尝试着用Reproducing Kernel写文章,最后留下个半成品扔在那里了。
【 在 whistlingMe 的大作中提到: 】
: 看ilya刚点赞的那篇论文,只要数据足够多,结果都一样。
: 而且svm其实和transform也可以配合用,当然,你非得用svm做ChatGPT,工程复杂度肯定要大得多就是了。
:
--
FROM 59.66.113.*