- 主题:著名大模型中用到的一个位置编码是一个国内二流学校硕士提出的
作者苏剑林,我记得最开始rope甚至只是发在他的个人博客上的(有可能记错)
kexue.fm
既有动手能力又有数学的推导和底层思维,博客写的也挺好读,新想法和代码也在持续更新到github上。
和学院派的感觉不太一样。
【 在 hsing 的大作中提到: 】
:21年的文章:好像还是个90后,谷歌和Meta在大模型中都用了他的方法,牛啊!有这么一篇文章在高校的话可以到处吹了吧
- 来自 水木社区APP v3.5.7
--
FROM 222.129.0.*
哈哈 那你看过palm llama这些没?在青椒班看你帖子发言连个门都没入,实在不行把你的论文列出来看看
【 在 angusta 的大作中提到: 】
: 无语了,我都说了,你的论文不值得我费时间看。
:
--
FROM 101.206.167.*
你真是小儿科,我只搞硬科技,大国重器,卡脖子的,芯片,编译器,操作系统,云计算。
区区几个开源算法软件算个毛啊。跟你也没啥关系。
你们这些人充其量也只是用用人家的模型。人家真正训练核心模型的也就那么几个人,都是世界名校博士。
大模型行业不需要那么多人,全世界也就几百人上千人就够了。我说的是核心研发人员。
现在那些创业公司风险投资搞的,都是外围的一些应用改造而已。
你估计也就这个档次。
【 在 hsing 的大作中提到: 】
: 哈哈 那你看过palm llama这些没?在青椒班看你帖子发言连个门都没入,实在不行把你的论文列出来看看
: :
--
FROM 223.167.12.*
哈哈 列出来你搞得硬科技有哪些,列出几个成果,麻溜的,你说了这么多你说说哪一个你最在行
【 在 angusta 的大作中提到: 】
: 你真是小儿科,我只搞硬科技,大国重器,卡脖子的,芯片,编译器,操作系统,云计算。
: 区区几个开源算法软件算个毛啊。跟你也没啥关系。
: 你们这些人充其量也只是用用人家的模型。人家真正训练核心模型的也就那么几个人,都是世界名校博士。
: ...................
--
FROM 101.206.167.*
位置编码早就有了,在bert里就有了,这篇文章的位置编码有什么创新之处?从哪看出来google 用的它的方法?
【 在 hsing 的大作中提到: 】
: 21年的文章好像还是个90后,谷歌和Meta在大模型中都用了他的方法,牛啊!有这么一篇文章在高校的话可以到处吹了吧 ...
--
FROM 222.129.132.*
国内还有个以一己之力搞rnn大语言模型的,完全摈弃transformer架构,也是个牛人
【 在 hsing 的大作中提到: 】
: 21年的文章
: 好像还是个90后,谷歌和Meta在大模型中都用了他的方法,牛啊!有这么一篇文章在高校的话可以到处吹了吧
: --
: ...................
--
FROM 174.202.234.*
看不下去了。
你不懂就闭嘴吧。
【 在 angusta 的大作中提到: 】
: 你真是小儿科,我只搞硬科技,大国重器,卡脖子的,芯片,编译器,操作系统,云计算。区区几个开源算法软件算个毛啊。跟你也没啥 ...
--
FROM 39.144.103.*
就是深圳一个公司给huggingface开源社区开发了一个模块被接受了,顺便写了个arxiv文章发布一下。
【 在 aWatermelon 的大作中提到: 】
: 位置编码早就有了,在bert里就有了,这篇文章的位置编码有什么创新之处?从哪看出来google 用的它的方法?
--
FROM 39.144.45.*
啊,这篇啊,这不就是个tech report吗,确实很有用,写的也还不错,但就只是个report,不能再多了,国内目前就这么僵化,就不会肯定他。。。。
【 在 hsing 的大作中提到: 】
: ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING
: Rotary Position Embedding,RoPE
: 现在主流大模型都用这个实现位置编码
: ...................
--
FROM 125.33.200.*
不是僵化的问题,而是本来这个学术创新价值没有那么大,但是也还可以了。
没法比。这个是公司出钱,找六个全职高薪程序员开发几个月搞的东西,战斗力肯定比高校几个学生瞎搞一个玩具 要硬的多。
【 在 stoneyang 的大作中提到: 】
: 啊,这篇啊,这不就是个tech report吗,确实很有用,写的也还不错,但就只是个report,不能再多了,国内目前就这么僵化,就不会肯定他。。。。
--
FROM 39.144.45.*