很奇怪为什么国外最近的开源模型都没有长上下文？

水木社区手机版

主题:很奇怪为什么国外最近的开源模型都没有长上下文？
楼主|Xjt|2024-04-23 10:46:10|只看此ID
无论是CodeGemma还是Llama3，都都是8K上下文。最搞笑的是Llama3-70b，居然也只有8k上下文

反观国内的开源比如QWen1.5，基本都几十K上下文了。铺天盖地的宣传大海捞针

这样的开源上明显的技术路线区别，是什么原因导致的呢？
--
FROM 103.149.83.*
1楼|cut188|2024-04-24 22:07:53|只看此ID
上下文是啥意思？
--
FROM 114.246.97.*
2楼|poocp|2024-04-25 19:24:21|只看此ID
context or token
【在 cut188 的大作中提到: 】
: 上下文是啥意思？
--
FROM 171.221.52.*
3楼|Joseph2012|2024-05-01 21:18:57|只看此ID
注意力机制时间复杂度是n方，context太长跑不动。超长context的模型做了特殊处理，会有代价
--
FROM 1.90.243.*
4楼|popsoft|2024-05-03 09:30:07|只看此ID
越长训练越花时间和算力，效果也不是一定好，国内的超长上下文更多的时候只不过是一个噱头罢了
【在 Xjt 的大作中提到: 】
: 无论是CodeGemma还是Llama3，都都是8K上下文。最搞笑的是Llama3-70b，居然也只有8k上下文
: 反观国内的开源比如QWen1.5，基本都几十K上下文了。铺天盖地的宣传大海捞针
: 这样的开源上明显的技术路线区别，是什么原因导致的呢？
--
FROM 113.227.191.*