你这个说法毫无意义啊,就是在玩文字游戏。
同样的事情,一个能做到一个做不到,那就是有本质区别。
这样的事情多来几个,或者大概率会落入这种场景,那这两个东西就有本质差距。
排名算个屁,现在的llm排名,本质上都是些micro bench,根本无法反应实际性能。
尤其是qwen这种以高分低能著称的llm了。
【 在 LYMing1986 的大作中提到: 】
: 我说“官宣”“OpenCompass评测榜”就是等你这最后一句“另外官宣超过claude 3.5的一大堆,你信可以拉出来走两步试试。”
: 实际体验千差万别,排行榜各种都有
: lz问的是达到水平,如果在某个排名相近,或许可以认为他们水平相近
: ...................
--
FROM 117.135.82.*