LLM as a judge是真不行

水木社区手机版

主题:LLM as a judge是真不行
10楼|Xjt|2025-08-31 20:45:57|只看此ID
不存在的
【在 LYMing1986 的大作中提到: 】
: 这模型可有点老

--
修改:Xjt FROM 218.82.23.*
FROM 218.82.23.*
11楼|LYMing1986|2025-08-31 20:48:22|只看此ID

【在 Xjt 的大作中提到: 】
: 不存在的
: [upload=1][/upload]
--
FROM 124.126.186.*
12楼|guizhidao|2025-08-31 20:48:35|只看此ID
lol
要不3+1呢，再来一claude做judge

但评价来看，编程问题gpt貌似不太行， Gpro2.5和claude4应该是最强吧
【在 Xjt 的大作中提到: 】
: 最近我有一个很复杂的编程问题（超过50K tokens）。然后让Gemini Pro 2.5，Grok，GPT5，分别给出答案。
: 接着我把3个答案放一起，分别让3个LLM判断，谁的答案更好。结果Gemini Pro 2.5，Grok，GPT5这三个LLM居然每个人都说自己的答案是最好，最完善的，最优秀的。。。。
--
FROM 124.126.141.*
13楼|Xjt|2025-08-31 21:02:08|只看此ID
claude和deepseek也测了，答案也不统一。。。

我目前测试的感觉：
GPT5>Gemini 2.5pro>Grok4>Claude Sonnet 4 Thinking>Deepseek R1

Deepseek 3.1和Claude Opus都没测过，不参与排名
【在 guizhidao 的大作中提到: 】
: lol
: 要不3+1呢，再来一claude做judge
: 但评价来看，编程问题gpt貌似不太行， Gpro2.5和claude4应该是最强吧
--
FROM 218.82.23.*
14楼|yzjba|2025-09-01 10:39:45|只看此ID
你应该让他排除自己，再评谁最好

【在 Xjt 的大作中提到: 】
: 最近我有一个很复杂的编程问题（超过50K tokens）。然后让Gemini Pro 2.5，Grok，GPT5，分别给出答案。
: 接着我把3个答案放一起，分别让3个LLM判断，谁的答案更好。结果Gemini Pro 2.5，Grok，GPT5这三个LLM居然每个人都说自己的答案是最好，最完善的，最优秀的。。。。
--
FROM 159.226.52.*