- 主题:glm5.1现在很强了
光提交没用,还得push
【 在 Peleus 的大作中提到: 】
: 我让他每次交互完毕后都提交
--
FROM 116.230.107.*
这个我每天早晨搞一次
【 在 lvsoft 的大作中提到: 】
: 光提交没用,还得push
--
FROM 221.223.2.197
那这种没用的。
一个项目每天提交一次,那我这种在m个项目中任选n个项目的不疯了。
一切不是被动自动执行的备份机制都等于没有备份机制
【 在 Peleus 的大作中提到: 】
: 这个我每天早晨搞一次
--
修改:lvsoft FROM 116.230.107.*
FROM 116.230.107.*
订阅不上如之奈何
【 在 lshi 的大作中提到: 】
: 我现在opus列计划
: glm执行
: sonnet review。
: ...................
--
FROM 58.135.83.*
nb
【 在 lvsoft 的大作中提到: 】
: glm5.1蛮不错的,除了昨天在我的机器上跑了个rm -rf /之外都挺好....
--
FROM 202.99.52.*
kimi 2.6 〉 glm5.1
【 在 lshi 的大作中提到: 】
: 我现在opus列计划
: glm执行
: sonnet review。
: ...................
--
FROM 223.104.39.*
据官方披露,Kimi K2.6 在博士级难度的完整版“终极人类考试”(Humanity's Last Exam)、评估真实软件工程能力的 SWE-Bench Pro 以及 Agent 深度检索基准 DeepSearchQA 等测试中,均取得了行业领先的成绩,表现持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro 等闭源模型。
【 在 namoamituofo 的大作中提到: 】
: kimi 2.6 〉 glm5.1
--
FROM 123.122.126.*
没啥意义。
现在的benchmark,包括hle在内都是marketing的作用。
比如,hle的题目中有不少题目的标准答案都是错的,所以hle分数考太高,反而是很奇怪的事情。
以上不是我说的,是亚马逊搞agi的首席应用科学家说的。
【 在 z16166 的大作中提到: 】
: 据官方披露,Kimi K2.6 在博士级难度的完整版“终极人类考试”(Humanity's Last Exam)、评估真实软件工程能力的 SWE-Bench Pro 以及 Agent 深度检索基准 DeepSearchQA 等测试中,均取得了行业领先的成绩,表现持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro 等闭源模型。
:
--
FROM 116.230.107.*
我看了这个新闻,虽然有些怀疑,但还是想着试用一下,如果可以就充些钱。
结果,直接告诉我用的人太多,让我等等。
没了你张屠夫,就得吃带毛猪了?
【 在 z16166 的大作中提到: 】
: 据官方披露,Kimi K2.6 在博士级难度的完整版“终极人类考试”(Humanity's Last Exam)、评估真实软件工程能力的 SWE-Bench Pro 以及 Agent 深度检索基准 DeepSearchQA 等测试中,均取得了行业领先的成绩,表现持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro 等闭源模型。
:
--
FROM 111.196.131.*
中国人是最会考试的
针对各种评测刷分,类似以前的杀毒软件评测什么的
【 在 optimism 的大作中提到: 】
: 我看了这个新闻,虽然有些怀疑,但还是想着试用一下,如果可以就充些钱。
: 结果,直接告诉我用的人太多,让我等等。
: 没了你张屠夫,就得吃带毛猪了?
: ...................
--
FROM 123.122.126.*