glm5.1现在很强了

水木社区手机版

主题:glm5.1现在很强了
30楼|lvsoft|2026-04-21 10:06:58|只看此ID
光提交没用，还得push
【在 Peleus 的大作中提到: 】
: 我让他每次交互完毕后都提交
--
FROM 116.230.107.*
31楼|Peleus|2026-04-21 10:15:41|只看此ID
这个我每天早晨搞一次
【在 lvsoft 的大作中提到: 】
: 光提交没用，还得push
--
FROM 221.223.2.197
32楼|lvsoft|2026-04-21 13:40:50|只看此ID
那这种没用的。
一个项目每天提交一次，那我这种在m个项目中任选n个项目的不疯了。
一切不是被动自动执行的备份机制都等于没有备份机制

【在 Peleus 的大作中提到: 】
: 这个我每天早晨搞一次
--
修改:lvsoft FROM 116.230.107.*
FROM 116.230.107.*
33楼|dyingsun|2026-04-21 18:32:00|只看此ID
订阅不上如之奈何

【在 lshi 的大作中提到: 】
: 我现在opus列计划
: glm执行
: sonnet review。
: ...................
--
FROM 58.135.83.*
34楼|mygodxp|2026-04-22 09:01:53|只看此ID
nb
【在 lvsoft 的大作中提到: 】
: glm5.1蛮不错的，除了昨天在我的机器上跑了个rm -rf /之外都挺好....
--
FROM 202.99.52.*
35楼|namoamituofo|2026-04-22 17:36:12|只看此ID
kimi 2.6 〉 glm5.1
【在 lshi 的大作中提到: 】
: 我现在opus列计划
: glm执行
: sonnet review。
: ...................
--
FROM 223.104.39.*
36楼|z16166|2026-04-22 19:41:12|只看此ID
据官方披露，Kimi K2.6 在博士级难度的完整版“终极人类考试”（Humanity's Last Exam）、评估真实软件工程能力的 SWE-Bench Pro 以及 Agent 深度检索基准 DeepSearchQA 等测试中，均取得了行业领先的成绩，表现持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro 等闭源模型。

【在 namoamituofo 的大作中提到: 】
: kimi 2.6 〉 glm5.1
--
FROM 123.122.126.*
37楼|lvsoft|2026-04-22 20:13:07|只看此ID
没啥意义。
现在的benchmark，包括hle在内都是marketing的作用。
比如，hle的题目中有不少题目的标准答案都是错的，所以hle分数考太高，反而是很奇怪的事情。

以上不是我说的，是亚马逊搞agi的首席应用科学家说的。

【在 z16166 的大作中提到: 】
: 据官方披露，Kimi K2.6 在博士级难度的完整版“终极人类考试”（Humanity's Last Exam）、评估真实软件工程能力的 SWE-Bench Pro 以及 Agent 深度检索基准 DeepSearchQA 等测试中，均取得了行业领先的成绩，表现持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro 等闭源模型。
:
--
FROM 116.230.107.*
38楼|optimism|2026-04-23 13:30:58|只看此ID
我看了这个新闻，虽然有些怀疑，但还是想着试用一下，如果可以就充些钱。
结果，直接告诉我用的人太多，让我等等。

没了你张屠夫，就得吃带毛猪了？

【在 z16166 的大作中提到: 】
: 据官方披露，Kimi K2.6 在博士级难度的完整版“终极人类考试”（Humanity's Last Exam）、评估真实软件工程能力的 SWE-Bench Pro 以及 Agent 深度检索基准 DeepSearchQA 等测试中，均取得了行业领先的成绩，表现持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro 等闭源模型。
:
--
FROM 111.196.131.*
39楼|z16166|2026-04-23 13:44:59|只看此ID
中国人是最会考试的

针对各种评测刷分，类似以前的杀毒软件评测什么的

【在 optimism 的大作中提到: 】
: 我看了这个新闻，虽然有些怀疑，但还是想着试用一下，如果可以就充些钱。
: 结果，直接告诉我用的人太多，让我等等。
: 没了你张屠夫，就得吃带毛猪了？
: ...................
--
FROM 123.122.126.*