个人对ai模型担任智能体能力的评分排序 (转载)

水木社区手机版

主题:个人对ai模型担任智能体能力的评分排序 (转载)
楼主|RuralHunter|2026-05-12 09:11:58|只看此ID
【以下文字转载自 NewExpress 讨论区】
发信人: Engelberger (missing), 信区: NewExpress
标  题: 个人对ai模型担任智能体能力的评分排序
发信站: 水木社区 (Tue May 12 09:05:07 2026), 站内

我汇总的信息和自己体验是：

mythos 80分
gpt 5.5 70分
opus4.6 68
opus4.7 65
gemini 3.1pro 60

—————— opus4.5以上，干活能力超过人类，至少编程方面，吊打人类程序员，我指的是全部程序员———

Opus 4.5  59
以下只讨论国模

deepseek v4pro 55
glm5.1 50
glm5 45
deepseek v4flash 40

————以上能独立干活，达到大家对ai的预期—————

qwen 3.6plus  31
minimax m2.5 30
qwen 3.5 plus 26
kimi k2.6 25
mininax m2.7 24
kimi k2.5 23
doubao 2.0 pro 20

—————以上能干一部分活，但经常干错活，可以给人提供一些辅助，以下完全干不了活—————

混元3 preview 15
百度最新 14
豆包思考模式 8
豆包快速模式 4
传统搜索引擎 2
--
FROM 211.137.80.*
1楼|buaayly|2026-05-12 10:37:47|只看此ID
sonnic排在哪？

【在 RuralHunter 的大作中提到: 】
: 发信人: Engelberger (missing), 信区: NewExpress
: 标题: 个人对ai模型担任智能体能力的评分排序
: 发信站: 水木社区 (Tue May 12 09:05:07 2026), 站内
: ...................
--
FROM 195.86.11.*
2楼|z16166|2026-05-12 11:20:54|只看此ID
sonnet吧

【在 buaayly 的大作中提到: 】
: sonnic排在哪？
:
--
FROM 123.122.126.*
3楼|chglele|2026-05-12 13:10:35|只看此ID
这些大模型都尝试过了么？
也是挺厉害的

【在 RuralHunter 的大作中提到: 】
: 【以下文字转载自 NewExpress 讨论区】
:  发信人: Engelberger (missing), 信区: NewExpress
:  标  题: 个人对ai模型担任智能体能力的评分排序
:  发信站: 水木社区 (Tue May 12 09:05:07 2026), 站内
:
:  我汇总的信息和自己体验是：

--发自 ismth(丝滑版)
--
FROM 220.196.193.*
4楼|hmgo1988|2026-05-12 17:53:22|只看此ID
可以，由夯到拉
【在 RuralHunter 的大作中提到: 】
: 【以下文字转载自 NewExpress 讨论区】
: 发信人: Engelberger (missing), 信区: NewExpress
: 标题: 个人对ai模型担任智能体能力的评分排序
: 发信站: 水木社区 (Tue May 12 09:05:07 2026), 站内

: ..................

发自「今日水木 on iOS」
--
FROM 116.169.71.*
5楼|booble|2026-05-17 21:39:39|只看此ID
mythos都用上了？强

【在 RuralHunter 的大作中提到: 】
: 【以下文字转载自 NewExpress 讨论区】
: 发信人: Engelberger (missing), 信区: NewExpress
: 标题: 个人对ai模型担任智能体能力的评分排序
: 发信站: 水木社区 (Tue May 12 09:05:07 2026), 站内
:
: 我汇总的信息和自己体验是：

--发自 ismth(丝滑版)
--
FROM 112.41.7.*