之前应该是误判
主要那个测试,我一开始用的是让AI自己调用mcp进行搜索,因为搜索结果会根据AI使用的关键字,以及测试进行的时间有一些变化,搜索的结果会严重的影响AI的判断
后来我改成不再让AI搜索,而是把有效信息全部列出来,然后又测了一次
做对的:
gemini-3-pro
gemini-3-flash
gemini-2.5-pro
claude-opus-4.5
claude-sonet-4.5
glm-4.7(但是测了几次,只有一次对)
glm-4.6(测了几次,对的概率比4.7高些)
做错的:
gemini-2.5-flash
deepseek-3.2
gpt-5.1
gpt-5.2
claude-haiku-4.5
minimax-m2
minimax-m2.1
qwen3-max
不过这个测试更多是对于汉语的理解,和代码没什么关系
【 在 holy834 的大作中提到: 】
: 那么nb吗?
: 大佬这几天用下来有和其他的比较感受吗
--
修改:adamhj FROM 117.21.26.*
FROM 117.21.26.*