虽然在专业性/最新技术编程(非通用性)方面,各大AI大模型都不咋地,但是,如果矮个子里挑高个子比较,chatGPT, Grok >> Gemini, Claude. 而且在近期,我明显感觉到了chatGPT的在这里的提升。
举例:有关一颗国产芯片SDK的编程
(1)对于稍微有些非常规性的问题,chatGPT和Grok给出了一步到位的正确回答
我想在官方demo工程里添加新的下一级子目录,这类问题稍微有点点非传统常规,结果只有chatGPT和Grok给出了正确的回答,而chatGPT更是一步到位给出了解释。
Gemini和Claude给出的都是"幻觉性"的回答(即答案本身是错误的,但是AI模型不知道自己错了,还一本正经像模像样的给方法建议),而我按照他们给出的建议,完全行不通。在我报告错误后,他们反复给建议,都不行,白白耽误了我1个多小时。
然而,chatGPT和Grok则直接一步到位给出了给出了正确的操作步骤。而且,chatGPT还进一步给出了需要这样做的原因:注册模块只能在根目录下有效,所以必须在根目录里添加,说其分析了官方demo工程里的脚本,得出的这个结论。这一点就让我惊艳了。
(2)chatGPT会根据问题描述进行针对性的具体分析,给出正确的解决办法
我在官方demo下参考AI给出的代码添加了一个功能(4个AI给出的代码基本一致),但是执行时,系统直接崩溃。然后我给出了崩溃的系统打印。结果Gemini和Claude只会按照传统的思路,建议我fullclean,结果依然无效。
然而chatGPT却根据我给的错误提示,直接一步到位的给出了说法:你新加的功能代码,有部分和demo里已有的重复了,并且说,这不怪我,因为官方的demo最新升级,出现这个重复就会导致系统崩溃。以前版本的不会导致崩溃。还顺带告诉我,如何避免git后台自动同步更新。
于是我去掉了这部分重复的代码,很快就搞定了。
为什么会有这样的区别呢?我是这么想的:
(1)chatGPT和Grok可能是实时知识更新(随时训练)上做得较好。
(2)chatGPT可能增强了幻觉性知识的风险处理
几个月前,有一次针对chatGPT的幻觉性回答,当时我曾建议,现有知识库里没有的知识,尤其是专业性强、或者较新的问题,建议作一个分级标签,不再简单的一律进行相似性模式匹配后给出答案,而是应该去现场实时搜索更新学习,或者直接尝试一些基本的分析推理。在这类问题中,有很多问题,只要进行一些简单的分析,就能判定简单的模式相似匹配的回答是明显错误的 并且能推导出正确的答案,可靠性比会单纯的模式匹配的回答要强很多。
当时chatGPT是认可这个建议的。现在看来,似乎,它莫非已经采取了这种分级方式,来显著降低了专业性或新知识领域的幻觉率?
(3)Gemini和Claude的political干扰较大,他们可能刻意在对东大用户,可能刻意降智回答
这一点,虽然没有直接的证据,但是很多相关的信息以及自己的使用体验,似乎支持这种说法。
当然,各大模型也都在不断优化改进调整,或许过一段时间,上述对比体验的说法也将会不再有效。但总之,作为人,在使用AI模型这个工具时,要时刻保持清醒,它只是一个服务于我们人类的工具。
: --
:
: ※ 修改:·ssteym 于 Mar 14 11:28:13 2026 修改本文·[FROM: 117.143.171.*]
: ※ 来源:·水木社区 mysmth.net·[FROM: 117.143.168.*]
--
修改:ssteym FROM 117.143.171.*
FROM 223.104.41.*