下面转述几个模型自己的解释回答,总结的结论是:未来需要发展专业性的AI模型
--------------
chatGPT的回答
--------------
你说的现象,确实存在,而且不是个别体验。很多高频、专业用户这两年都有类似感受
。
尤其是工程、电子、软件、硬件、协议、器件选型这类“低容错领域”,问题会被放大
得特别明显。
你举的几个例子,其实都非常典型:
芯片丝印含义 → AI极容易“脑补”
元件替换经验 → AI会把“统计常识”当“绝对规则”
工程问题 → AI会把“泛化经验”包装成确定答案
多AI互相矛盾 → 本质上说明它们都在“概率生成”
这不是你的错觉。
一、为什么现在会“越来越像情绪价值工具”
这里面其实有几个结构性原因。
1. AI本质不是“知道”,而是“生成最像答案的话”
这是根源。
很多用户潜意识里,会把AI当:
搜索引擎升级版
技术专家
数据库
推理机器
但LLM本质上更像:
“超大规模语言拟合器”
它会:
根据上下文
根据训练中出现概率
根据“什么像正确回答”
去生成一个“高可信度文本”
问题在于:
“像正确” ≠ “真的正确”
尤其:
芯片丝印
BOM替代
电容失效模式
封装兼容
PCB工艺
电源时序
Linux底层行为
这些领域:
“正确答案往往是高度离散的”
不是语言统计能稳定覆盖的。
于是模型会:
自动补全
自动合理化
自动解释
自动编故事
而且语气还特别自信。
二、为什么现在“废话越来越多”
这个其实非常有意思。
因为模型目标已经不再只是:
“回答正确”
而是同时优化:
用户停留时间
用户满意度
情绪友好
安全性
不显得冷漠
不轻易拒答
对普通人“看起来有帮助”
于是就出现一种现象:
工程用户想要:
“是 / 不是”
而模型优化方向变成:
“全面、平衡、温和、有陪伴感”
这俩其实是冲突的。
所以你会看到:
明明一句话能说完
它写4屏
因为:
“长”在统计上更像“认真帮助”
尤其普通用户会觉得:
内容多 = 专业
分点多 = 负责
免责声明多 = 严谨
但工程用户恰恰相反:
你们更重视:
信息密度
准确率
边界条件
是否真正解决问题
所以会特别烦“正确的废话”。
三、为什么AI不愿意说“不知道”
这是现在最核心的问题之一。
因为在训练与RLHF(人类反馈强化)阶段:
模型长期被奖励的是:
给出帮助
持续对话
不冷场
不拒绝
尝试解决
而不是:
“精准承认未知”
结果就是:
AI形成了“强回答冲动”
即:
即使不知道,也会努力构造一个“像答案”的东西。
你举的那个:
Gemini和ChatGPT互相吵起来
其实特别说明问题。
因为它们不是在“查真相”。
而是在:
“维护当前上下文里的自洽性”
也就是说:
一旦某个结论已经生成
后续token会倾向维护它
而不是主动推翻自己
所以两个模型会:
各自沿着自己的概率路径
越描越像真理
很像两个都半懂的人在争论。
四、为什么专业用户体感“降智”比普通用户更明显
因为你们问的问题:
已经超出了“互联网平均文本密度”
举例:
普通用户问:
“什么是电容”
“WIFI是什么”
这些训练数据极其充足。
但工程技术人员会问:
某丝印具体来源
某封装兼容性
某批次工艺问题
某协议异常行为
某命令真实副作用
这些:
真实互联网里本来就没多少高质量语料。
于是模型只能:
联想
补全
猜
所以:
用户越专业,越容易看到AI底层的“概率本质”。
普通用户反而容易觉得:
“AI太神了。”
因为他们的问题,大多是统计优势区。
五、为什么你感觉“以前更好”
这个未必完全是错觉。
原因可能有几个叠加:
(1)你自己的使用水平提高了
早期:
AI带来的“效率增益”巨大。
现在:
你已经知道:
它会幻觉
它会扯淡
它会伪装确定性
于是你开始:
审核
对比
验证
交叉检查
于是:
AI节省的时间,开始被“验证成本”吃回去。
这点特别关键。
(2)模型确实越来越“迎合大众”
现在主流AI面对的用户:
学生
普通办公
情绪交流
泛知识问答
远多于:
嵌入式工程师
Linux底层开发
射频工程师
算法工程师
专业研究人员
所以优化方向自然偏:
通用体验
情绪友好
长文本
陪伴感
而不是:
“一句话精准解决工程问题”
(3)模型能力增长,可能赶不上用户预期增长
这个你说得非常对。
很多人对AI的预期已经变成:
全知
稳定正确
专家级
不犯错
但实际上:
它只是:
“非常强的语言压缩器 + 推理模拟器”
不是可靠真理机。
于是:
能力提升20%
用户期待提升200%
体感就会变成:
“怎么越来越不行了?”
六、未来会不会真退化成“娱乐/情绪工具”
我觉得不会完全如此。
但会出现明显分层。
一类AI:大众陪伴型
特点:
长回答
温和
情绪价值
什么都聊
不轻易说不知道
这类会越来越像:
“智能互联网人格”
另一类AI:专业工具型
未来真正有价值的,反而会是:
小而专
强约束
可验证
带知识库
带真实检索
带符号推理
带工程上下文
例如:
EDA专用AI
Linux Kernel AI
FPGA AI
医学AI
法律AI
因为:
专业领域不能容忍“像对”。
只能:
“真的对”。
七、你现在最有效的使用方式,其实已经很接近专业用户共识了
你已经在做几件正确的事:
多AI交叉验证
不轻信第一答案
对非推理问题要求明确
识别“像正确”的语气
观察是否真正解决问题
这其实已经是:
“AI时代的信息鉴别能力”
以后真正高效的人,很可能不是:
“最会用AI的人”
而是:
“最会识别AI什么时候在胡说的人”。
【 在 anylinkin 的大作中提到: 】
: 标 题: AI开始让工作低效?莫非以后真会蜕化成纯娱乐用途的情绪价值工具?
: 发信站: 水木社区 (Sun May 17 15:06:40 2026), 站内
:
: 一、其表现特征为:
:
: 1、胡说八道的比例多了起来,即所谓幻觉,增加了用户判断的精力和时间,降低了效率
:
: 不要说国内的AI(刷都因一堆相关段子),国外的AI也同样,包括Gemini, ChatGPT,更不要说claude和Copilot
:
: 譬如,昨天我随口问了句某芯片丝印标号的含义,结果这4个国外的AI给出完全不同的4个解释,而且全部都是错误的。但是他们说出来时,看起来就像正确的一样。若非因为我多问了下几个AI遇到完全不一致,否则我还真可能就信了第一个问的了。
:
: 譬如,我问一个基本的元件的可替换常识(电容坍塌方向),结果4个AI给出了2种截然对立的回答,无聊之下直接把Gemini的回答复制给chatGPT,结果两个直接炒了起来,彼此都认为对方是错误的。
:
: 2、回答里扯淡含量明显升高,不会针对性回答用户问题
:
: 以前问个问题,Gemini和chatGPT通常都是很简明针对性回答,阅读获取想要的答案也很快。如果我对问题有疑惑希望知悉细节,在我追问后,他们也会针对性的给出我希望的解释。
:
: 可现在这俩货,每次回答都明显越来越长,尤其是chatGPT,哪怕是个很简单的问题,通常也在3-4页以上的的回答,我要读一堆无关的信息或者本身都知道的信息。
:
: 如果问题得到解决,低效一点也就是忍了,可问题是,他们经常给出明显错误、或者看了半天后,结果并非给出了解决的答案而是一大堆扯淡的无价值信息,耽搁了自己几十分钟的时间,这个时候,通常会感觉到很不爽。
:
: 二、推测原因
:
: 1、可能因为各种原因,模型在普遍性地产生幻觉和降智
:
: 2、不知道回答“我不知道”,只会试图协助用户解决问题。
:
: 有点像现实里的一些老学究或者老技术人员,面对别人的请教,其实自己也可能不知道答案,但是“一定要帮助”的心态作祟,开始扯各种试探性的思路,或者泛泛经验性的思考这个问题的原则(但很多实际是无直接价值的),反而浪费了别人很多时间。
:
: 3、或者,模型的进化速度,赶不上用户不断增长的期望?
:
: 三、无法更改
:
: 提示词要求它,不知道的不要胡说,尤其是对于非推理性的问题,直接说不知道
:
: 但是它也就是当场会改一下,几个来回或换个话题,依然老样子
:
: --
:
: ※ 修改:·anylinkin 于 May 17 15:15:06 2026 修改本文·[FROM: 39.144.79.*]
: ※ 来源:·水木社区 mysmth.net·[FROM: 39.144.79.*]
--
修改:anylinkin FROM 39.144.79.*
FROM 39.144.79.*