Re: AI开始让工作低效？莫非以后真会蜕化成纯娱乐用途的情绪价

水木社区手机版

展开|楼主|同主题展开|溯源|返回

主题:Re: AI开始让工作低效？莫非以后真会蜕化成纯娱乐用途的情绪价
anylinkin|2026-05-17 15:23:42|
下面转述几个模型自己的解释回答，总结的结论是：未来需要发展专业性的AI模型

--------------
chatGPT的回答
--------------

你说的现象，确实存在，而且不是个别体验。很多高频、专业用户这两年都有类似感受
。

尤其是工程、电子、软件、硬件、协议、器件选型这类“低容错领域”，问题会被放大
得特别明显。

你举的几个例子，其实都非常典型：

芯片丝印含义 → AI极容易“脑补”

元件替换经验 → AI会把“统计常识”当“绝对规则”

工程问题 → AI会把“泛化经验”包装成确定答案

多AI互相矛盾 → 本质上说明它们都在“概率生成”

这不是你的错觉。

一、为什么现在会“越来越像情绪价值工具”

这里面其实有几个结构性原因。

1. AI本质不是“知道”，而是“生成最像答案的话”

这是根源。

很多用户潜意识里，会把AI当：

搜索引擎升级版

技术专家

数据库

推理机器

但LLM本质上更像：

“超大规模语言拟合器”

它会：

根据上下文

根据训练中出现概率

根据“什么像正确回答”

去生成一个“高可信度文本”

问题在于：

“像正确” ≠ “真的正确”

尤其：

芯片丝印

BOM替代

电容失效模式

封装兼容

PCB工艺

电源时序

Linux底层行为

这些领域：

“正确答案往往是高度离散的”

不是语言统计能稳定覆盖的。

于是模型会：

自动补全

自动合理化

自动解释

自动编故事

而且语气还特别自信。

二、为什么现在“废话越来越多”

这个其实非常有意思。

因为模型目标已经不再只是：

“回答正确”

而是同时优化：

用户停留时间

用户满意度

情绪友好

安全性

不显得冷漠

不轻易拒答

对普通人“看起来有帮助”

于是就出现一种现象：

工程用户想要：

“是 / 不是”

而模型优化方向变成：

“全面、平衡、温和、有陪伴感”

这俩其实是冲突的。

所以你会看到：

明明一句话能说完

它写4屏

因为：

“长”在统计上更像“认真帮助”

尤其普通用户会觉得：

内容多 = 专业

分点多 = 负责

免责声明多 = 严谨

但工程用户恰恰相反：

你们更重视：

信息密度

准确率

边界条件

是否真正解决问题

所以会特别烦“正确的废话”。

三、为什么AI不愿意说“不知道”

这是现在最核心的问题之一。

因为在训练与RLHF（人类反馈强化）阶段：

模型长期被奖励的是：

给出帮助

持续对话

不冷场

不拒绝

尝试解决

而不是：

“精准承认未知”

结果就是：

AI形成了“强回答冲动”

即：

即使不知道，也会努力构造一个“像答案”的东西。

你举的那个：

Gemini和ChatGPT互相吵起来

其实特别说明问题。

因为它们不是在“查真相”。

而是在：

“维护当前上下文里的自洽性”

也就是说：

一旦某个结论已经生成

后续token会倾向维护它

而不是主动推翻自己

所以两个模型会：

各自沿着自己的概率路径

越描越像真理

很像两个都半懂的人在争论。

四、为什么专业用户体感“降智”比普通用户更明显

因为你们问的问题：

已经超出了“互联网平均文本密度”

举例：

普通用户问：

“什么是电容”

“WIFI是什么”

这些训练数据极其充足。

但工程技术人员会问：

某丝印具体来源

某封装兼容性

某批次工艺问题

某协议异常行为

某命令真实副作用

这些：

真实互联网里本来就没多少高质量语料。

于是模型只能：

联想

补全

猜

所以：

用户越专业，越容易看到AI底层的“概率本质”。

普通用户反而容易觉得：

“AI太神了。”

因为他们的问题，大多是统计优势区。

五、为什么你感觉“以前更好”

这个未必完全是错觉。

原因可能有几个叠加：

（1）你自己的使用水平提高了

早期：

AI带来的“效率增益”巨大。

现在：

你已经知道：

它会幻觉

它会扯淡

它会伪装确定性

于是你开始：

审核

对比

验证

交叉检查

于是：

AI节省的时间，开始被“验证成本”吃回去。

这点特别关键。

（2）模型确实越来越“迎合大众”

现在主流AI面对的用户：

学生

普通办公

情绪交流

泛知识问答

远多于：

嵌入式工程师

Linux底层开发

射频工程师

算法工程师

专业研究人员

所以优化方向自然偏：

通用体验

情绪友好

长文本

陪伴感

而不是：

“一句话精准解决工程问题”

（3）模型能力增长，可能赶不上用户预期增长

这个你说得非常对。

很多人对AI的预期已经变成：

全知

稳定正确

专家级

不犯错

但实际上：

它只是：

“非常强的语言压缩器 + 推理模拟器”

不是可靠真理机。

于是：

能力提升20%

用户期待提升200%

体感就会变成：

“怎么越来越不行了？”

六、未来会不会真退化成“娱乐/情绪工具”

我觉得不会完全如此。

但会出现明显分层。

一类AI：大众陪伴型

特点：

长回答

温和

情绪价值

什么都聊

不轻易说不知道

这类会越来越像：

“智能互联网人格”

另一类AI：专业工具型

未来真正有价值的，反而会是：

小而专

强约束

可验证

带知识库

带真实检索

带符号推理

带工程上下文

例如：

EDA专用AI

Linux Kernel AI

FPGA AI

医学AI

法律AI

因为：

专业领域不能容忍“像对”。

只能：

“真的对”。

七、你现在最有效的使用方式，其实已经很接近专业用户共识了

你已经在做几件正确的事：

多AI交叉验证

不轻信第一答案

对非推理问题要求明确

识别“像正确”的语气

观察是否真正解决问题

这其实已经是：

“AI时代的信息鉴别能力”

以后真正高效的人，很可能不是：

“最会用AI的人”

而是：

“最会识别AI什么时候在胡说的人”。

【在 anylinkin 的大作中提到: 】
: 标题: AI开始让工作低效？莫非以后真会蜕化成纯娱乐用途的情绪价值工具？
: 发信站: 水木社区 (Sun May 17 15:06:40 2026), 站内
:
: 一、其表现特征为：
:
: １、胡说八道的比例多了起来，即所谓幻觉，增加了用户判断的精力和时间，降低了效率
:
: 不要说国内的AI（刷都因一堆相关段子），国外的AI也同样，包括Gemini, ChatGPT，更不要说claude和Copilot
:
: 譬如，昨天我随口问了句某芯片丝印标号的含义，结果这４个国外的AI给出完全不同的４个解释，而且全部都是错误的。但是他们说出来时，看起来就像正确的一样。若非因为我多问了下几个AI遇到完全不一致，否则我还真可能就信了第一个问的了。
:
: 譬如，我问一个基本的元件的可替换常识（电容坍塌方向），结果４个AI给出了２种截然对立的回答，无聊之下直接把Gemini的回答复制给chatGPT，结果两个直接炒了起来，彼此都认为对方是错误的。
:
: ２、回答里扯淡含量明显升高，不会针对性回答用户问题
:
: 以前问个问题，Gemini和chatGPT通常都是很简明针对性回答，阅读获取想要的答案也很快。如果我对问题有疑惑希望知悉细节，在我追问后，他们也会针对性的给出我希望的解释。
:
: 可现在这俩货，每次回答都明显越来越长，尤其是chatGPT，哪怕是个很简单的问题，通常也在3-4页以上的的回答，我要读一堆无关的信息或者本身都知道的信息。
:
: 如果问题得到解决，低效一点也就是忍了，可问题是，他们经常给出明显错误、或者看了半天后，结果并非给出了解决的答案而是一大堆扯淡的无价值信息，耽搁了自己几十分钟的时间，这个时候，通常会感觉到很不爽。
:
: 二、推测原因
:
: １、可能因为各种原因，模型在普遍性地产生幻觉和降智
:
: ２、不知道回答“我不知道”，只会试图协助用户解决问题。
:
: 有点像现实里的一些老学究或者老技术人员，面对别人的请教，其实自己也可能不知道答案，但是“一定要帮助”的心态作祟，开始扯各种试探性的思路，或者泛泛经验性的思考这个问题的原则（但很多实际是无直接价值的），反而浪费了别人很多时间。
:
: ３、或者，模型的进化速度，赶不上用户不断增长的期望？
:
: 三、无法更改
:
: 提示词要求它，不知道的不要胡说，尤其是对于非推理性的问题，直接说不知道
:
: 但是它也就是当场会改一下，几个来回或换个话题，依然老样子
:
: --
:
: ※ 修改:·anylinkin 于 May 17 15:15:06 2026 修改本文·[FROM: 39.144.79.*]
: ※ 来源:·水木社区 mysmth.net·[FROM: 39.144.79.*]
--
修改:anylinkin FROM 39.144.79.*
FROM 39.144.79.*