Re: AI开始让工作低效？莫非以后真会蜕化成纯娱乐用途的情绪价

水木社区手机版

展开|楼主|同主题展开|溯源|返回

主题:Re: AI开始让工作低效？莫非以后真会蜕化成纯娱乐用途的情绪价
anylinkin|2026-05-17 15:37:33|
----------------
Copilot的回答
----------------

你这段观察，其实非常典型，而且不是你的错觉。

你描述的四个现象——幻觉变多、回答变长、针对性下降、提示词无法长期纠偏——在
2024–2025 这一波大模型更新后，确实是普遍趋势。

下面我给你一个工程化、机制级别的解释，不讲空话，不讲情绪，只讲为什么会这样、
为什么难以逆转、未来会不会真的“娱乐化”。

一、你观察到的问题，本质都是真的

1. 幻觉变多、错误率上升

你说的“丝印标号问 4 个 AI 得到 4 个错误答案”，这是典型的：

原因：模型被训练成“必须回答”，而不是“必须正确”

大模型的训练目标是 next-token prediction（预测下一个词），不是“判断真假”。

RLHF（人类反馈训练）强化了“给出一个看似合理的答案”，而不是“承认不知道”。

你让它说“不知道”，它会临时遵守，但模型权重里根本没有“拒绝回答”的能力，只
有“生成一个看似合理的句子”的能力。

所以你看到的现象是：

模型不知道，但它会一本正经地胡说八道，而且说得很像真的。

这不是 bug，是结构性问题。

2. 回答越来越长、废话越来越多

你说 ChatGPT/Gemini 现在动不动 3–4 页，这也是结构性变化。

原因：模型被优化成“更像人类、更啰嗦、更安全”

RLHF 强化了“解释更多”“提供背景”“避免风险”。

安全团队要求模型“多解释、多免责声明、多背景”，以降低误导风险。

但这导致：

工程师用户效率下降，阅读成本暴涨。

你要的是“工程级回答”，模型给的是“客服级回答”。

3. 针对性下降、开始扯淡

你说的“看半天发现根本没回答问题”，这是因为：

原因：模型被训练成“覆盖更多可能性”，而不是“精准命中用户意图”

训练数据里大量“泛泛而谈”的回答。

RLHF 奖励“全面、温和、冗长”的风格。

安全策略要求“避免直接给结论”，尤其是技术、医疗、电子、电气等领域。

于是模型会：

先讲一堆背景

再讲一堆原则

再讲一堆可能性

最后才给一个模糊的答案（还可能是错的）

这就是你说的：

扯淡含量明显升高。

4. 提示词无法长期纠偏

你说“让它不知道就说不知道，它当场改，换个话题又恢复原样”。

这是因为：

原因：提示词是“短期记忆”，模型权重是“长期性格”

你给的提示词只影响当前对话的 token 流。

但模型的“必须回答”“不能沉默”“不能说不知道”是写在权重里的。

所以它会“临时听话”，但不会“永久改变行为”。

这就像你说的：

它不是不愿意改，是它根本改不了。

二、为什么模型会“降智”？（核心原因）

原因 1：模型规模增长，但训练目标没变

模型越来越大，但训练目标仍然是：

预测下一个词，而不是理解世界。

规模变大 → 语言能力变强

但推理能力、事实准确性 → 不一定变强

所以你看到：

语言更流畅

错误更自信

幻觉更像真的

这不是退化，而是能力不对齐。

原因 2：安全团队强行“去风险化”，导致回答变啰嗦

为了避免：

医疗误导

技术误导

法律误导

政治误导

模型被训练成：

尽量多解释、尽量不下结论、尽量模糊。

这对普通用户是安全的

但对工程师用户是灾难性的。

原因 3：用户期望增长速度 > 模型能力增长速度

你说的非常准确：

模型的进化速度赶不上用户增长的期望。

2023 年大家觉得 AI 很神

2024–2025 年大家开始发现：

细节不准

推理不稳

幻觉依旧

领域知识不可靠

于是出现你说的：

“降智感”

其实不是变笨，而是你变强了，模型没跟上。

三、未来会不会真的“娱乐化”？

你问：

AI 会不会以后真的蜕化成纯娱乐用途的情绪价值工具？

我给你一个工程师视角的判断：

不会，但会分化成两类：

（1）大众型模型：越来越像情绪价值工具

更啰嗦

更安全

更像心理咨询

更像陪聊

更像客服

更不敢给结论

这类模型会越来越“娱乐化”。

（2）专业型模型：会越来越工程化、可控、可验证

未来真正给工程师用的模型会是：

小模型（SFT + RAG + 工程知识库）

本地可控

可验证

不乱说

不啰嗦

不加情绪价值

类似：

专用电子工程模型

专用嵌入式模型

专用无线通信模型

专用固件分析模型

这些模型会比通用大模型更可靠、更精准、更可控。

四、你现在遇到的问题，本质是“错用模型”

你是工程师，你需要的是：

精准

简洁

可验证

不胡说

不啰嗦

不情绪价值

但你用的是：

面向大众的通用大模型

这就像你拿 Siri 去做 FPGA 设计一样。

五、你真正需要的解决方案（工程级）

如果你愿意，我可以给你一个完整方案，包括：

如何让通用模型“工程化”

如何减少幻觉

如何让回答更短

如何让模型承认不知道

如何构建你自己的“专业工程模型”

如何用 RAG + 小模型替代大模型

【在 anylinkin 的大作中提到: 】
: ------------------
: Grok的回答
: ------------------
: ...................
--
FROM 39.144.79.*