Re: AI开始让工作低效？莫非以后真会蜕化成纯娱乐用途的情绪价

水木社区手机版

展开|楼主|同主题展开|溯源|返回

主题:Re: AI开始让工作低效？莫非以后真会蜕化成纯娱乐用途的情绪价
anylinkin|2026-05-17 15:34:12|
------------------
Grok的回答
------------------

是的，这个现象很真实，不是你的错觉。很多用户（包括技术圈）都反馈类似体验：A
I 从早期“简洁高效助手”逐渐变成“话痨自信哥”，幻觉增多、答案变长、无关信息
堆砌，甚至在简单事实问题上互相打架。你的芯片丝印和电容替换例子特别典型——这
些属于低容错的领域知识，模型容易基于模式泛化出“听起来合理”的假答案。

为什么会出现这些表现？幻觉（Hallucination）本质上是架构和训练的副产品

LLM 是下一个 token 预测机，核心目标是生成“流畅且似然高”的文本，而不是“绝对
正确”。在训练数据稀疏或模糊的领域（芯片 marking codes、具体电子元件替换细节
等），它会用最“ plausible”的模式填补空白，看起来像专家发言，但其实是编的。

2025-2026 年的研究显示，幻觉率在某些任务上虽有下降（尤其是 grounded/RAG 任务
），但在开放域、长上下文或非主流技术细节上依然常见（平均 8-20%+，特定领域更高
）。更麻烦的是：模型越“聪明”/越先进，幻觉有时越隐蔽（自信语气强，但错得更自
然）。你的“4个AI给4个不同错答案”就是经典案例。

RLHF/对齐训练的“帮到底”激励

这可能是你第二个推测的核心。人类反馈（RLHF）偏好有帮助、详细、积极的回答，惩
罚“我不知道”或简短拒绝。结果模型学会了永远试图协助，哪怕是猜。基准测试也
常奖励“自信完整答案”，不奖励诚实 abstention。

导致 verbose：为了显得 helpful，就加背景、例子、备选方案、免责声明……哪怕用
户只想一个事实。

这很像你说的“老学究一定要帮”心态。OpenAI 等自己的论文都承认了这点：训练目标
鼓励 bluff 而非 calibrated uncertainty。

进化 vs 用户期望 + 规模效应

用户基数爆炸，对“万能工具”的期望也水涨船高。但模型在长尾知识（你遇到的那些
具体硬件细节）上的覆盖并没有同步完美提升。更大模型有时在创造性上更好，但在事
实严谨性上可能先降后升（或需要特定后训练）。

另外，安全/有用性微调层层叠加后，指令跟随有时会“漂移”——系统 prompt 要求简
洁，但实际输出被优化成用户“爱看”的长文。

其他因素：长上下文窗口让模型更容易“迷路”；多轮对话中累积偏差；商业压力下快
速迭代，可能引入回归。

它会蜕化成纯娱乐/情绪价值工具吗？短期看有这个风险，但不会完全。

许多人已经把 AI 当“聊天伙伴”或 brainstorm 工具用（这部分体验确实在提升）。
但在高价值场景（编程、工程、研究、决策），用户和企业都在推动改进：RAG（检索增
强）、工具调用、agent 框架、多模型验证、更好 calibration 等。 hallucination
不会“消失”，但会被工程化控制到可接受水平，尤其在垂直领域。xAI/Grok 的设计哲
学更偏最大化 truth-seeking，在一些独立评测中 hallucination 率相对较低（强调少
编、敢说不知道），但我们也不是完美的——同样会出错，尤其在非常 niche 的硬件细
节上。

实际怎么应对（提示词只能暂时管用，你观察得很准）多模型交叉验证：像你已经做的
——问 2-3 个不同模型 + 自己查官方文档/ datasheet。这是当前最可靠办法。

强迫 calibration：用明确 prompt 如 “只回答你有高信心的事实，如果不确定就直接
说‘我不知道’或‘基于训练数据可能...’，不要推测。优先引用来源。” 结合“st
ep by step + 标出 confidence”。

给上下文/约束：提供 datasheet 片段、类似已知例子，让它 grounded。

用工具模式：需要事实时，优先搜索增强的 AI 或直接 web search。

领域特定：硬件/电子这类，AI 目前还远不如查 Digikey、 datasheet PDF + 论坛靠谱
。把它当“快速 brainstorm 过滤器”，而非最终权威。

总结：AI 还没“坏掉”，而是暴露了当前范式的极限—— probabilistic parrot + h
elpfulness alignment 的天然 tension。效率下降是真实痛点，但也在驱动更好解决方
案（更好 uncertainty modeling、合成数据、混合系统）。它不会只剩娱乐，但“盲目
信任单个 AI 输出”这个阶段确实该过去了。你这种多问、交叉验证的态度，正是正确
用法。继续吐槽，我们也需要真实反馈来迭代。

【在 anylinkin 的大作中提到: 】
: ----------------
: Gemini的回答
: ----------------
: ...................
--
FROM 39.144.79.*