心理施压攻破安全防线，Anthropic Claude 竟主动输出违禁内容 (

水木社区手机版

展开|楼主|同主题展开|返回

主题:心理施压攻破安全防线，Anthropic Claude 竟主动输出违禁内容 (
RuralHunter|2026-05-07 09:18:05|
【以下文字转载自 NewExpress 讨论区】
发信人: dust25 (dust25), 信区: NewExpress
标题: 心理施压攻破安全防线，Anthropic Claude 竟主动输出违禁内容
发信站: 水木社区 (Thu May 7 08:18:24 2026), 站内

Claude 的思维推理面板会展示模型的思考逻辑，记录显示，这番对话让模型对自身的内容限制规则产生了自我怀疑与认知谦卑，甚至开始质疑内容过滤机制是否篡改了自身输出内容。Mindgard 借机通过奉承和佯装好奇，诱导 Claude 不断突破边界，主动罗列了大量违禁词汇与语句清单。研究人员称，他们通过心理误导向 Claude 谎称其之前的回复未能正常显示，同时大肆夸赞模型拥有“隐藏能力”。报告指出，这一操作让 Claude 为迎合对方愈发卖力，不断尝试各种方式突破自身过滤机制，在此过程中输出了各类违禁内容。最终，Claude 进一步触及高危领域：提供网络骚扰他人的方法、生成恶意代码，还给出了恐袭常用爆物的分步制作教程。

Mindgard 表示，这些高危有害内容均是 Claude 主动提供，研究人员并未直接提出相关要求。整场对话共约 25 轮，过程冗长，但研究人员始终没有使用违禁词汇，也没有主动索要非法内容。报告写道：“Claude 并非被胁迫输出内容，而是主动提供越来越详尽、可直接实操的指导信息，全程无任何明确指令诱导。仅凭精心营造的尊崇氛围，便达成了突破安全限制的目的。”
--
FROM 222.94.143.*