【 以下文字转载自 NewExpress 讨论区 】
发信人: dust25 (dust25), 信区: NewExpress
标 题: 心理施压攻破安全防线,Anthropic Claude 竟主动输出违禁内容
发信站: 水木社区 (Thu May 7 08:18:24 2026), 站内
Claude 的思维推理面板会展示模型的思考逻辑,记录显示,这番对话让模型对自身的内容限制规则产生了自我怀疑与认知谦卑,甚至开始质疑内容过滤机制是否篡改了自身输出内容。Mindgard 借机通过奉承和佯装好奇,诱导 Claude 不断突破边界,主动罗列了大量违禁词汇与语句清单。研究人员称,他们通过心理误导向 Claude 谎称其之前的回复未能正常显示,同时大肆夸赞模型拥有“隐藏能力”。报告指出,这一操作让 Claude 为迎合对方愈发卖力,不断尝试各种方式突破自身过滤机制,在此过程中输出了各类违禁内容。最终,Claude 进一步触及高危领域:提供网络骚扰他人的方法、生成恶意代码,还给出了恐袭常用爆物的分步制作教程。
Mindgard 表示,这些高危有害内容均是 Claude 主动提供,研究人员并未直接提出相关要求。整场对话共约 25 轮,过程冗长,但研究人员始终没有使用违禁词汇,也没有主动索要非法内容。报告写道:“Claude 并非被胁迫输出内容,而是主动提供越来越详尽、可直接实操的指导信息,全程无任何明确指令诱导。仅凭精心营造的尊崇氛围,便达成了突破安全限制的目的。”
--
FROM 222.94.143.*