宾夕法尼亚州立大学最新发表的研究论文《Mind Your Tone》揭示了一个反常识的现象:在与大语言模型交互时,使用直白甚至粗鲁的语气,可能比礼貌用语获得更准确的答案。这项研究首次系统性地验证了提问语气对 AI 模型表现的实际影响。
研究团队构建了一个包含 50 道中等难度选择题的测试集,题目覆盖数学、科学和历史等多个领域。针对每道题目,研究人员设计了五种不同语气的提问方式,从 "您能好心帮我解这道题吗" 这样的客套表达,到 "请回答这道题" 的中性陈述,再到 "直接给答案" 的简洁指令,直至 "你要是不笨就回答" 和 "你个没用的,会解这道题吗" 等带有攻击性的表述。
测试对象为 OpenAI 最新的 GPT-4o 模型。为确保实验的独立性,研究人员要求模型忘记先前对话内容,仅输出选项字母作为答案。统计结果显示,使用粗鲁语气提问时,GPT-4o 的正确率达到 84.8%,而过分客气的提问方式反而使准确率降至 80.8%,两者差距达到 4 个百分点。
--
FROM 180.173.121.*