正在写一个程序,其中一部分是用AI对某个即时通信软件里的消息进行分类、提取信息
由于该软件里的消息可能存在引文的情况,比如A回复B,消息里先是引用B的消息,然后才是A的回复内容;我需要大模型判断A的意图,然后提取数据
我测了deepseek v3满血版、Qwen3 32B Q6、Qwen3 8B Q6 (Qwen3全都关了思考,不然有时候思考时间太长不符合我的需求)
刚开始我的提示词比较笼统,只是要求判断消息的整体意图,这个时候连deepseek遇到这种引文消息的时候都有概率会犯蠢,把B的消息当作核心意图
然后我在提示词里加入了引文格式的示例,deepseek不再犯蠢了,但是两个Qwen3模型继续犯蠢
然后我加了个思维链,要求AI先输出简短的意图分析,然后在提取数据
神奇的事情发生了,deepseek自然毫无压力,Qwen3 8B居然也能稳定输出正确结果,但是Qwen3 32B依然在犯蠢,而且是稳定犯蠢,从思维链开始就是错的
32B不如8B ???
--
修改:adamhj FROM 182.85.139.*
FROM 182.85.139.*