不能稳定在高分的。
这篇论文是直接用了其它八篇顶级论文提出的参数(提示词),本来就该有最好表现的。说明准确率和泛化能力矛盾。
这个已是最好结果。换一组、八个参数,不会有更好的结果。
选成绩最好的参数,重测八次(换八组测试者),估计平均成绩和现在一样、不到30分。选最高分的参数、重测八次,也不能提高成绩的。
【 在 qtpr 的大作中提到: 】
: chatgpt4最好的那次能到多少分?
: 如果就用最好的那次的参数的话,是否可以基本稳定在一个较高的分数上?
:
--
修改:test321 FROM 120.229.89.*
FROM 120.229.89.*