- 主题:请问,大模型的对话功能,怎么测试啊?
现在大模型这么火,比如chatgpt、百度文心一言、阿里的、讯飞的,等等。我现在的问题是,一个大模型做出来用了,怎么测试他的好坏?chatgpt也不会做三位数的乘法,会出“林黛玉倒拔垂杨柳”的笑话,可是不影响他的出名。我们这些后来者,该如何测试大模型的好坏呢?谢谢
--
FROM 120.242.240.*
人工打分
【 在 feng321 的大作中提到: 】
: 现在大模型这么火,比如chatgpt、百度文心一言、阿里的、讯飞的,等等。我现在的问题是,一个大模型做出来用了,怎么测试他的好坏?chatgpt也不会做三位数的乘法,会出“林黛玉倒拔垂杨柳”的笑话,可是不影响他的出名。我们这些后来者,该如何测试大模型的好坏呢?谢谢
--
FROM 61.140.94.*
不用内部测试,直接发布,让用户去评判和测试
根据用户反馈进行完善优化
【 在 feng321 的大作中提到: 】
: 现在大模型这么火,比如chatgpt、百度文心一言、阿里的、讯飞的,等等。我现在的问题是,一个大模型做出来用了,怎么测试他的好坏?chatgpt也不会做三位数的乘法,会出“林黛玉倒拔垂杨柳”的笑话,可是不影响他的出名。我们这些后来者,该如何测试大模型的好坏呢?谢谢
--
FROM 120.225.117.*
不内部测试,肯定不行吧?哪有软件发布,不经过测试就发布的?
【 在 pixYY 的大作中提到: 】
: 不用内部测试,直接发布,让用户去评判和测试
: 根据用户反馈进行完善优化
:
--
FROM 120.242.240.*
这种东西的内测,只要能调通,做到能合理输出结果就行了,输出结果质量不便内测
不然就邀请(或经过申请流程)部分用户免费试用进行内测,根据反馈意见进行微调
人工智能一些产品还要雇人进行数据标注,这种试用用户也可根据反馈结果进行付费
【 在 feng321 的大作中提到: 】
: 不内部测试,肯定不行吧?哪有软件发布,不经过测试就发布的?
--
修改:pixYY FROM 120.225.117.*
FROM 120.225.117.*
win11
【 在 feng321 的大作中提到: 】
: 不内部测试,肯定不行吧?哪有软件发布,不经过测试就发布的?
--
FROM 121.33.160.*