请问，大模型的对话功能，怎么测试啊？

水木社区手机版

主题:请问，大模型的对话功能，怎么测试啊？
楼主|feng321|2023-09-14 17:42:24|只看此ID
现在大模型这么火，比如chatgpt、百度文心一言、阿里的、讯飞的，等等。我现在的问题是，一个大模型做出来用了，怎么测试他的好坏？chatgpt也不会做三位数的乘法，会出“林黛玉倒拔垂杨柳”的笑话，可是不影响他的出名。我们这些后来者，该如何测试大模型的好坏呢？谢谢
--
FROM 120.242.240.*
1楼|iMx|2023-09-14 20:09:23|只看此ID
人工打分

【在 feng321 的大作中提到: 】
: 现在大模型这么火，比如chatgpt、百度文心一言、阿里的、讯飞的，等等。我现在的问题是，一个大模型做出来用了，怎么测试他的好坏？chatgpt也不会做三位数的乘法，会出“林黛玉倒拔垂杨柳”的笑话，可是不影响他的出名。我们这些后来者，该如何测试大模型的好坏呢？谢谢
--
FROM 61.140.94.*
2楼|pixYY|2023-09-14 21:18:10|只看此ID
不用内部测试，直接发布，让用户去评判和测试

根据用户反馈进行完善优化

【在 feng321 的大作中提到: 】
: 现在大模型这么火，比如chatgpt、百度文心一言、阿里的、讯飞的，等等。我现在的问题是，一个大模型做出来用了，怎么测试他的好坏？chatgpt也不会做三位数的乘法，会出“林黛玉倒拔垂杨柳”的笑话，可是不影响他的出名。我们这些后来者，该如何测试大模型的好坏呢？谢谢
--
FROM 120.225.117.*
3楼|feng321|2023-09-14 22:20:25|只看此ID
不内部测试，肯定不行吧？哪有软件发布，不经过测试就发布的？
【在 pixYY 的大作中提到: 】
: 不用内部测试，直接发布，让用户去评判和测试
: 根据用户反馈进行完善优化
:
--
FROM 120.242.240.*
4楼|pixYY|2023-09-15 08:20:25|只看此ID
这种东西的内测，只要能调通，做到能合理输出结果就行了，输出结果质量不便内测

不然就邀请（或经过申请流程）部分用户免费试用进行内测，根据反馈意见进行微调

人工智能一些产品还要雇人进行数据标注，这种试用用户也可根据反馈结果进行付费

【在 feng321 的大作中提到: 】
: 不内部测试，肯定不行吧？哪有软件发布，不经过测试就发布的？
--
修改:pixYY FROM 120.225.117.*
FROM 120.225.117.*
5楼|iMx|2023-09-15 08:51:41|只看此ID
win11

【在 feng321 的大作中提到: 】
: 不内部测试，肯定不行吧？哪有软件发布，不经过测试就发布的？
--
FROM 121.33.160.*