人家是llm啊,它强化学习训练的是输出最有可能解决问题的字符串,另外ds多模态都做了个半吊子都还只能识别文字,我怀疑ds根本就没接入很多工具,你这测试方法不是浪费算力是什么。你这种测试应该测那种agent,最起码接管操作系统可以调用工具了再测,微软不是有那种可操作工具的llm框架嘛。现在ds最牛批的超过所有人类的知识容量和超大向量相关度计算,说人话就是你可以多问它点发散度高的问题别人不知道怎么答的问题,它往往能从某些角度给出惊艳的回答。问这种小儿科的问题本身就是用错了
【 在 wuduan 的大作中提到: 】
: 是不是浪费算力并不是我要讨论的事情
: 连小孩子都知道有日历这东西,但是人工“智能”不知道
--
FROM 106.121.141.*