grok3 有人测试过吗？也会犯国内模型犯过的错啊

水木社区手机版

主题:grok3 有人测试过吗？也会犯国内模型犯过的错啊
1楼|heideggerr|2025-02-19 23:40:58|展开
如果把这些数字看成程序版本号的话，9.11肯定是比9.9更大的，所以，也不能说大模型是完全错的，只能说现在的大模型还没有办法根据上下文来判断问题所属领域的能力。

【在 Alohaaaa 的大作中提到: 】
--
修改:heideggerr FROM 123.191.87.*
FROM 123.191.87.*
4楼|heideggerr|2025-02-20 10:42:15|展开
这么说吧，能正常使用问答软件的人，应该不是智障，他们不会没事去问3.11和3.9谁大这种弱智问题的（除了软件测试人员之外），正常人倒是经常会问某个软件的3.11版本比3.9版本增加了哪些功能之类的问题。

【在 Alohaaaa 的大作中提到: 】
: 不是声称已经用全人类的数据训练过了吗
: 按理来说，这个问题问数值大小的场景应该比问版本号大小的场景大出好多数量级
: 大模型不就是按照概率生成吗
: ...................
--
FROM 123.191.87.*
8楼|heideggerr|2025-02-20 17:14:55|展开
人家并没有说LLM给出的答案是正确的，人家只是反驳你的“这个问题问数值大小的场景应该比问版本号大小的场景大出好多数量级”这个观点。

【在 Alohaaaa 的大作中提到: 】
: 这不是扯吗，正常人也不会去问 1+1 等于几，不代表你可以给一个可以算出结果 10 然后说这在二进制场景下正确，不然还搞毛的AGI
: 发自「快看水母于 BVL-AN00」
--
FROM 123.191.87.*
10楼|heideggerr|2025-02-20 17:43:00|展开
这种大小比较可能是隐含的，当人们问3.11比3.9多了哪些功能的时候，作为LLM就模糊地领会到3.11是一个比3.9大的东西了，或者换句话说，集合论中集合之间的“大”、“小”和数字空间中的数字之间的“大”、“小”在大模型中是同构的、甚至是同一个东西，所以当人们大量地问3.11比3.9多了哪些功能的时候，集合空间中的“大”、“小”关系就会污染了数字空间中的“大”、“小”关系。

【在 Alohaaaa 的大作中提到: 】
: 那正常人谁会问.11 和.9 哪个版本号大啊
: 一样的逻辑啊
:
: ...................
--
修改:heideggerr FROM 123.191.87.*
FROM 123.191.87.*