grok3 有人测试过吗？也会犯国内模型犯过的错啊

水木社区手机版

主题:grok3 有人测试过吗？也会犯国内模型犯过的错啊
楼主|Alohaaaa|2025-02-19 23:30:20|只看此ID
--
FROM 36.163.173.*
1楼|heideggerr|2025-02-19 23:40:58|只看此ID
如果把这些数字看成程序版本号的话，9.11肯定是比9.9更大的，所以，也不能说大模型是完全错的，只能说现在的大模型还没有办法根据上下文来判断问题所属领域的能力。

【在 Alohaaaa 的大作中提到: 】
--
修改:heideggerr FROM 123.191.87.*
FROM 123.191.87.*
2楼|far|2025-02-19 23:44:58|只看此ID
所以deepseek就比较聪明，教用户怎么提问，先问一堆背景问题做铺垫。
【在 heideggerr 的大作中提到: 】
: 如果把这些数字看成程序版本号的话，9.11肯定是比9.9更大的，所以，也不能说大模型是完全错的，只能说现在的大模型还没有办法根据上下文来判断问题所属领域的能力。
--
FROM 183.208.181.*
3楼|Alohaaaa|2025-02-20 09:07:15|只看此ID
不是声称已经用全人类的数据训练过了吗
按理来说，这个问题问数值大小的场景应该比问版本号大小的场景大出好多数量级
大模型不就是按照概率生成吗
【在 heideggerr 的大作中提到: 】
: 如果把这些数字看成程序版本号的话，9.11肯定是比9.9更大的，所以，也不能说大模型是完全错的，只能说现在的大模型还没有办法根据上下文来判断问题所属领域的能力。
发自「快看水母于 BVL-AN00」
--
FROM 223.104.202.*
4楼|heideggerr|2025-02-20 10:42:15|只看此ID
这么说吧，能正常使用问答软件的人，应该不是智障，他们不会没事去问3.11和3.9谁大这种弱智问题的（除了软件测试人员之外），正常人倒是经常会问某个软件的3.11版本比3.9版本增加了哪些功能之类的问题。

【在 Alohaaaa 的大作中提到: 】
: 不是声称已经用全人类的数据训练过了吗
: 按理来说，这个问题问数值大小的场景应该比问版本号大小的场景大出好多数量级
: 大模型不就是按照概率生成吗
: ...................
--
FROM 123.191.87.*
5楼|lalula|2025-02-20 14:41:38|只看此ID
正常人谁会去问9.xx 与 9.yy 谁大啊

【在 Alohaaaa 的大作中提到: 】
: 不是声称已经用全人类的数据训练过了吗
: 按理来说，这个问题问数值大小的场景应该比问版本号大小的场景大出好多数量级
: 大模型不就是按照概率生成吗
: ...................
--
FROM 119.57.91.*
6楼|updatedq|2025-02-20 15:33:36|只看此ID
这不很正常吧

试了很久，发现如果日常使用的话，deepseek更好用，比gpt o3-mini也好用，特别是联网搜索的时候。

第三方部署的deepseek好用的不多，带私货太多，又没有调好。R1可能还好点。

Grok也差不多，该有问题一样都是问题。

【在 Alohaaaa 的大作中提到: 】
--
FROM 222.129.33.*
7楼|Alohaaaa|2025-02-20 16:36:32|只看此ID
这不是扯吗，正常人也不会去问 1+1 等于几，不代表你可以给一个可以算出结果 10 然后说这在二进制场景下正确，不然还搞毛的AGI
【在 lalula 的大作中提到: 】
: 正常人谁会去问9.xx 与 9.yy 谁大啊
发自「快看水母于 BVL-AN00」
--
FROM 223.104.204.*
8楼|heideggerr|2025-02-20 17:14:55|只看此ID
人家并没有说LLM给出的答案是正确的，人家只是反驳你的“这个问题问数值大小的场景应该比问版本号大小的场景大出好多数量级”这个观点。

【在 Alohaaaa 的大作中提到: 】
: 这不是扯吗，正常人也不会去问 1+1 等于几，不代表你可以给一个可以算出结果 10 然后说这在二进制场景下正确，不然还搞毛的AGI
: 发自「快看水母于 BVL-AN00」
--
FROM 123.191.87.*
9楼|Alohaaaa|2025-02-20 17:35:28|只看此ID
那正常人谁会问.11 和.9 哪个版本号大啊
一样的逻辑啊

不管是自然科学还是人文领域，讨论数字大小场景随处可见，去年收入 2.11 亿，今年收入 2.9 亿，同比增长多少多少，虽然不是直接比大小，但是这种数据 ai
应该被喂过不少才对啊，这是再常见不过的比大小的场景了吧
【在 heideggerr 的大作中提到: 】
: 人家并没有说LLM给出的答案是正确的，人家只是反驳你的“这个问题问数值大小的场景应该比问版本号大小的场景大出好多数量级”这个观点。
发自「快看水母于 BVL-AN00」
--
FROM 223.104.204.*