grok3 有人测试过吗？也会犯国内模型犯过的错啊

水木社区手机版

主题:grok3 有人测试过吗？也会犯国内模型犯过的错啊
20楼|skyworm|2025-02-21 09:11:31|只看此ID
你自己不试一下的吗

【在 Alohaaaa 的大作中提到: 】

--
FROM 222.68.63.*
21楼|smthhz|2025-02-21 09:43:04|只看此ID
我发现和语言有很大关系，用英语问gemini和grok都回答正确，不需要思考，ds用藏语问回答就是3.11更大，但是中文就没问题
【在 Alohaaaa (Alohaaaa) 的大作中提到: 】
:  你说的确实有道理
:  deepseek 也考虑到这一层了
:  【在 heideggerr 的大作中提到: 】
:  : 这种大小比较可能是隐含的，当人们问3.11比3.9多了哪些功能的时候，作为LLM就模糊地领会到3.11是一个比3.9大的东西了，或者换句话说，集合论中集合之间的“大”、“小”和数字空间中的数字之间的“大”、“小”在大模型中是同构的、甚至是同一个东西，所以当人们大量地问3.11比3.9多了哪些功能的时候，集合空间中的“大”、“小”关系就会污染了数字空间中的“大”、“小”关系。
--
FROM 117.133.82.*
22楼|yeniu|2025-02-21 09:46:31|只看此ID
【在 skyworm 的大作中提到: 】
: 你自己不试一下的吗
:
[upload=2][/upload]
为啥用网页版提问得到这个结论[upload=1][/upload]
--
FROM 111.57.152.*
23楼|skyworm|2025-02-21 09:52:37|只看此ID
你没打开深度思索

【在 yeniu 的大作中提到: 】
: 为啥用网页版提问得到这个结论[upload=1][/upload]
--
FROM 222.68.63.*
24楼|updatedq|2025-02-21 12:55:33|只看此ID
一直都能用呀，只是白天容易卡，后半夜体验非常好，编码感觉也比gpt强

【在 smthhz 的大作中提到: 】
: ds联网能用了？不联网我是没发现比4o好用
--
FROM 222.129.32.*
25楼|flyingfairy|2025-02-21 12:58:09|只看此ID
这就是产品UI设计的好，显得模型聪明了。
lz这个例子有公号发过，选中reasoning就能推理对。
这种简单的各种数字的大小判断是不符和LLM推理原理的，是加入各种其它训练和推理路径才能打补丁处理的。

【在 far 的大作中提到: 】
: 所以deepseek就比较聪明，教用户怎么提问，先问一堆背景问题做铺垫。
--
FROM 220.181.3.*
26楼|nextworld8|2025-02-21 13:19:34|只看此ID
有想法
【在 heideggerr 的大作中提到: 】
: 如果把这些数字看成程序版本号的话，9.11肯定是比9.9更大的，所以，也不能说大模型是完全错的，只能说现在的大模型还没有办法根据上下文来判断问题所属领域的能力。
:
--
FROM 223.104.40.*
27楼|welnstar|2025-02-21 13:24:27|只看此ID
你都不知道问这个问题的原因在那胡乱洗有意思么

【在 heideggerr 的大作中提到: 】
: 这么说吧，能正常使用问答软件的人，应该不是智障，他们不会没事去问3.11和3.9谁大这种弱智问题的（除了软件测试人员之外），正常人倒是经常会问某个软件的3.11版本比3.9版本增加了哪些功能之类的问题。
:
--
FROM 210.12.126.*
28楼|ucanwfnh|2025-02-21 15:07:31|只看此ID
【在 Alohaaaa 的大作中提到: 】
: 不是声称已经用全人类的数据训练过了吗
: 按理来说，这个问题问数值大小的场景应该比问版本号大小的场景大出好多数量级
: 大模型不就是按照概率生成吗
: ...................
从数据分析角度，有三类数据，分别为字符，数字，日期。只有数字维度9.9大于9.11，字符和日期维度9.11均大于9.9，从概率上来讲AI回答的没有错。纯数值应用的场景非常小
--
FROM 221.222.20.*
29楼|ucanwfnh|2025-02-21 15:10:55|只看此ID
【在 Alohaaaa 的大作中提到: 】
: 那正常人谁会问.11 和.9 哪个版本号大啊
: 一样的逻辑啊
:
: ...................
为啥上来就默认是数值，人心中的成见是一座大山。
--
FROM 221.222.20.*