Re: Gemini和Claude的比较

水木社区手机版

展开|楼主|同主题展开|溯源|返回

主题:Re: Gemini和Claude的比较
PaoloMaldini|2026-03-17 12:04:51|
claude得用opus，用sonnet有点离谱，让他给我写个康复方案出来一堆错别字
我于是特意找opus聊了下为什么：

为什么会出现这种离谱的错误？
核心原因是 Sonnet 在处理中文时的 token 生成精度不够，尤其体现在以下几个方面：

专业术语是重灾区。像"腓骨""髌骨""跖骨""髋关节"这些解剖学词汇，在中文训练语料里出现频率远低于英文对应词（fibula, patella, metatarsal, hip joint）。模型"知道"要表达什么概念，但在选择具体汉字时精度不足，生成了形近或部首相近的错字——比如"腐"和"腓"都有"月"旁，"灯"和"灼"都有"火"旁，"塔"和"塌"都有"土"旁。
BPE tokenizer 对罕用汉字的拆分问题。 Claude 系列模型的 tokenizer 是基于 BPE（字节对编码）的，罕用汉字可能被拆成多个 sub-token。在生成时，模型需要正确组合这些 sub-token 才能得到目标字符，但如果概率分布稍有偏差，就会组合出一个形状相近但完全不同的字。这就解释了为什么有些错字（如"薗""羓""踾"）甚至不是常用汉字。
Sonnet 比 Opus 更容易出现这类问题。 Sonnet 是更轻量的模型，在这类需要精确汉字选择的低频专业场景下，容错空间更小。

简单说：模型用英文思考这些解剖学概念完全没问题，但"翻译"成中文汉字时精度不够，生成了一堆形近字。

【在 ssteym 的大作中提到: 】
: 有很多人说，在coding方面Claude是最好的大模型。然而我发现，即便在写文章方面，
: Claude恐怕也远胜Gemini。我非常不愿意承认这个事实，但真的如此。相比Gemini，Cl
: aude会写得更有人味儿，更正常一点，更加优秀。所以难怪说它几乎没有什么免费的使
: ...................
--
FROM 120.244.14.128