claude得用opus,用sonnet有点离谱,让他给我写个康复方案出来一堆错别字
我于是特意找opus聊了下为什么:
为什么会出现这种离谱的错误?
核心原因是 Sonnet 在处理中文时的 token 生成精度不够,尤其体现在以下几个方面:
专业术语是重灾区。 像"腓骨""髌骨""跖骨""髋关节"这些解剖学词汇,在中文训练语料里出现频率远低于英文对应词(fibula, patella, metatarsal, hip joint)。模型"知道"要表达什么概念,但在选择具体汉字时精度不足,生成了形近或部首相近的错字——比如"腐"和"腓"都有"月"旁,"灯"和"灼"都有"火"旁,"塔"和"塌"都有"土"旁。
BPE tokenizer 对罕用汉字的拆分问题。 Claude 系列模型的 tokenizer 是基于 BPE(字节对编码)的,罕用汉字可能被拆成多个 sub-token。在生成时,模型需要正确组合这些 sub-token 才能得到目标字符,但如果概率分布稍有偏差,就会组合出一个形状相近但完全不同的字。这就解释了为什么有些错字(如"薗""羓""踾")甚至不是常用汉字。
Sonnet 比 Opus 更容易出现这类问题。 Sonnet 是更轻量的模型,在这类需要精确汉字选择的低频专业场景下,容错空间更小。
简单说:模型用英文思考这些解剖学概念完全没问题,但"翻译"成中文汉字时精度不够,生成了一堆形近字。
【 在 ssteym 的大作中提到: 】
: 有很多人说,在coding方面Claude是最好的大模型。然而我发现,即便在写文章方面,
: Claude恐怕也远胜Gemini。我非常不愿意承认这个事实,但真的如此。相比Gemini,Cl
: aude会写得更有人味儿,更正常一点,更加优秀。所以难怪说它几乎没有什么免费的使
: ...................
--
FROM 120.244.14.128