的确是。
汉字编码 utf-8三个byte表示一个汉字,一个词两个汉字,需要6个byte
而英文一个字母一个byte,英文的单词平均字符数是5个。平均只需要5个byte就可以表示一个单词。
编码效率上二者差不多,汉字甚至用的字节还多一点。就是这样,汉字压缩率还是最低的,只能说明汉字组成的中文携带的信息熵高。语法中冗余的成分少。
【 在 armor 的大作中提到: 】
: 科学家做过实验,把每个主流语言版本的圣经用
: 各种文本算法压缩,最难压缩的是中文,说明
: 中文的信息熵最高.
: ...................
--
FROM 114.254.10.*