【 在 ble 的大作中提到: 】
: GBK 才21003汉字,GB18030已经7万多汉字了,两三万肯定是不够的。
: 关于字符的标准,严格上应该分开成“字符的码点”和(“码点的二进制表示”)编码。Unicode标准负责码点分配,UTF8/16/32是编码方案之一。
: GBK/GB18030这种是码点分配和编码表示合在一起的方案,是由历史导致的。
: ...................
码点和编码分离应该只是unicode这么做,
而且开始unicode也不是这么想的,它们想的是用两个字节一统天下。
后来实在是ascii太浪费,才弄出来一个utf-8,也就有了编码和码点分开这种方式。
现在的问题是,18030和unicode(为了避免混淆,不说utf-8)了是冲突的,码点不一致。
至于说编码,18030本身就是编码,和utf-8没有一毛钱关系。
不能说只要是采用变长编码,就是utf-8吧
--
FROM 221.218.206.*