gb2312、gb18030、unicode 是字符集(character set),核心概念是 code point 和 bmp,而 utf-16 le/be、utf-8 是 encoding。这都什么驴唇不对马嘴的东西扯到一起去了?
微软搞了一套 gbk,兼容 gb2313 同时支持当年的 unicode,gb18030 就是拿了过来然后说我们支持 unicode 字符集,明摆着就是 unicode 的方言而已。
emoji 放到 utf-8 里要4个字节,mysql 之类山寨数据库还得专门搞个 utf8mb4 才能支持,不然就死给你看。那你要不要说西方国家歧视自己啊?
【 在 cwall (宝塔) 的大作中提到: 】
: 借用了utf-8的变长字节编码方式,然而不是utf-8
: 编码空间高达一百多万,然而事实上可能只有两、三万。
: 为了兼容GBK,各种绕
: ...................
--
FROM 122.57.156.*