- 主题:请教URL分析方法
【 在 mpyu (猫扑老鱼) 的大作中提到: 】
: 是啥阿...
: 至少meta段或者httpd头content-type那charset指定的不对
: 都会导致莫名其妙的乱码,用啥编码一样有可能会乱掉.
程序本身写错了那自然是出啥乱码都不奇怪,不关 utf-8 的事……
: 就算指定的全对,未必就不会乱掉(尤其是一些手机浏览器)
: utf8也白扯,极端情况下得用&#xxxxx;才踏实...
: 当然,你可以说它是unicode,因为这号码就是utf16le.
支持功能不全的浏览器倒是一事。所以只能说是“差不多”万金油么
不过您这utf16le实在是……
这号码就是十进制 unicode,表示一个字符至少4个char的字符串
跟两字节的 utf16 没关系,更别说 be le 了
--
修改:withinsea FROM 221.221.205.217
FROM 221.221.205.217
【 在 mpyu (猫扑老鱼) 的大作中提到: 】
: 是啊,我也这意思.
: 就是按utf16le的找的字符位置,我不认为我说错了,呵呵.
还真不是
这语法能从 � 表示到 � 全都有字符出来
但是 � 这种 UTF-16 的双字编码它就没有
而且 HTML 标准里人都写明了
The syntax "&#D;", where D is a decimal number, refers to the ISO 10646 decimal character number D.
所以这个编码是 UCS 的,能支持双字的话就是 UCS-4
非得按 UTF 说也是 UTF-32,跟trick了D800-DFFF的 UTF-16 搭不上
--
FROM 221.221.146.79
嗯,贴篇 unicode 的东西过来
讲得不错的这个
http://tech.idv2.com/2008/02/21/unicode-intro/
【 在 mpyu (猫扑老鱼) 的大作中提到: 】
: 赞,学习了.
: 这个还真有阿...
: 我一直以为&#D; 这个D最大65535,土了.
: ...................
--
修改:withinsea FROM 221.221.146.79
FROM 221.221.146.79