- 主题:发帖编码问题
一个网页的编码一般在网页里面有写,
我想知道的是比如发帖子发送的内容的编码是怎么确定的?
比如baidu贴吧的网页是gbk的,但是发帖子中汉字的编码确实utf8
这个是怎么回事?
--
FROM 125.33.196.*
抓包分析的,
不过查了一下,好像是发帖的时候js里面做了转换
【 在 sayinger (言者) 的大作中提到: 】
: 你咋知道是utf8的
--
FROM 125.33.196.*
我不懂js,只是猜是js转的
但是抓包看从本机发出的post数据内容是utf8编码+quote的
我现在是不明白为什么数据内容是utf8,感觉上应该和网页编码一致
【 在 sayinger (言者) 的大作中提到: 】
: js里转换不大可能,我想你的意思是发贴这个请求的编码是utf8,而贴吧的页面编码是gbk,那很显然是百度的服务器在接收请求后做了转换,否则你抓到的也应该是utf8。
--
FROM 125.33.196.*
看了文件源代码还真没有发现设置了这个
不知道怎么实现的
【 在 sayinger (言者) 的大作中提到: 】
: 除非设置了form的accept-charset,否则应当是跟发起post的页面编码一致的
--
FROM 125.33.196.*
百度tieba的页面容易看到是gbk
而post内容是类似 %E9%AD%94%E5%85%BD
这个正是魔兽的utf8编码
有空你可以看看
【 在 sayinger (言者) 的大作中提到: 】
: 那要么你发起post的页面本身是utf8的,要么你抓到的东西根本不是utf8编码的
--
FROM 125.33.196.*
是不是可以这样理解:
只要不是form提交的,一般都是utf8?
【 在 sayinger (言者) 的大作中提到: 】
: tieba不是用form提交的,而是在js里做了主动的encodeURIComponent,这个时候不存在gbk到utf8的问题,只是由js引擎的默认编码(一般都是unicode吧)转到utf8。
: 用form提交,才会默认跟页面编码保持一致。
--
FROM 221.221.147.*