水木社区手机版
首页
|版面-Web开发(WebDev)|
新版wap站已上线
返回
1/1
|
转到
主题:这里可有人熟悉爬虫Nutch
楼主
|
yuhao1982
|
2014-11-25 13:08:43
|
只看此ID
爬下网页后在segments里用readseg -dump后发现里面的content,即网页源码,里的中文都是乱码,虽然原网页编码是UTF-8,这到时候怎么解析中文内容呢?谢谢!
--
FROM 111.132.221.*
1楼
|
kawolu
|
2014-11-25 15:24:19
|
只看此ID
确定原文是utf8的话,简单转一下不就完了,linux有个命令好像叫iconv
【 在 yuhao1982 (inspiration) 的大作中提到: 】
: 爬下网页后在segments里用readseg -dump后发现里面的content,即网页源码,里的中文都是乱码,虽然原网页编码是UTF-8,这到时候怎么解析中文内容呢?谢谢!
--
FROM 218.30.116.*
1/1
|
转到
选择讨论区
首页
|
分区
|
热推
BYR-Team
©
2010.
KBS Dev-Team
©
2011
登录完整版