水木社区手机版
首页
|版面-Web开发(WebDev)|
新版wap站已上线
展开
|
楼主
|
同主题展开
|
溯源
|
返回
上一篇
|
下一篇
|
同主题上篇
主题:Re: 这里可有人熟悉爬虫Nutch
kawolu
|
2014-11-25 15:24:19
|
确定原文是utf8的话,简单转一下不就完了,linux有个命令好像叫iconv
【 在 yuhao1982 (inspiration) 的大作中提到: 】
: 爬下网页后在segments里用readseg -dump后发现里面的content,即网页源码,里的中文都是乱码,虽然原网页编码是UTF-8,这到时候怎么解析中文内容呢?谢谢!
--
FROM 218.30.116.*
上一篇
|
下一篇
|
同主题上篇
选择讨论区
首页
|
分区
|
热推
BYR-Team
©
2010.
KBS Dev-Team
©
2011
登录完整版