这里可有人熟悉爬虫Nutch

水木社区手机版

主题:这里可有人熟悉爬虫Nutch
楼主|yuhao1982|2014-11-25 13:08:43|只看此ID
爬下网页后在segments里用readseg -dump后发现里面的content，即网页源码，里的中文都是乱码，虽然原网页编码是UTF-8,这到时候怎么解析中文内容呢？谢谢！
--
FROM 111.132.221.*
1楼|kawolu|2014-11-25 15:24:19|只看此ID
确定原文是utf8的话，简单转一下不就完了，linux有个命令好像叫iconv

【在 yuhao1982 (inspiration) 的大作中提到: 】
: 爬下网页后在segments里用readseg -dump后发现里面的content，即网页源码，里的中文都是乱码，虽然原网页编码是UTF-8,这到时候怎么解析中文内容呢？谢谢！
--
FROM 218.30.116.*