这里可有人熟悉爬虫Nutch

水木社区手机版

主题:这里可有人熟悉爬虫Nutch
yuhao1982|2014-11-25 13:08:43|
爬下网页后在segments里用readseg -dump后发现里面的content，即网页源码，里的中文都是乱码，虽然原网页编码是UTF-8,这到时候怎么解析中文内容呢？谢谢！
--
FROM 111.132.221.*