Re: 这里可有人熟悉爬虫Nutch

水木社区手机版

展开|楼主|同主题展开|溯源|返回

上一篇|下一篇|同主题上篇

主题:Re: 这里可有人熟悉爬虫Nutch
kawolu|2014-11-25 15:24:19|
确定原文是utf8的话，简单转一下不就完了，linux有个命令好像叫iconv

【在 yuhao1982 (inspiration) 的大作中提到: 】
: 爬下网页后在segments里用readseg -dump后发现里面的content，即网页源码，里的中文都是乱码，虽然原网页编码是UTF-8,这到时候怎么解析中文内容呢？谢谢！
--
FROM 218.30.116.*

上一篇|下一篇|同主题上篇

BYR-Team©2010. KBS Dev-Team©2011 登录完整版