- 主题:请推荐java的有web访问方式的爬虫
希望:
1 Java开发的
2 能从浏览器访问?(以web方式访问)
3 能写入数据库的。
请用过的大牛们推荐。谢谢!
--
FROM 104.129.204.*
jsoup
【 在 biz2013 () 的大作中提到: 】
: 希望:
: 1 Java开发的
: 2 能从浏览器访问?(以web方式访问)
: 3 能写入数据库的。
--
FROM 101.90.254.*
你想要现成的工具啊,抱歉手头可能没有,github里只有一个批量下载地图瓦片的
--
FROM 183.128.188.*
是啊。我找了Heritrix加Jsoup。Heritrix界面上可以配置各种爬取参数。头还不满意,要一些网页内容提取的配置也放在配置界面上。
没法子。有没有傻瓜式的爬取工具介绍?谢谢各位啦。
【 在 LuoSiDao 的大作中提到: 】
: 你想要现成的工具啊,抱歉手头可能没有,github里只有一个批量下载地图瓦片的
--
FROM 104.129.204.*
Heritrix3.2界面能修改吗?
【 在 LuoSiDao 的大作中提到: 】
: 你想要现成的工具啊,抱歉手头可能没有,github里只有一个批量下载地图瓦片的
--
FROM 104.129.204.*
jsoup有界面吗? @jessonwu
【 在 jessonwu 的大作中提到: 】
: jsoup
--
FROM 104.129.204.*
为啥非要界面。。btw你是做技术的么。。
【 在 biz2013 (biz) 的大作中提到: 】
: jsoup有界面吗? @jessonwu
--
FROM 219.142.140.210
说要部署一个给客户用.
我觉得Heritrix已经蛮好了.界面上配置文件啥的也挺清楚. 但是头就是不满意.
不过Heritrix不带解析工具,需要自己写调用paser解析并且存储到数据库的代码.
【 在 shaolin 的大作中提到: 】
: 为啥非要界面。。btw你是做技术的么。。
:
--
FROM 117.136.38.*
如果会点python,推荐pyspider,需要部署过程,开发使用很方便
【 在 biz2013 的大作中提到: 】
: 说要部署一个给客户用.
: 我觉得Heritrix已经蛮好了.界面上配置文件啥的也挺清楚. 但是头就是不满意.
: 不过Heritrix不带解析工具,需要自己写调用paser解析并且存储到数据库的代码.
: ...................
--
修改:dhcn FROM 211.99.15.*
FROM 211.99.15.*
谢谢。我也在试这个。就是启动pyspider. 的时候老是报错:
Traceback (most recent call last):
File "/usr/local/bin/pyspider", line 5, in <module>
from pkg_resources import load_entry_point
File "/usr/local/lib/python2.7/dist-packages/pkg_resources/__init__.py", line 3142, in <module>
@_call_aside
File "/usr/local/lib/python2.7/dist-packages/pkg_resources/__init__.py", line 3126, in _call_aside
f(*args, **kwargs)
File "/usr/local/lib/python2.7/dist-packages/pkg_resources/__init__.py", line 3155, in _initialize_master_working_set
working_set = WorkingSet._build_master()
File "/usr/local/lib/python2.7/dist-packages/pkg_resources/__init__.py", line 666, in _build_master
return cls._build_from_requirements(__requires__)
File "/usr/local/lib/python2.7/dist-packages/pkg_resources/__init__.py", line 679, in _build_from_requirements
dists = ws.resolve(reqs, Environment())
File "/usr/local/lib/python2.7/dist-packages/pkg_resources/__init__.py", line 872, in resolve
raise VersionConflict(dist, req).with_context(dependent_req)
pkg_resources.ContextualVersionConflict: (chardet 2.3.0 (/usr/lib/python2.7/dist-packages), Requirement.parse('chardet<3.1.0,>=3.0.2'), set(['requests']))
【 在 dhcn 的大作中提到: 】
: 如果会点python,推荐pyspider,需要部署过程,开发使用很方便
--
FROM 104.129.204.*