- 主题:【求助】怎么避免自己的网站被全站下载盗用
【 在 ttl (小驴|主ID) 的大作中提到: 】
: 弄成纯Ajax的,让它爬Json对象或者XML去吧,呵呵。
对这个感兴趣,再详细说下吧~~
--
FROM 117.12.251.*
参考一下gmail google map 百度地图之类的应呗。
【 在 TouchUrBody (八斗之财) 的大作中提到: 】
: 对这个感兴趣,再详细说下吧~~
--
FROM 219.239.33.*
据一个同事说:他有朋友做爬虫之类的工具,一般爬虫为了效率,采用的接口都是很底层的那种,没有到浏览器这种量级。
【 在 kabbesy (Arthas) 的大作中提到: 】
: 不要忘记,爬虫也能像人一样控制浏览器
--
FROM 222.35.98.*
基本的爬虫当然是这样
但一些高级的爬虫(更多可以认为是采集器)
就会使用browser了
比如控制firefox/mozilla
java版年后会新开一个开源项目,就叫万能爬虫好了
【 在 dhcn (Bipolar|小石) 的大作中提到: 】
: 据一个同事说:他有朋友做爬虫之类的工具,一般爬虫为了效率,采用的接口都是很底层的那种,没有到浏览器这种量级。
--
修改:kabbesy FROM 221.218.128.*
FROM 221.218.128.*
【 在 kabbesy (Arthas) 的大作中提到: 】
: 基本的爬虫当然是这样
: 但一些高级的爬虫(更多可以认为是采集器)
: 就会使用browser了
: 但一些高级的爬虫(更多可以认为是采集器)
: 就会使用browser了
: 比如控制firefox/mozilla
: java版年后会新开一个开源项目,就叫万能爬虫好了
还是别了,造祸于人类~站长们本来就不容易。
--
FROM 117.12.251.*
水木那是因为robots.txt规定不让搜
【 在 luckwithme (Marvel) 的大作中提到: 】
: 觉得还是有效的,看看水木在搜索引擎中的结果就知道了
--
FROM 218.249.201.*