- 主题:【求助】怎么避免自己的网站被全站下载盗用
一些网站在页面中自动插入许多无意义的字符,怎么实现的?
有没有更好的方式?比如用户可以逐页阅读、单篇复制,但是不能整站下载的?
--
FROM 117.12.251.*
不知道现在js方式的链接对爬虫工具有效吗?
【 在 TouchUrBody (八斗之财) 的大作中提到: 】
: 一些网站在页面中自动插入许多无意义的字符,怎么实现的?
: 有没有更好的方式?比如用户可以逐页阅读、单篇复制,但是不能整站下载的?
--
FROM 222.35.98.*
起码一点:爬虫可以搞定js方式的链接
【 在 dhcn (Bipolar|小石) 的大作中提到: 】
: 不知道现在js方式的链接对爬虫工具有效吗?
--
FROM 221.218.128.*
觉得还是有效的,看看水木在搜索引擎中的结果就知道了
【 在 dhcn (Bipolar|小石) 的大作中提到: 】
: 不知道现在js方式的链接对爬虫工具有效吗?
--
FROM 61.167.60.*
不见的
把关键的内容放在数组中,用js组装成url,参考smth的同主题阅读……
【 在 kabbesy (Arthas) 的大作中提到: 】
: 起码一点:爬虫可以搞定js方式的链接
--
FROM 61.167.60.*
【 在 dhcn (Bipolar|小石) 的大作中提到: 】
: 不知道现在js方式的链接对爬虫工具有效吗?
这 这句话是反问还是疑问啊?
--
FROM 117.12.251.*
不要忘记,爬虫也能像人一样控制浏览器
【 在 luckwithme (Marvel) 的大作中提到: 】
: 不见的
: 把关键的内容放在数组中,用js组装成url,参考smth的同主题阅读……
--
FROM 221.218.128.*
【 在 kabbesy (Arthas) 的大作中提到: 】
: 不要忘记,爬虫也能像人一样控制浏览器
啊 那要是能使返回到浏览器的所有数据不按照常规的字符串,可行么?这样爬虫就不能辨别自己遇到的是什么了
--
FROM 117.12.251.*
弄成纯Ajax的,让它爬Json对象或者XML去吧,呵呵。
【 在 kabbesy (Arthas) 的大作中提到: 】
: 不要忘记,爬虫也能像人一样控制浏览器
--
FROM 219.239.33.*
先写一个js的解释器先
关键是需要模拟人的流程,动态的还是比较难,不像静态的页面,根据连接直接递归找即可
【 在 kabbesy (Arthas) 的大作中提到: 】
: 不要忘记,爬虫也能像人一样控制浏览器
--
FROM 61.167.60.*