【求助】怎么避免自己的网站被全站下载盗用

水木社区手机版

主题:【求助】怎么避免自己的网站被全站下载盗用
楼主|TouchUrBody|2008-01-17 20:41:18|只看此ID
一些网站在页面中自动插入许多无意义的字符，怎么实现的？

有没有更好的方式？比如用户可以逐页阅读、单篇复制，但是不能整站下载的？
--
FROM 117.12.251.*
1楼|dhcn|2008-01-17 20:51:44|只看此ID
不知道现在js方式的链接对爬虫工具有效吗？
【在 TouchUrBody (八斗之财) 的大作中提到: 】
: 一些网站在页面中自动插入许多无意义的字符，怎么实现的？
: 有没有更好的方式？比如用户可以逐页阅读、单篇复制，但是不能整站下载的？
--
FROM 222.35.98.*
2楼|kabbesy|2008-01-17 20:55:49|只看此ID
起码一点：爬虫可以搞定js方式的链接

【在 dhcn (Bipolar|小石) 的大作中提到: 】
: 不知道现在js方式的链接对爬虫工具有效吗？
--
FROM 221.218.128.*
3楼|luckwithme|2008-01-17 20:56:41|只看此ID
觉得还是有效的，看看水木在搜索引擎中的结果就知道了
【在 dhcn (Bipolar|小石) 的大作中提到: 】
: 不知道现在js方式的链接对爬虫工具有效吗？
--
FROM 61.167.60.*
4楼|luckwithme|2008-01-17 20:57:24|只看此ID
不见的

把关键的内容放在数组中，用js组装成url，参考smth的同主题阅读……
【在 kabbesy (Arthas) 的大作中提到: 】
: 起码一点：爬虫可以搞定js方式的链接
--
FROM 61.167.60.*
5楼|TouchUrBody|2008-01-17 20:57:58|只看此ID
【在 dhcn (Bipolar|小石) 的大作中提到: 】
: 不知道现在js方式的链接对爬虫工具有效吗？

这这句话是反问还是疑问啊？
--
FROM 117.12.251.*
6楼|kabbesy|2008-01-17 21:01:48|只看此ID
不要忘记，爬虫也能像人一样控制浏览器

【在 luckwithme (Marvel) 的大作中提到: 】
: 不见的
: 把关键的内容放在数组中，用js组装成url，参考smth的同主题阅读……
--
FROM 221.218.128.*
7楼|TouchUrBody|2008-01-17 21:05:43|只看此ID
【在 kabbesy (Arthas) 的大作中提到: 】
: 不要忘记，爬虫也能像人一样控制浏览器

啊那要是能使返回到浏览器的所有数据不按照常规的字符串，可行么？这样爬虫就不能辨别自己遇到的是什么了
--
FROM 117.12.251.*
8楼|ttl|2008-01-17 21:05:44|只看此ID
弄成纯Ajax的，让它爬Json对象或者XML去吧，呵呵。
【在 kabbesy (Arthas) 的大作中提到: 】
: 不要忘记，爬虫也能像人一样控制浏览器
--
FROM 219.239.33.*
9楼|luckwithme|2008-01-17 21:05:54|只看此ID
先写一个js的解释器先

关键是需要模拟人的流程，动态的还是比较难，不像静态的页面，根据连接直接递归找即可
【在 kabbesy (Arthas) 的大作中提到: 】
: 不要忘记，爬虫也能像人一样控制浏览器
--
FROM 61.167.60.*