反爬的话,
1, 额外维护一个代理池,这个网上有现成的代码,每次发起都使用一个代理,
2,每次随机使用一个 user-agent , 这个python有现成的库。
3, 设定随机间隔,降低服务器压力。
提高效率的话,多进程加协程。
【 在 javame 的大作中提到: 】
: 今天爬虫开始工作,用来抓取101围棋的题目。
: 估算网站的题库题目的约有5万张。
: 需要解决2个问题,一是反爬,二是如何提高爬虫的效率。
: ...................
--
FROM 114.86.223.*