- 主题:现在网上找的很多小说,各种错别字,名字错了
现在用ocr的盗版站还是少,资源消耗太多了
即使不考虑ocr的成本,直接抓取接口取内容也比抓取服务渲染完页面再输出图片至少快十倍
不过即使用了ocr,反爬也是一样的
【 在 taugulua 的大作中提到: 】
: 标 题: Re: 现在网上找的很多小说,各种错别字,名字错了
: 发信站: 水木社区 (Mon Mar 20 15:55:15 2023), 站内
:
: 反爬虫的时候自动给假内容,这样哪怕是抓图都抓不到真的是吧。。
: 【 在 lengxinyi 的大作中提到: 】
: : 首先识别当前访问是人还是机器
: : 然后后者调用个处理逻辑,把返回的内容给加个混淆
: : 前者这种反爬虫已经很成熟了
: : ...................
:
: --
:
: ※ 来源:·水木社区 mysmth.net·[FROM: 106.120.122.*]
--
FROM 111.206.214.*
所以爬虫需要模仿人的行为,不要刷刷刷翻页太快。
【 在 lengxinyi 的大作中提到: 】
: 首先识别当前访问是人还是机器
: 然后后者调用个处理逻辑,把返回的内容给加个混淆
: 前者这种反爬虫已经很成熟了
: ...................
--
FROM 116.24.66.*
都在做了,但是很难
正常人会有停顿,会有翻页,会有点击等等,
把人类行为序列和爬虫行为序列一对比差异明显,很难完美模拟
有时候你在app上用的好好的,突然让你滑个滑块,点个汉字,识别个红绿灯啥的
就是被策略误召回了,需要『证明你是人』
【 在 zhms 的大作中提到: 】
: 标 题: Re: 现在网上找的很多小说,各种错别字,名字错了
: 发信站: 水木社区 (Mon Mar 20 16:44:13 2023), 站内
:
: 所以爬虫需要模仿人的行为,不要刷刷刷翻页太快。
:
:
: 【 在 lengxinyi 的大作中提到: 】
: : 首先识别当前访问是人还是机器
: : 然后后者调用个处理逻辑,把返回的内容给加个混淆
: : 前者这种反爬虫已经很成熟了
: : ...................
:
: --
:
: ※ 来源:·水木社区 mysmth.net·[FROM: 116.24.66.*]
--
FROM 111.206.214.*