山寨客户端是什么鬼,如果你指的是模拟原客户端请求的来抓取数据,那我想说名词不是随便乱套的,会让人困惑。
如果你指的是重新实现一套原客户端的界面、功能和业务逻辑,抱歉,这意义是什么?我们讨论的不是抓取数据吗?
虽然搞过50个协议,但是你应该没做过这行或者仅限于小规模数据采集,
所以对这个完全不了解,但凡你接触过这行,我相信都不会提这种方案,至少这个方案不会是首选。
HOOK效率太低,抓APP的数据,当然是可以,但是效率、成本和稳定性的问题不太可能采用,
舆情监控,一般是全量采集,因为你无法预测舆情会出现在哪些账号上。用HOOK的方式采集App数据,那就要起一个模拟器甚至真机,
由于要处理登录登出的逻辑、滑动验证、界面的响应速度、接口限流、稳定性等原因,一天采集300万条视频,可能就需要上万台手机,还有配套的管理人员和设施。
但是如果我”抓包“分析出协议来,写一段Python程序,在带宽和代理IP足够的程度下,几台高配置的服务器就能搞定。
你如果认识以下我列出来这几个公司的技术部门的人,可以去问问,都是专门做这行的,问好了相信你会有更深的了解:新浪舆情通,人民舆情、TRS、智慧星光。
山寨客户端,与舆情需要而采集数据,虽然有相似之处,但是这个区别远远大于你一直在纠结的 ”研究阶段的抓包不是抓包“。
区别是山寨客户端要分析的接口和协议会更全面和更多,而且山寨客户端会实现UI界面,通常是用于增加一些功能,或者改造
已有功能,给最终用户使用。比如魔改版的微信,实现了账号多开、防撤回等功能。但是如果是用来采集微信内的一些数据的话
(如朋友圈,或者联系人),业内通常会用iPad协议,因为这个协议效率更高,HOOK是笨办法,分析不出来的时候才会使用。
监控舆情更专注于数据的获取,通常只会分析几个有限的接口,只要能获取到数据即可,通常是Python程序,无界面,由统一任务调度平台来管理,
如微博客户端,林林总总大大小小有数百个甚至上千个接口,然而做舆情监控,只需要知道微博列表、获取微博详情接口、获取微博评论接口、获取用户资料信息等几个有限接口即可,
我实在想不明白杠点何在,我从第一个回复就清楚告诉你,抓包是研究方式,不是采集方式。
当然,如果你乐意的话,非说不是抓包也行,换个名词也可以,只是这样杠意义何在呢?浪费时间而已。
从你频繁提到钩子来看,应该是个老程序员,或者经验比较丰富的Windows程序员,因为钩子这个词语不怎么能听到了,
可能你主要的经验在于初期的单机程序,对于大规模的数据采集系统的了解不够多,也许十几年前这是主流的方式,
但是现在因为效率问题,不可能是主流方案了。
【 在 slowaction 的大作中提到: 】
: 实现一个山寨客户端道理上是可以的
: 不过没人会这么干,
: 原版挂个钩子上去完成关键操作就行了
: ...................
--
FROM 221.218.214.*