- 主题:Re: [原创]需求开发团队(舆情监控软件及工具类)
看你的描述应该是给app下钩子的方式
这是目前最有效的办法
这种办法不能描述为抓包
【 在 Suley 的大作中提到: 】
: 抓包是用来分析APP和服务器的通信方式,不是用来采集数据
--
FROM 223.211.168.*
你还没看懂,完全不是Hook的方式。你可以先温习下抓包的含义:
>>> 抓包(packet capture)就是将网络传输发送与接收的数据包进行截获、重发、编辑、转存等操作,也用来检查网络安全。抓包也经常被用来进行数据截取等。
抓包的常用工具是Wireshark, Fiddle,命令行端有tcpdump。
利用工具抓到App和服务器通信的数据包后,分析出来数据结构、签名参数等,就可以自己模拟App与服务器通信,完全不需要借助App,这和用Hook实现的原理完全是不同的。Hook是对App的源码做分析,把自己想要实现的功能以钩子的方式加载到App的正常运行进程里,这类典型软件是Xposed,非常出名的安卓Hook框架。
关于抓包分析,网上给你找个例子吧,
https://www.jianshu.com/p/c956ff6f0aed 当然,抖音之类的软件分析过程远比这个复杂。
【 在 slowaction 的大作中提到: 】
: 看你的描述应该是给app下钩子的方式
: 这是目前最有效的办法
: 这种办法不能描述为抓包
--
FROM 221.218.214.*
实现一个山寨客户端道理上是可以的
不过没人会这么干,
原版挂个钩子上去完成关键操作就行了
山寨客户端的方式也不能描述为抓包,
你的抓包是研究过程,又不是采集过程
你不用在方案里面强调出来
btw:我自己敲代码解析过的协议超过50种
和我普及什么是抓包真没必要
【 在 Suley 的大作中提到: 】
: 你还没看懂,完全不是Hook的方式。你可以先温习下抓包的含义:
: >>> 抓包(packet capture)就是将网络传输发送与接收的数据包进行截获、重发、编辑、转存等操作,也用来检查网络安全。抓包也经常被用来进行数据截取等。
: 抓包的常用工具是Wireshark, Fiddle,命令行端有tcpdump。
: ...................
--
FROM 211.94.243.*
简单说,如果你们公司有本事山寨app,服务器还感觉不出来
有这本事不会来干舆情的
有更好的变现方式
【 在 Suley 的大作中提到: 】
: 你还没看懂,完全不是Hook的方式。你可以先温习下抓包的含义:
: >>> 抓包(packet capture)就是将网络传输发送与接收的数据包进行截获、重发、编辑、转存等操作,也用来检查网络安全。抓包也经常被用来进行数据截取等。
: 抓包的常用工具是Wireshark, Fiddle,命令行端有tcpdump。
: ...................
--
FROM 211.94.243.*
山寨客户端是什么鬼,如果你指的是模拟原客户端请求的来抓取数据,那我想说名词不是随便乱套的,会让人困惑。
如果你指的是重新实现一套原客户端的界面、功能和业务逻辑,抱歉,这意义是什么?我们讨论的不是抓取数据吗?
虽然搞过50个协议,但是你应该没做过这行或者仅限于小规模数据采集,
所以对这个完全不了解,但凡你接触过这行,我相信都不会提这种方案,至少这个方案不会是首选。
HOOK效率太低,抓APP的数据,当然是可以,但是效率、成本和稳定性的问题不太可能采用,
舆情监控,一般是全量采集,因为你无法预测舆情会出现在哪些账号上。用HOOK的方式采集App数据,那就要起一个模拟器甚至真机,
由于要处理登录登出的逻辑、滑动验证、界面的响应速度、接口限流、稳定性等原因,一天采集300万条视频,可能就需要上万台手机,还有配套的管理人员和设施。
但是如果我”抓包“分析出协议来,写一段Python程序,在带宽和代理IP足够的程度下,几台高配置的服务器就能搞定。
你如果认识以下我列出来这几个公司的技术部门的人,可以去问问,都是专门做这行的,问好了相信你会有更深的了解:新浪舆情通,人民舆情、TRS、智慧星光。
山寨客户端,与舆情需要而采集数据,虽然有相似之处,但是这个区别远远大于你一直在纠结的 ”研究阶段的抓包不是抓包“。
区别是山寨客户端要分析的接口和协议会更全面和更多,而且山寨客户端会实现UI界面,通常是用于增加一些功能,或者改造
已有功能,给最终用户使用。比如魔改版的微信,实现了账号多开、防撤回等功能。但是如果是用来采集微信内的一些数据的话
(如朋友圈,或者联系人),业内通常会用iPad协议,因为这个协议效率更高,HOOK是笨办法,分析不出来的时候才会使用。
监控舆情更专注于数据的获取,通常只会分析几个有限的接口,只要能获取到数据即可,通常是Python程序,无界面,由统一任务调度平台来管理,
如微博客户端,林林总总大大小小有数百个甚至上千个接口,然而做舆情监控,只需要知道微博列表、获取微博详情接口、获取微博评论接口、获取用户资料信息等几个有限接口即可,
我实在想不明白杠点何在,我从第一个回复就清楚告诉你,抓包是研究方式,不是采集方式。
当然,如果你乐意的话,非说不是抓包也行,换个名词也可以,只是这样杠意义何在呢?浪费时间而已。
从你频繁提到钩子来看,应该是个老程序员,或者经验比较丰富的Windows程序员,因为钩子这个词语不怎么能听到了,
可能你主要的经验在于初期的单机程序,对于大规模的数据采集系统的了解不够多,也许十几年前这是主流的方式,
但是现在因为效率问题,不可能是主流方案了。
【 在 slowaction 的大作中提到: 】
: 实现一个山寨客户端道理上是可以的
: 不过没人会这么干,
: 原版挂个钩子上去完成关键操作就行了
: ...................
--
FROM 221.218.214.*
如果仅针对某个单一目标,我同意SL,可能抓包不是最好的方式了
但是监管机构会针对单一目标做这种监控吗?如果不是监管机构的行为,那也拿不到骨干网络节点的数据吧。
--
FROM 120.244.142.*
扯远了,
市面上大部分App,应用层的东西都不存在太高的技术含量,无非是工作量的问题,
运营一个App,成功的因素有很多,资金、运营、产品、技术、赛道,推广
你在创业板出没,应该有相关经验吧,技术成功远远不等于产品成功,
产品成功可能因为其中一个因素做的很好,但更多时候是多种因素共同作用的结果
头条起家引以为傲的协同过滤 + 基于内容推荐,和里面的一些小技巧,新文章冷启动、热门文章推荐,你说这种我们不会吗?
当然也会的,只是限于投入,一开始肯定做不到头条那么好的效果,如果说头条现在是95分,那么我们去做,可能能达到80-85分。
假以时日,能优化到接近头条的水平,如果要做到达到或者超越头条的水平,就要引入更强的团队了。
这种技术我们也确确实实用在了几个媒体类客户那里,但是我认为不可能赶上头条的水平,因为短板太多了,头条的运营、内容、推广都是强项,全面领先于我们的客户。
能山寨APP,请教下,有什么更好的变现手段?
(不违法的那种,水木之前有个著名版友山寨QQ虽然挣了些钱,还是去吃牢饭了)
【 在 slowaction 的大作中提到: 】
: 简单说,如果你们公司有本事山寨app,服务器还感觉不出来
: 有这本事不会来干舆情的
: 有更好的变现方式
: ...................
--
FROM 221.218.214.*
提供web接口服务的都很容易用机器人的方式实现
抖音和YouTube是完全不同的东西
几台服务器爬几百万的数据,那是服务允许你爬
你爬个微信看看,按照手机号爬个人信息
看看你能爬多少个
【 在 Suley 的大作中提到: 】
: 山寨客户端是什么鬼,如果你指的是模拟原客户端请求的来抓取数据,那我想说名词不是随便乱套的,会让人困惑。
: 如果你指的是重新实现一套原客户端的界面、功能和业务逻辑,抱歉,这意义是什么?我们讨论的不是抓取数据吗?
: 虽然搞过50个协议,但是你应该没做过这行或者仅限于小规模数据采集,
: ...................
--
FROM 114.242.249.*
随便一个应用,你有本事开发个程序,能和他互联互通
你自己想想这是什么概念
几台服务器能爬全量数据只有两个可能
或者对方愿意然后爬,或者他菜
如果你没有风控的概念,也就爬爬这些
【 在 Suley 的大作中提到: 】
: 扯远了,
: 市面上大部分App,应用层的东西都不存在太高的技术含量,无非是工作量的问题,
: 运营一个App,成功的因素有很多,资金、运营、产品、技术、赛道,推广
: ...................
--
FROM 114.242.249.*
你把别人当外行
那我告诉你,全国所有做相关工作的都需要那几个应用的数据,不过现在没人做得好
你们公司几台服务器能搞定,赶快去发财吧
【 在 Suley 的大作中提到: 】
: 山寨客户端是什么鬼,如果你指的是模拟原客户端请求的来抓取数据,那我想说名词不是随便乱套的,会让人困惑。
: 如果你指的是重新实现一套原客户端的界面、功能和业务逻辑,抱歉,这意义是什么?我们讨论的不是抓取数据吗?
: 虽然搞过50个协议,但是你应该没做过这行或者仅限于小规模数据采集,
: ...................
--
FROM 114.242.249.*