- 主题:Re: [原创]需求开发团队(舆情监控软件及工具类)
APP的内容通过抓包就行,如果内嵌证书抓不到数据,反编译之后去分析一下难度也不大。
就是看预算到不到位,比这个难的我们都采集过。
【 在 BtoJ 的大作中提到: 】
: 现在还采集不到。比如典型的北京通APP,上面的12345是很值得重视的内容,但就采集不下来
:
--
FROM 221.218.214.*
抓包或者反编译拿到接口结构和签名参数后,
可以大规模去采,将单条视频的获取成本降到极低程度,而且不需要额外处理就能能获取到更多结构化的数据,如视频精确的发布时间、发布账号的相关信息、评论点赞数量。
我们的平台每天入库大约三百万+短视频,用你这个方法无法达到高效率和低成本啊。
【 在 slowaction 的大作中提到: 】
: 我无法理解有人用抓包甚至反编译的方法來获取抖音内容
: 抖音都是视频
: 你抓包反编译拿到了视频
: ...................
--
FROM 221.218.214.*
抓包是用来分析APP和服务器的通信方式,不是用来采集数据
【 在 slowaction 的大作中提到: 】
: 抓包和主动采集适用场景分别很大
: 不要被过往项目或者自身经验蒙蔽了
: 比如有人要分析水木,你也骨干网抓包么?
: ...................
--
FROM 221.218.214.*
你还没看懂,完全不是Hook的方式。你可以先温习下抓包的含义:
>>> 抓包(packet capture)就是将网络传输发送与接收的数据包进行截获、重发、编辑、转存等操作,也用来检查网络安全。抓包也经常被用来进行数据截取等。
抓包的常用工具是Wireshark, Fiddle,命令行端有tcpdump。
利用工具抓到App和服务器通信的数据包后,分析出来数据结构、签名参数等,就可以自己模拟App与服务器通信,完全不需要借助App,这和用Hook实现的原理完全是不同的。Hook是对App的源码做分析,把自己想要实现的功能以钩子的方式加载到App的正常运行进程里,这类典型软件是Xposed,非常出名的安卓Hook框架。
关于抓包分析,网上给你找个例子吧,
https://www.jianshu.com/p/c956ff6f0aed 当然,抖音之类的软件分析过程远比这个复杂。
【 在 slowaction 的大作中提到: 】
: 看你的描述应该是给app下钩子的方式
: 这是目前最有效的办法
: 这种办法不能描述为抓包
--
FROM 221.218.214.*
山寨客户端是什么鬼,如果你指的是模拟原客户端请求的来抓取数据,那我想说名词不是随便乱套的,会让人困惑。
如果你指的是重新实现一套原客户端的界面、功能和业务逻辑,抱歉,这意义是什么?我们讨论的不是抓取数据吗?
虽然搞过50个协议,但是你应该没做过这行或者仅限于小规模数据采集,
所以对这个完全不了解,但凡你接触过这行,我相信都不会提这种方案,至少这个方案不会是首选。
HOOK效率太低,抓APP的数据,当然是可以,但是效率、成本和稳定性的问题不太可能采用,
舆情监控,一般是全量采集,因为你无法预测舆情会出现在哪些账号上。用HOOK的方式采集App数据,那就要起一个模拟器甚至真机,
由于要处理登录登出的逻辑、滑动验证、界面的响应速度、接口限流、稳定性等原因,一天采集300万条视频,可能就需要上万台手机,还有配套的管理人员和设施。
但是如果我”抓包“分析出协议来,写一段Python程序,在带宽和代理IP足够的程度下,几台高配置的服务器就能搞定。
你如果认识以下我列出来这几个公司的技术部门的人,可以去问问,都是专门做这行的,问好了相信你会有更深的了解:新浪舆情通,人民舆情、TRS、智慧星光。
山寨客户端,与舆情需要而采集数据,虽然有相似之处,但是这个区别远远大于你一直在纠结的 ”研究阶段的抓包不是抓包“。
区别是山寨客户端要分析的接口和协议会更全面和更多,而且山寨客户端会实现UI界面,通常是用于增加一些功能,或者改造
已有功能,给最终用户使用。比如魔改版的微信,实现了账号多开、防撤回等功能。但是如果是用来采集微信内的一些数据的话
(如朋友圈,或者联系人),业内通常会用iPad协议,因为这个协议效率更高,HOOK是笨办法,分析不出来的时候才会使用。
监控舆情更专注于数据的获取,通常只会分析几个有限的接口,只要能获取到数据即可,通常是Python程序,无界面,由统一任务调度平台来管理,
如微博客户端,林林总总大大小小有数百个甚至上千个接口,然而做舆情监控,只需要知道微博列表、获取微博详情接口、获取微博评论接口、获取用户资料信息等几个有限接口即可,
我实在想不明白杠点何在,我从第一个回复就清楚告诉你,抓包是研究方式,不是采集方式。
当然,如果你乐意的话,非说不是抓包也行,换个名词也可以,只是这样杠意义何在呢?浪费时间而已。
从你频繁提到钩子来看,应该是个老程序员,或者经验比较丰富的Windows程序员,因为钩子这个词语不怎么能听到了,
可能你主要的经验在于初期的单机程序,对于大规模的数据采集系统的了解不够多,也许十几年前这是主流的方式,
但是现在因为效率问题,不可能是主流方案了。
【 在 slowaction 的大作中提到: 】
: 实现一个山寨客户端道理上是可以的
: 不过没人会这么干,
: 原版挂个钩子上去完成关键操作就行了
: ...................
--
FROM 221.218.214.*
扯远了,
市面上大部分App,应用层的东西都不存在太高的技术含量,无非是工作量的问题,
运营一个App,成功的因素有很多,资金、运营、产品、技术、赛道,推广
你在创业板出没,应该有相关经验吧,技术成功远远不等于产品成功,
产品成功可能因为其中一个因素做的很好,但更多时候是多种因素共同作用的结果
头条起家引以为傲的协同过滤 + 基于内容推荐,和里面的一些小技巧,新文章冷启动、热门文章推荐,你说这种我们不会吗?
当然也会的,只是限于投入,一开始肯定做不到头条那么好的效果,如果说头条现在是95分,那么我们去做,可能能达到80-85分。
假以时日,能优化到接近头条的水平,如果要做到达到或者超越头条的水平,就要引入更强的团队了。
这种技术我们也确确实实用在了几个媒体类客户那里,但是我认为不可能赶上头条的水平,因为短板太多了,头条的运营、内容、推广都是强项,全面领先于我们的客户。
能山寨APP,请教下,有什么更好的变现手段?
(不违法的那种,水木之前有个著名版友山寨QQ虽然挣了些钱,还是去吃牢饭了)
【 在 slowaction 的大作中提到: 】
: 简单说,如果你们公司有本事山寨app,服务器还感觉不出来
: 有这本事不会来干舆情的
: 有更好的变现方式
: ...................
--
FROM 221.218.214.*
这话又外行了,是不是以为舆情监控就只是采采数据?我只是和你谈了采集阶段的方案而已,因为你的HOOK方案也就只能做到这儿了,几台服务器,带宽够,IP够,采集短视频完全没问题。
但是后面的事儿你恐怕就不清楚了,后面还有很多事情要做,数据清洗、结构化、进大数据中台、做NLP、情感分析、新闻传播路径分析、传播预警、话题聚类、知识图谱构建、舆情报告、竞对分析、词云图等等,这些才是服务器资源消耗的大头。
我们已经基于这个领域的数据做了很多功能了。基于文本这块分析做得很成熟,不过主要做的都是B端的业务为主而已。
短视频也在做,问题不是采不下来,而是视频的处理代价比较高,除了要音频转文字外,还要对画面做主体识别、OCR文字识别,舆情监控一般是通过关键词来监控,如何准确识别关键词和主体,排除歧义,对于短视频来说,成本和代价都比较高。
其实这个市场也没有那么大,做那么多年了,我还不知道这个市场的主要客户是谁吗?窄义的舆情监控服务这个市场现在也就几十亿的规模,其实算是很小的一个2B市场了,高峰的时候差不多有上千家公司做这个,一般一个标准产品售价在几万。竞争还是比较激烈的。广义的有很多舆情方面的服务,比如舆情态势分析,舆情应对策略指导,舆情人工报告。
【 在 slowaction 的大作中提到: 】
: 你把别人当外行
: 那我告诉你,全国所有做相关工作的都需要那几个应用的数据,不过现在没人做得好
: 你们公司几台服务器能搞定,赶快去发财吧
--
FROM 221.218.214.*
安全和便利总是相对的,基本不存在APP愿意主动被被人爬数据的情况,
所以按你的理论,只有对方菜的可能,然而抖音和快手作为Top APP,显然不菜。这两个也是不成立的。
除了某些封闭程度较高的APP外(如微信),
大部分APP是开放的,或多或少都属于社交网络的一部分,
那么通过六度人脉理论,可以通过爬取账号的公开关系,不断地获取到好友,然后抓取好友的好友,以自己到直接好友为一度人脉,依次类推。
社交关系网络的构成是节点和边,人物就是节点,边(连线)即是关系。
当然,有些APP对社交关系保护很好,不过,为了提高内容的访问量、互动量,通常都会鼓励用户分享内容出现在好友的Timeline上,通过这种分享,我们可以就可以顺藤摸瓜,不断地去发现新的内容,然后通过内容来获取用户的资料。
【 在 slowaction 的大作中提到: 】
: 随便一个应用,你有本事开发个程序,能和他互联互通
: 你自己想想这是什么概念
: 几台服务器能爬全量数据只有两个可能
: ...................
--
FROM 221.218.214.*
你说的微信这个例子,
不是爬虫能做到的,这不叫采集,
这是用非法手段获取个人数据。
舆情监控是用正规手段获取公开数据。谢谢。
言尽于此,你要真不懂我也没辙了。
【 在 slowaction 的大作中提到: 】
: 提供web接口服务的都很容易用机器人的方式实现
: 抖音和YouTube是完全不同的东西
: 几台服务器爬几百万的数据,那是服务允许你爬
: ...................
--
FROM 221.218.214.*
不要顾左右而言其它,你能说出点道道来,也算是老码农了,能不能来点干货,这样讨论太累。
技术点我一一给你剖析,也都是已经实现和落地的方案,不是什么所谓PPT方案,你一上来就盖帽,说唬人,自以为站在前沿,这种盖帽,有何意义?
我字里行间没说过自己站在前沿,只是把技术点掰开揉碎了给你解释,反倒是你,有点耍赖的感觉,自己听不懂就不停否定别人,来来回回就是扯那两句,
扯到后面没话说了,什么上亿的项目都出来了,舆情这行单个项目能上亿的我还真没见过,
你发出来让我长长见识吧,发个招标公告和中标公告的编号就行,我自己查。别的多余的没有意义的话不用回了。
奉劝一句,技术这行日新月异,只有活到老,学到老,才不至于落伍,能够自我否定、主动打破原有知识框架的认知,跳出更广阔的天地,才能进步。
【 在 slowaction 的大作中提到: 】
: 拿忽悠客户方案来吓唬谁?
: 拿web接口爬网页,还爬没有风控的站
: 就以为自己站在前沿了
: ...................
--
FROM 221.218.214.*