- 主题:Re: [原创]需求开发团队(舆情监控软件及工具类)
这话又外行了,是不是以为舆情监控就只是采采数据?我只是和你谈了采集阶段的方案而已,因为你的HOOK方案也就只能做到这儿了,几台服务器,带宽够,IP够,采集短视频完全没问题。
但是后面的事儿你恐怕就不清楚了,后面还有很多事情要做,数据清洗、结构化、进大数据中台、做NLP、情感分析、新闻传播路径分析、传播预警、话题聚类、知识图谱构建、舆情报告、竞对分析、词云图等等,这些才是服务器资源消耗的大头。
我们已经基于这个领域的数据做了很多功能了。基于文本这块分析做得很成熟,不过主要做的都是B端的业务为主而已。
短视频也在做,问题不是采不下来,而是视频的处理代价比较高,除了要音频转文字外,还要对画面做主体识别、OCR文字识别,舆情监控一般是通过关键词来监控,如何准确识别关键词和主体,排除歧义,对于短视频来说,成本和代价都比较高。
其实这个市场也没有那么大,做那么多年了,我还不知道这个市场的主要客户是谁吗?窄义的舆情监控服务这个市场现在也就几十亿的规模,其实算是很小的一个2B市场了,高峰的时候差不多有上千家公司做这个,一般一个标准产品售价在几万。竞争还是比较激烈的。广义的有很多舆情方面的服务,比如舆情态势分析,舆情应对策略指导,舆情人工报告。
【 在 slowaction 的大作中提到: 】
: 你把别人当外行
: 那我告诉你,全国所有做相关工作的都需要那几个应用的数据,不过现在没人做得好
: 你们公司几台服务器能搞定,赶快去发财吧
--
FROM 221.218.214.*
安全和便利总是相对的,基本不存在APP愿意主动被被人爬数据的情况,
所以按你的理论,只有对方菜的可能,然而抖音和快手作为Top APP,显然不菜。这两个也是不成立的。
除了某些封闭程度较高的APP外(如微信),
大部分APP是开放的,或多或少都属于社交网络的一部分,
那么通过六度人脉理论,可以通过爬取账号的公开关系,不断地获取到好友,然后抓取好友的好友,以自己到直接好友为一度人脉,依次类推。
社交关系网络的构成是节点和边,人物就是节点,边(连线)即是关系。
当然,有些APP对社交关系保护很好,不过,为了提高内容的访问量、互动量,通常都会鼓励用户分享内容出现在好友的Timeline上,通过这种分享,我们可以就可以顺藤摸瓜,不断地去发现新的内容,然后通过内容来获取用户的资料。
【 在 slowaction 的大作中提到: 】
: 随便一个应用,你有本事开发个程序,能和他互联互通
: 你自己想想这是什么概念
: 几台服务器能爬全量数据只有两个可能
: ...................
--
FROM 221.218.214.*
你说的微信这个例子,
不是爬虫能做到的,这不叫采集,
这是用非法手段获取个人数据。
舆情监控是用正规手段获取公开数据。谢谢。
言尽于此,你要真不懂我也没辙了。
【 在 slowaction 的大作中提到: 】
: 提供web接口服务的都很容易用机器人的方式实现
: 抖音和YouTube是完全不同的东西
: 几台服务器爬几百万的数据,那是服务允许你爬
: ...................
--
FROM 221.218.214.*
拿忽悠客户方案来吓唬谁?
拿web接口爬网页,还爬没有风控的站
就以为自己站在前沿了
你找个明白人问问,那些上亿大项目都怎么做的
取的什么数据,怎么取的
【 在 Suley 的大作中提到: 】
: 这话又外行了,是不是以为舆情监控就只是采采数据?我只是和你谈了采集阶段的方案而已,因为你的HOOK方案也就只能做到这儿了,几台服务器,带宽够,IP够,采集短视频完全没问题。
: 但是后面的事儿你恐怕就不清楚了,后面还有很多事情要做,数据清洗、结构化、进大数据中台、做NLP、情感分析、新闻传播路径分析、传播预警、话题聚类、知识图谱构建、舆情报告、竞对分析、词云图等等,这些才是服务器资源消耗的大头。
: 我们已经基于这个领域的数据做了很多功能了。基于文本这块分析做得很成熟,不过主要做的都是B端的业务为主而已。
: ...................
--
FROM 114.242.249.*
其实也说不上是正规手段。这怎么说都是灰色地带。
【 在 Suley (丹生-人工智能与大数据) 的大作中提到: 】
: 你说的微信这个例子,
: 不是爬虫能做到的,这不叫采集,
: 这是用非法手段获取个人数据。
: ...................
--
FROM 59.60.57.*
不要顾左右而言其它,你能说出点道道来,也算是老码农了,能不能来点干货,这样讨论太累。
技术点我一一给你剖析,也都是已经实现和落地的方案,不是什么所谓PPT方案,你一上来就盖帽,说唬人,自以为站在前沿,这种盖帽,有何意义?
我字里行间没说过自己站在前沿,只是把技术点掰开揉碎了给你解释,反倒是你,有点耍赖的感觉,自己听不懂就不停否定别人,来来回回就是扯那两句,
扯到后面没话说了,什么上亿的项目都出来了,舆情这行单个项目能上亿的我还真没见过,
你发出来让我长长见识吧,发个招标公告和中标公告的编号就行,我自己查。别的多余的没有意义的话不用回了。
奉劝一句,技术这行日新月异,只有活到老,学到老,才不至于落伍,能够自我否定、主动打破原有知识框架的认知,跳出更广阔的天地,才能进步。
【 在 slowaction 的大作中提到: 】
: 拿忽悠客户方案来吓唬谁?
: 拿web接口爬网页,还爬没有风控的站
: 就以为自己站在前沿了
: ...................
--
FROM 221.218.214.*
是,不过这些APP的运营方也不爱招惹舆情监控公司,毕竟背后的客户都是政务客户为主,拿来分析商业数据的还是极少,其实和他们利益点没有太大冲突,搞他们没有太大意义,惹到背后的客户还搞得自己一身骚。
当然,有些公司自己亲自下场来玩,利益也确实有些冲突,比如新浪舆情通,不过他们也是抱着变现的目的来玩,数据掏钱就能买,都不用爬了,只是数据往外售卖的成本比自己爬还要贵。
所以新浪商业化的数据也只是作为VIP客户的一个升级选项。
【 在 hgoldfish 的大作中提到: 】
: 其实也说不上是正规手段。这怎么说都是灰色地带。
:
--
修改:Suley FROM 221.218.214.*
FROM 221.218.214.*
没人问你数据分析的事,你自己贴一堆名词
玩这种忽悠行政领导的路子
有事没事说大数据 NLP 图谱的没一个真正做技术的
说出点东西来,国内相关部门都关注那几个应用的数据
有本事你去搞下来,就不用做几万块的小单
你没接触过不公开招标的项目
说明你还没走到这个方向的核心
根本不知道别人在做什么,用什么方式做
【 在 Suley 的大作中提到: 】
: 不要顾左右而言其它,你能说出点道道来,也算是老码农了,能不能来点干货,这样讨论太累。
: 技术点我一一给你剖析,也都是已经实现和落地的方案,不是什么所谓PPT方案,你一上来就盖帽,说唬人,自以为站在前沿,这种盖帽,有何意义?
: 我字里行间没说过自己站在前沿,只是把技术点掰开揉碎了给你解释,反倒是你,有点耍赖的感觉,自己听不懂就不停否定别人,来来回回就是扯那两句,
: ...................
--
FROM 114.242.249.*
你不懂的东西就说不懂呗,没人嘲笑你,但是你说NLP、图谱没用,抱歉,我觉得是你眼界不够。
毕竟从你的回复里,我大致能了解到你的技术栈,恐怕还停留在上古时代。
我说的每项技术,对现代舆情监控系统都非常重要。这是提升舆情分析能力和水平的重要抓手,
不纠结这个了,你可以继续抱着你的上古技术栈吃老本。我也不感兴趣。没必要就这个争论了。
你就说个公司名吧,我很好奇这个领域,哪个公司没有几万块到十几万的SaaS系统走量,
而是专门卖几千万上亿的定制舆情系统,哪怕人民网,也有便宜的SaaS版本给定制不起的客户。什么时候出来这么一个隐形巨头,我都不知道?
还有哪个项目,上亿的预算,不走招投标流程的,也欢迎给我开开眼界。你就说一个部门关键词或者项目关键词就行,让我开开眼。别故弄玄虚,说什么项目你不够层次,接触不到这种屁话。
舆情的部分标的已经将视频类应用纳入里面了,另外,也有专门的舆情项目指定要短视频平台,自己随便搜吧,比如我给你一个项目名,你自己找找,”北京网络视听舆情监测分析项目”,总价不过90多万而已,已经能包含短视频平台、直播平台的抓取了。
以下是要求,
“简要技术要求:全天候监测重点视听网站、短视频平台、直播平台、社交媒体、资讯聚合平台、社区论坛等各类互联网平台的技术能力,监测平台总数约80家,能够及时为采购人搜索、监测、分析热点敏感舆情信息,对传播态势进行研判预测,制定舆情响应处理策略。”
有料就上干货,来点能查证的事儿,也让我开开眼界。
【 在 slowaction 的大作中提到: 】
: 没人问你数据分析的事,你自己贴一堆名词
: 玩这种忽悠行政领导的路子
: 有事没事说大数据 NLP 图谱的没一个真正做技术的
: ...................
--
FROM 221.218.214.*
你的项目密级究竟有多高,连雇海外社交平台water army账号到国外去影响舆论的项目都要公开招标,那个项目我没记错的话才区区几十万,虽然最后爆出来了应该紧急撤掉了。你究竟是啥项目,一个亿还不招标。(民企有一个亿左右的舆情项目吗?基本不可能吧)
希望你不要找理由,就是不公布这个项目的情况,那样谁也无法查证。
【 在 slowaction 的大作中提到: 】
: 没人问你数据分析的事,你自己贴一堆名词
: 玩这种忽悠行政领导的路子
: 有事没事说大数据 NLP 图谱的没一个真正做技术的
: ...................
--
FROM 221.218.214.*