一、数据获取
我们选取大多数人购物最常光顾的两个网站——京东、天猫,并选取一些品牌商品销量最大或关注度最高的店铺——一般就是官方自营店或旗舰店,采用request或selenium记录下京东、天猫用户的评论数据。不论京东还是天猫,用户评论数据都默认展示100页,每个店铺评论数据可以使用一个url携带cookie获得,返回的对象包含在一个json对象中。通过对json对象进行“拆包”便可获取用户评论的内容、时间、id等关键信息。
二、数据预处理
我们将京东、天猫数据合并,并增加一列用户的评分,由于天猫原始数据不展示用户对该商品的评分,所以我们使用第三方的开源平台——百度飞浆对评论进行情感分析,该分析返回一段文字为正面情感的概率,那么我们将该值乘以5,作为对此条用户评论的评分,这样做的好处是不需要训练数据并省去了模型训练的过程。
三、数据探索(data exploration)阶段
基于上述评论数据和用户评分,我们可以按照品牌、渠道(京东、天猫)等不同的维度查看用户评论数据,在此我们将数据可视化结果展示如下,有兴趣的读者可以查看原文:
https://mp.weixin.qq.com/s?__biz ... 08269&lang=zh_CN#rd,并后台留言获取完整notebook
三、部分结果展示限于篇幅,我们只展示部分分析结果
3.1用品评论的时间分布
从图中我们可以看出,我们选取的28000余条婴儿用品用户评论数据的时间分布,在疫情最为严重的2020年一季度,评论数据最为稀少,此后的高峰出现在6月和11月,这恰好与两大电商的传统促销时间6.18,双11吻合。此外,2021年双11的用户评论明显多于2020年11月,2021年四季度用户评论数据也多于2020年四季度,考虑到国家全面放开3胎的时间为2021年5月,不排除2022年有可能会出现一波生育小高峰,当然具体数字还需要各位等待统计局的公布。
3.2各渠道(京东、天猫)按商品大类婴儿用品用户评论的时间分布
从图中我们可以看出,婴儿车、婴儿床等耐用品的用户评论数,天猫远远多于京东,而纸尿裤、1段奶粉两类快消品在2020年时,天猫的评论数据多于京东,2021年后出现了反转,更为奇特的是6月作为京东618传统促销季,11月作为天猫双11传统促销季,这两个月出现了天猫商品评论数和京东商品评论数倒挂的现象,这可能说明京东、天猫在对方促销季推出了更优惠的力度,从而促使用户购买量激增。
3.3各渠道(京东、天猫)一段奶粉评论的字数分布
从图中我们可以看出,京东用户撰写评论显然更走心,字数均值都在100字左右,而天猫用户普遍不到50字。从品牌看,爱他美和A2的奶粉用户评论较多,而君乐宝的用户评论最少。上图使用的图表类型为箱线图,关注本频道的读者们对于这种类型的图表应该不陌生,它能直观反映一组数据的最小值、25%分位数、中位数、75%分位数和最大值,以及最大值上面无统计意义的偏离值。不过对于用户评论字数的统计,最大值上方的散点可以反映重度用户,也就是撰写评论字数特别多用户的数量以及他们所撰写的评论数。
3.4各一段奶粉品牌用户评分
从条数看,飞鹤的5星好评条数虽然最多,但这可能与其本身销量大,用户评价多有关系,如果从5星好评占比看,飞鹤则滑落至垫底,A2评价最高。上述按百分比形成的堆叠图,小编也放到了notebook中,并封装成了一个函数,有兴趣的读者可以直接查看并使用。
3.5各一段奶粉品牌用户评论形成的词云
四、结语
用户评论作为电商平台重要的数据不仅可以为我们网购提供参考,我们认为除此之外还蕴含着巨大的价值,至少有以下一些功能和用户:
1、通过评论的时间分布,反向推算商品的销量以及618,双11的促销力度和用户购买量;
2、通过评论字数的比较可以看出用户对不同品牌商品的关注度;
3、如果某些电商平台——如天猫未提供逐条评论的用户评分值,那么我们可以基于第三方人工智能库,如本文使用的百度飞浆进行用户评论的情感分析,这样就能够基于用户的评论文字大致给出对本次购物的评分;
4、通过用户评论的词云,我们能够直观展示不同品牌商品的差异化优势,而对于一些正面评价的词语如“好”,“不错”,如果字体越大,那么用户的整体好评也越高。
--
FROM 123.119.234.*