Skip to content

Latest commit

 

History

History
73 lines (59 loc) · 4.14 KB

2019-01-05-2.md

File metadata and controls

73 lines (59 loc) · 4.14 KB
date title id
2019-01-05 08:56:54 -0800
用python对鹿晗微博进行数据分析
52369

准备分析的数据:

  • 评论者的微博昵称
  • 微博的评论
  • 评论者的性别
  • 评论者的所在地
  • 评论者的生日

这次的数据准备了30万+评论,其中不重复用户14万+。数据只是简单的进行了简单的去重和缺失值处理,感觉不用特别精确也能看出结果。这次的分析不是最终的结果,只是可以参考的一个趋势

用户分析

  • 首先来看看评论最多的前几名
  • 一个人一条微博评论800+,可能为Bot操作
  • 不知道前三十里面是不是全是真爱粉。

  • 再来看看评论数的折线图
  • 感觉在平稳的折线取值分析比较靠谱,所以放大了看看。
  • 14万数据,出现一人几百条的也就那几个,所以把他们筛选掉。
  • 在1000左右,人均的评论数差不多在20左右,才感觉不会是刷出来的。

  • 再看看性别,毫无疑问的。
  • 感觉这个结果还算正常,比计算机专业男女比大一点。

  • 之后再来说年龄分布
  • 由于微博默认生日的原因,有好几个突出点,可以忽略,我也把范围截取到了1949年-2017年。
  • 90后的峰值我预料到了,但是没想到00后会降的这么明显。难道真的都喜欢TF?本来想在爬一下TF的看看,不过感觉大同小异就没有再做。
  • 之后看看具体排名吧:
  • 第一是98年的同学,不过前几名差距不是很大,可能跟采集的数据有关系。
  • 可以看出来00后只有 00、01、02在坚守阵地了。
  • 90后真的老了吗。。。。。

  • 最后来看看地区分析吧

  • 先来看看省份和四个直辖市分布,北京第一,有一点可能好多人都改成了和鹿晗一样的东城区。。。所以可能不是很准确。
  • 其次是广东,不知道为什么,好多刷量小号默认位置也是广东,不知是不是这个原因和北京并列。
  • 河北排在了第9。。。

再来看看城市分布

  • 海淀区居然是第一,这个没有想到。
  • 基本上分三个梯队吧,石家庄在第三梯队。
  • 很尴尬的是,分词的时候把大连给分了?

最后看看整体城市分布比例吧,感觉石家庄有点小啊。


评论分析

  • 从词云上可以看出来,评论中出现最多的词是鹿晗,这点并不意外。
  • 其次,音乐,爱,零界点,棒棒糖等词也排在前面,我想是因为这次爬取得微博是棒棒糖那篇。
  • 另外中间右部,迪丽也出现了,可能八卦的网友也不少啊。
  • 整体感觉比较正能量,黑粉还是要少的多。

整体分析差不多就这样了,第一个项目做的有点慢,下次计划分析一下淘宝的商品信息,不过爬数据要花时间,可能会很久了。