date | title | id |
---|---|---|
2019-01-05 08:56:54 -0800 |
用python对鹿晗微博进行数据分析 |
52369 |
- 评论者的微博昵称
- 微博的评论
- 评论者的性别
- 评论者的所在地
- 评论者的生日
这次的数据准备了30万+评论,其中不重复用户14万+。数据只是简单的进行了简单的去重和缺失值处理,感觉不用特别精确也能看出结果。这次的分析不是最终的结果,只是可以参考的一个趋势
- 再来看看评论数的折线图
- 感觉在平稳的折线取值分析比较靠谱,所以放大了看看。
- 14万数据,出现一人几百条的也就那几个,所以把他们筛选掉。
- 在1000左右,人均的评论数差不多在20左右,才感觉不会是刷出来的。
- 之后再来说年龄分布
- 由于微博默认生日的原因,有好几个突出点,可以忽略,我也把范围截取到了1949年-2017年。
- 90后的峰值我预料到了,但是没想到00后会降的这么明显。难道真的都喜欢TF?本来想在爬一下TF的看看,不过感觉大同小异就没有再做。
- 之后看看具体排名吧:
- 第一是98年的同学,不过前几名差距不是很大,可能跟采集的数据有关系。
- 可以看出来00后只有 00、01、02在坚守阵地了。
- 90后真的老了吗。。。。。
- 最后来看看地区分析吧
- 先来看看省份和四个直辖市分布,北京第一,有一点可能好多人都改成了和鹿晗一样的东城区。。。所以可能不是很准确。
- 其次是广东,不知道为什么,好多刷量小号默认位置也是广东,不知是不是这个原因和北京并列。
- 河北排在了第9。。。
- 海淀区居然是第一,这个没有想到。
- 基本上分三个梯队吧,石家庄在第三梯队。
- 很尴尬的是,分词的时候把大连给分了?
- 从词云上可以看出来,评论中出现最多的词是鹿晗,这点并不意外。
- 其次,音乐,爱,零界点,棒棒糖等词也排在前面,我想是因为这次爬取得微博是棒棒糖那篇。
- 另外中间右部,
迪丽
也出现了,可能八卦的网友也不少啊。 - 整体感觉比较正能量,黑粉还是要少的多。
整体分析差不多就这样了,第一个项目做的有点慢,下次计划分析一下淘宝的商品信息,不过爬数据要花时间,可能会很久了。