java 爬虫,采用webmagic框架。目的爬取百度贴吧的数据,并做一些统计与数据分析,非商业,纯属个人娱乐。近期工作项目有用到爬虫,便开始学习并写了个demo。 采用的是webmagic爬虫框架,爬取的内容有:帖子,帖子回复,用户主页。项目为springboot 1.5.7版本,提供数据持久化,前端采用echart做数据分析图表展示。 百度贴吧的数据只能爬取到99999页,即不超过10万页,再往后就访问不了了。起初我是想爬取本校贴吧,看看大家都在聊啥,哪年那个帖子最火、词云等等,后来发现,百度贴吧其实风格都一样。 希望这个项目能给初学 java 爬虫的有些帮助,大家也可以把环境搭建起来,爬取自己学校的贴吧。^_^ -
-------------------- 本文来自 miserchen_cy 的CSDN 博客 ,全文地址请点击:https://blog.csdn.net/sinat_22767969/article/details/82953774?utm_source=copy
Author | 陈超允 |
---|---|
873692191@qq.com |
- springboot 1.5.7
- springMVC+Rest+EChart...
- tx.mybatis 3.4.6
- hikari 连接池
- webmagic 0.7.3(修改版,修复https问题与log优化 下载地址:https://download.csdn.net/download/sinat_22767969/10703880)
- mysql 5.7.17 (支持utf8mb4字符编码)
-
用户表 user
-
用户关注贴吧表 user_tbs
-
帖子表 post
-
回帖表 comment
-
分词表 word_divide