基于 springboot 底座、webmagic 爬虫内核、xxl-job 任务定时调度实现的分布式爬虫平台。
调度中心:任务发布、定时、调度、日志和统计
爬虫执行器:分布式部署、多线程执行任务,采集数据并自动入库
- 优雅的 json 格式配置文件;
- 不受限制的字段定义以及多页面层层跳转;
- 通过代理、分布式和多线程方式执行任务,高效采集数据;
- 支持定时任务,采集到数据自动入库。
本项目提供了爬虫执行器,调度中心需另下载 xxl-job 项目中的
xxl-job-admin
模块
将 xxl-job 项目提供的数据库脚本(xxl-job.sql)中的
executor_param
字段改为text
类型。本项目已提供修改好的脚本见步骤1
- 执行
db/xxl_job.sql
脚本,创建 MySQL 数据库; - 拉起 xxl-job-admin 和 webmagic-job-executor (多)实例;
- 进入调度中心,任务管理,运行模式选择如
BEAN
,JobHandler 选择如ListDetailJobHandler
; - 测试
webmagic-job-executor/src/main/resources/task-example
路径下的配置文件。