Skip to content

基于 springboot 底座、webmagic 爬虫内核、xxl-job 任务定时调度实现的分布式爬虫平台

Notifications You must be signed in to change notification settings

hooyantsing/webmagic-job

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

webmagic-job

基于 springboot 底座、webmagic 爬虫内核、xxl-job 任务定时调度实现的分布式爬虫平台。

Java SpringBoot Webmagic Xxl-job Mysql

架构设计

调度中心:任务发布、定时、调度、日志和统计

爬虫执行器:分布式部署、多线程执行任务,采集数据并自动入库

平台特性

  • 优雅的 json 格式配置文件;
  • 不受限制的字段定义以及多页面层层跳转;
  • 通过代理、分布式和多线程方式执行任务,高效采集数据;
  • 支持定时任务,采集到数据自动入库。

使用说明

本项目提供了爬虫执行器,调度中心需另下载 xxl-job 项目中的 xxl-job-admin 模块

将 xxl-job 项目提供的数据库脚本(xxl-job.sql)中的 executor_param 字段改为 text 类型。本项目已提供修改好的脚本见步骤1

  1. 执行 db/xxl_job.sql 脚本,创建 MySQL 数据库;
  2. 拉起 xxl-job-adminwebmagic-job-executor (多)实例;
  3. 进入调度中心,任务管理,运行模式选择如 BEAN,JobHandler 选择如 ListDetailJobHandler
  4. 测试 webmagic-job-executor/src/main/resources/task-example 路径下的配置文件。

许可协议

暂无

About

基于 springboot 底座、webmagic 爬虫内核、xxl-job 任务定时调度实现的分布式爬虫平台

Topics

Resources

Stars

Watchers

Forks