GitHub - baronblog/scrapyredis: 使用Scrapy Redis完成分布式爬虫爬取Jumia电商网站数据

Scrapy 分布式爬虫

Python3.6 Scrapy1.5 Redis2.1

实现思路图如下：

开始从自己编写的业务爬虫开始，发送request请求到engine，spider主要是确定要下载的网页，engine主要是负责所有组件之间的数据流
之后engine把request请求发送给scheduler，并将它们排入队列，之后engine从scheduler中一个个开始拉取request请求，发送给downloader，途中会经过下载中间件
下载完成之后便返回，途中还会经过中间件，中间件会把获取到的结果发给engine，engine然后会给spider发送一个response，在这途中会经过中间件
spider处理后经过中间件把处理后的数据和下一个要请求的发送给engine，引擎将处理后的数据发给管道(包括item和piplines)，完成一次循环过程，之后engine又再从scheduler

分布式爬虫思路：

Name		Name	Last commit message	Last commit date
Latest commit History 38 Commits
jumia		jumia
scrapy_redis		scrapy_redis
README.md		README.md
main.py		main.py
requirment.txt		requirment.txt
scrapy.cfg		scrapy.cfg