scrapy-redis 和 scrapy 有什么区别

scrapy 是一个 Python 爬虫框架，爬取效率极高，但是不支持分布式。而 scrapy-redis 是一套基于 redis 数据库、运行在 scrapy 框架之上的组件，可以让 scrapy 支持分布式策略， Slaver 端共享 Master 端 redis 数据库里的 item 队列、请求队列和请求指纹集合。

一、scrapy-redis

scrapy-redis是scrapy框架基于redis数据库的组件，用于scrapy项目的分布式开发和部署。

scrapy-redis使用redis list存放待爬取的request
scrapy-redis在setting配置SCHEDULER = “scrapy_redis.scheduler.Scheduler”替换原本的待爬取队列。使用redis进行任务分发与调度，把所有待爬取的请求都放入redis，所有爬虫都去redis读取请求。
Scrapy-Redis中的去重是由Duplication Filter组件实现的，该组件利用Redis中set集合不重复的特性，巧妙地实现了这个功能。首先Scrapy-Redis调度器接收引擎递过来的请求，然后将这个请求指纹存入set集合中检查是否重复，并把不重复的请求加入到Redis的请求队列中。
scrapy-redis不再使用原有的Spider类，重写RedisSpider继承Spider和RedisMixin类。当我们生成一个Spider继承RedisSpider时，调用setup_redis函数，这个函数会去连接redis数据库，然后会设置signals(信号)：一个是当spider空闲时候的signal，会调用spider_idle函数，这个函数调用schedule_next_request函数，保证spider是一直活着的状态，并且抛出DontCloseSpider异常。一个是当抓到一个item时的signal，会调用item_scraped函数，这个函数会调用schedule_next_request函数，获取下一个request。

二、scrapy

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。Scrapy是一个适用爬取网站数据、提取结构性数据的应用程序框架，它可以应用在广泛领域：Scrapy 常应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过 Scrapy 框架实现一个爬虫，抓取指定网站的内容或图片。

调度器、管道不可以被分布式集群共享
scrapy使用改造后的collection.deque（双端队列）存放待爬取的request
scrapy中跟待爬取队列直接相关的是Scheduler（调度器），scheduler负责对新的requests进行入列操作，把待爬取的队列安装优先级建立字典，根据request中的priority属性做优先级（越小的优先级越高）进行出队列操作(不能共享)。
scrapy把已发送的request指纹放到集合中，下一个request指纹拿到集合中对比，存在说明已经爬取过不继续执行操作。

三、scrapy-redis 和 scrapy 的区别

scrapy 是一个 Python 爬虫框架，爬取效率极高，具有高度定制性，但是不支持分布式。而 scrapy-redis 是一套基于 redis 数据库、运行在 scrapy 框架之上的组件，可以让 scrapy 支持分布式策略， Slaver 端共享 Master 端 redis 数据库里的 item 队列、请求队列和请求指纹集合。

Scrapy 是一个通用的爬虫框架，但是不支持分布式，Scrapy-redis是为了更方便地实现Scrapy分布式爬取，而提供了一些以redis为基础的组件(仅有组件)。

1、Scheduler

Scrapy改造了python本来的collection.deque(双向队列)形成了自己的Scrapy queue，但是Scrapy多个spider不能共享待爬取队列Scrapy queue，即Scrapy本身不支持爬虫分布式，scrapy-redis 的解决是把这个Scrapy queue换成redis数据库（也是指redis队列），从同一个redis-server存放要爬取的request，便能让多个spider去同一个数据库里读取。

Scrapy中跟“待爬队列”直接相关的就是调度器Scheduler，它负责对新的request进行入列操作（加入Scrapy queue），取出下一个要爬取的request（从Scrapy queue中取出）等操作。它把待爬队列按照优先级建立了一个字典结构，然后根据request中的优先级，来决定该入哪个队列，出列时则按优先级较小的优先出列。为了管理这个比较高级的队列字典，Scheduler需要提供一系列的方法。但是原来的Scheduler已经无法使用，所以使用Scrapy-redis的scheduler组件。

2、Duplication Filter

Scrapy中用集合实现这个request去重功能，Scrapy中把已经发送的request指纹放入到一个集合中，把下一个request的指纹拿到集合中比对，如果该指纹存在于集合中，说明这个request发送过了，如果没有则继续操作。

在scrapy-redis中去重是由Duplication Filter组件来实现的，它通过redis的set 不重复的特性，巧妙的实现了Duplication Filter去重。scrapy-redis调度器从引擎接受request，将request的指纹存⼊redis的set检查是否重复，并将不重复的request push写⼊redis的 request queue。

引擎请求request(Spider发出的）时，调度器从redis的request queue队列⾥里根据优先级pop 出⼀个request 返回给引擎，引擎将此request发给spider处理。

3、Item Pipeline

引擎将(Spider返回的)爬取到的Item给Item Pipeline，scrapy-redis 的Item Pipeline将爬取到的 Item 存⼊redis的 items queue。修改过Item Pipeline可以很方便的根据 key 从 items queue 提取item，从⽽实现 items processes集群。

4、Base Spider

不在使用scrapy原有的Spider类，重写的RedisSpider继承了Spider和RedisMixin这两个类，RedisMixin是用来从redis读取url的类。

当我们生成一个Spider继承RedisSpider时，调用setup_redis函数，这个函数会去连接redis数据库，然后会设置signals(信号)：

一个是当spider空闲时候的signal，会调用spider_idle函数，这个函数调用schedule_next_request函数，保证spider是一直活着的状态，并且抛出DontCloseSpider异常。
一个是当抓到一个item时的signal，会调用item_scraped函数，这个函数会调用schedule_next_request函数，获取下一个request。

延伸阅读

scrapy-redis特征

分布式爬取：您可以启动多个spider工程，相互之间共享单个redis的requests队列。非常适合广泛的多个域名网站的内容爬取。
分布式数据处理：爬取到的scrapy的item数据可以推入到redis队列中，这意味着你可以根据需求启动尽可能多的处理程序来共享item的队列，进行item数据持久化处理。
Scrapy即插即用组件：Scheduler调度器 + Duplication复制过滤器，Item Pipeline，基本spider。