scrapy-redis 和 scrapy 有什么区别

scrapy 是一个 Python 爬虫框架,爬取效率极高,但是不支持分布式。而 scrapy-redis 是一套基于 redis 数据库、运行在 scrapy 框架之上的组件,可以让 scrapy 支持分布式策略, Slaver 端共享 Master 端 redis 数据库里的 item 队列、请求队列和请求指纹集合。

scrapy-redis 和 scrapy 有什么区别-Worktile社区

一、scrapy-redis

scrapy-redis是scrapy框架基于redis数据库的组件,用于scrapy项目的分布式开发和部署。

  1. scrapy-redis使用redis list存放待爬取的request
  2. scrapy-redis在setting配置SCHEDULER = “scrapy_redis.scheduler.Scheduler”替换原本的待爬取队列。使用redis进行任务分发与调度,把所有待爬取的请求都放入redis,所有爬虫都去redis读取请求。
  3. Scrapy-Redis中的去重是由Duplication Filter组件实现的,该组件利用Redis中set集合不重复的特性,巧妙地实现了这个功能。首先Scrapy-Redis调度器接收引擎递过来的请求,然后将这个请求指纹存入set集合中检查是否重复,并把不重复的请求加入到Redis的请求队列中。
  4. scrapy-redis不再使用原有的Spider类,重写RedisSpider继承Spider和RedisMixin类。当我们生成一个Spider继承RedisSpider时,调用setup_redis函数,这个函数会去连接redis数据库,然后会设置signals(信号):一个是当spider空闲时候的signal,会调用spider_idle函数,这个函数调用schedule_next_request函数,保证spider是一直活着的状态,并且抛出DontCloseSpider异常。一个是当抓到一个item时的signal,会调用item_scraped函数,这个函数会调用schedule_next_request函数,获取下一个request。

二、scrapy

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy是一个适用爬取网站数据、提取结构性数据的应用程序框架,它可以应用在广泛领域:Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过 Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。

  1. 调度器、管道不可以被分布式集群共享
  2. scrapy使用改造后的collection.deque(双端队列)存放待爬取的request
  3. scrapy中跟待爬取队列直接相关的是Scheduler(调度器),scheduler负责对新的requests进行入列操作,把待爬取的队列安装优先级建立字典,根据request中的priority属性做优先级(越小的优先级越高)进行出队列操作(不能共享)。
  4. scrapy把已发送的request指纹放到集合中,下一个request指纹拿到集合中对比,存在说明已经爬取过不继续执行操作。

三、scrapy-redis 和 scrapy 的区别

scrapy 是一个 Python 爬虫框架,爬取效率极高,具有高度定制性,但是不支持分布式。而 scrapy-redis 是一套基于 redis 数据库、运行在 scrapy 框架之上的组件,可以让 scrapy 支持分布式策略, Slaver 端共享 Master 端 redis 数据库里的 item 队列、请求队列和请求指纹集合。

Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。

1、Scheduler

Scrapy改造了python本来的collection.deque(双向队列)形成了自己的Scrapy queue,但是Scrapy多个spider不能共享待爬取队列Scrapy queue, 即Scrapy本身不支持爬虫分布式,scrapy-redis 的解决是把这个Scrapy queue换成redis数据库(也是指redis队列),从同一个redis-server存放要爬取的request,便能让多个spider去同一个数据库里读取。

Scrapy中跟“待爬队列”直接相关的就是调度器Scheduler,它负责对新的request进行入列操作(加入Scrapy queue),取出下一个要爬取的request(从Scrapy queue中取出)等操作。它把待爬队列按照优先级建立了一个字典结构,然后根据request中的优先级,来决定该入哪个队列,出列时则按优先级较小的优先出列。为了管理这个比较高级的队列字典,Scheduler需要提供一系列的方法。但是原来的Scheduler已经无法使用,所以使用Scrapy-redis的scheduler组件。

2、Duplication Filter

Scrapy中用集合实现这个request去重功能,Scrapy中把已经发送的request指纹放入到一个集合中,把下一个request的指纹拿到集合中比对,如果该指纹存在于集合中,说明这个request发送过了,如果没有则继续操作。

在scrapy-redis中去重是由Duplication Filter组件来实现的,它通过redis的set 不重复的特性,巧妙的实现了Duplication Filter去重。scrapy-redis调度器从引擎接受request,将request的指纹存⼊redis的set检查是否重复,并将不重复的request push写⼊redis的 request queue。

引擎请求request(Spider发出的)时,调度器从redis的request queue队列⾥里根据优先级pop 出⼀个request 返回给引擎,引擎将此request发给spider处理。

3、Item Pipeline

引擎将(Spider返回的)爬取到的Item给Item Pipeline,scrapy-redis 的Item Pipeline将爬取到的 Item 存⼊redis的 items queue。修改过Item Pipeline可以很方便的根据 key 从 items queue 提取item,从⽽实现 items processes集群。

4、Base Spider

不在使用scrapy原有的Spider类,重写的RedisSpider继承了Spider和RedisMixin这两个类,RedisMixin是用来从redis读取url的类。

当我们生成一个Spider继承RedisSpider时,调用setup_redis函数,这个函数会去连接redis数据库,然后会设置signals(信号):

  • 一个是当spider空闲时候的signal,会调用spider_idle函数,这个函数调用schedule_next_request函数,保证spider是一直活着的状态,并且抛出DontCloseSpider异常。
  • 一个是当抓到一个item时的signal,会调用item_scraped函数,这个函数会调用schedule_next_request函数,获取下一个request。

延伸阅读

scrapy-redis特征

  1. 分布式爬取:您可以启动多个spider工程,相互之间共享单个redis的requests队列。非常适合广泛的多个域名网站的内容爬取。
  2. 分布式数据处理:爬取到的scrapy的item数据可以推入到redis队列中,这意味着你可以根据需求启动尽可能多的处理程序来共享item的队列,进行item数据持久化处理。
  3. Scrapy即插即用组件:Scheduler调度器 + Duplication复制 过滤器,Item Pipeline,基本spider。

文章标题:scrapy-redis 和 scrapy 有什么区别,发布者:Z, ZLW,转载请注明出处:https://worktile.com/kb/p/34714

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
Z, ZLW的头像Z, ZLW
上一篇 2023年1月8日 上午4:49
下一篇 2023年1月8日 上午6:07

相关推荐

  • 五行健康管理项目是什么

    五行健康管理项目是一种全新的健康管理理念,它根据中国传统五行理论(金、木、水、火、土)来制定个人的健康管理计划。五行健康管理项目主要包括以下几个方面:一、健康评估;二、个性化健康计划设计;三、执行健康计划;四、健康效果评估;五、健康管理计划调整。其中,健康评估是整个项目的基础,通过健康评估,我们可以…

    2024年8月6日
    000
  • 项目管理者需要什么证书

    对于项目管理者来说,拥有一份专业的证书可以提升其在业界的认可度和信任度。PMP(项目管理专业人员资格认证)、PRINCE2(项目内控环境)、CAPM(认证项目管理专家)、ACP(敏捷认证专家)以及CSM(认证Scrum主管)等证书都是项目管理者值得获取的。 以PMP证书为例,这是由美国项目管理协会(…

    2024年8月6日
    000
  • 项目经理是管理什么的

    项目经理是负责管理项目的专业人员,他们的主要职责是确保项目在预定的时间、预算和质量标准内完成。他们的工作涵盖了项目的所有方面,包括项目的规划、执行、控制和关闭。项目经理的主要任务包括:确定项目的目标和范围、制定详细的工作计划、管理项目的资源、监控项目的进度、处理项目中的问题和风险,以及确保项目的成功…

    2024年8月6日
    000
  • 项目化管理有什么意思呢

    项目化管理是一种以项目为主导,通过项目的规划、组织、实施和控制,实现组织目标的管理方式。它将业务流程转换为一个个独立的项目,每个项目都有明确的目标、特定的工期和预定的资源。项目化管理的核心是以项目为载体,实现组织的战略目标。 在项目化管理中,项目经理在项目期间对项目资源拥有相对完全的控制权,项目团队…

    2024年8月6日
    000
  • 自动化为什么学项目管理

    在当前的快速发展的科技环境下,项目管理已经成为实现业务目标的关键环节。自动化学习项目管理有三个主要的原因:提高工作效率、降低错误率、优化资源配置。 对于任何企业,最大化利用资源,提高工作效率是其核心的目标,而项目管理的运用则是实现这一目标的有效工具。通过自动化学习项目管理,我们可以系统地理解和应用项…

    2024年8月6日
    000

发表回复

登录后才能评论
注册PingCode 在线客服
站长微信
站长微信
电话联系

400-800-1024

工作日9:30-21:00在线

分享本页
返回顶部