scrapy-redis怎么暂停 • Worktile社区

不及物动词

这个人很懒，什么都没有留下～

Scrapy-Redis是一个基于Scrapy框架的分布式爬虫解决方案，可以实现多台爬虫节点的协同工作。当需要暂停Scrapy-Redis爬虫时，可以采取以下方法：

爬虫代码中添加暂停的逻辑：
在Scrapy-Redis爬虫的代码中，可以使用信号量或者标志位来控制是否暂停。例如，在爬虫的parse方法中，可以判断一个全局变量是否为True，若为True则暂停爬虫的工作，否则继续进行。
使用Redis的键值对来控制爬虫的暂停：
Scrapy-Redis利用Redis作为分布式队列来管理爬虫的任务。可以在Redis中设置一个键值对来控制爬虫的状态，当值为1时表示爬虫暂停，为0时表示爬虫继续。
使用控制台命令暂停爬虫：
在Scrapy-Redis的控制台中，可以通过输入指令来暂停爬虫。例如，输入命令scrapy-redis-cli pause spider_name即可暂停名为spider_name的爬虫。
使用分布式任务管理工具暂停爬虫：
可以使用分布式任务管理工具如Celery或RabbitMQ来管理爬虫的任务队列，通过暂停任务队列的消费者，从而实现爬虫的暂停。

无论采用哪种方法，暂停措施应该尽可能地保证在爬虫暂停后能够准确地恢复到之前的状态，以便能够在恢复后继续进行爬取工作。

1年前 0条评论

fiy

Worktile&PingCode市场小伙伴

在使用Scrapy-Redis时，有几种方法可以暂停爬虫的执行：

在settings.py中配置一个DOWNLOAD_DELAY参数，可以设置每个请求之间的延迟时间。这样可以让爬虫在发送请求之间暂停一段时间。
通过设置CONCURRENT_REQUESTS参数，可以限制整个爬虫同时发送的请求数量。将其设置为1，则爬虫每次只发送一个请求，然后暂停一段时间再发送下一个请求。
使用middlewares中的RetryMiddleware中间件，可以设置一个重试延迟时间。当请求失败时，中间件会在指定的时间间隔后自动重新发送请求。
自定义一个Spider Middleware，在请求发送之前检查是否需要暂停爬虫的执行。可以根据需要在middleware中添加逻辑来控制何时暂停爬虫。
在爬虫程序中使用信号机制控制爬虫的暂停。可以使用crawler.signals模块中的信号来捕获在爬虫执行过程中的事件，并根据事件类型来判断是否需要暂停爬虫的执行。

这些方法都可以根据实际需求来选择。需要注意的是，要确保暂停的时间合理，不要对网站造成过大的负担或者触发反爬机制。同时，要根据具体需求和网站的反爬机制来调整暂停策略，以达到良好的爬取效果。

1年前 0条评论

worktile

Worktile官方账号

Scrapy-Redis是一个基于Scrapy框架的插件，可以实现分布式爬虫。当我们需要对爬虫进行暂停时，可以使用Scrapy-Redis提供的一些功能。

下面是暂停Scrapy-Redis爬虫的方法和操作流程：

在项目的settings.py文件中配置Redis连接：

# 启用Scrapy-Redis的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 启用Scrapy-Redis的去重过滤器
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 配置Redis服务器地址
REDIS_URL = 'redis://localhost:6379'

在爬虫的spider文件中初始化Redis调度器和去重过滤器：

import scrapy
from scrapy_redis.spiders import RedisSpider

class MySpider(RedisSpider):
    name = 'myspider'
    redis_key = 'myspider:start_urls'

    def __init__(self, *args, **kwargs):
        # 初始化Redis调度器
        self.scheduler = scrapy_redis.scheduler.Scheduler.from_settings(self.settings)

        # 初始化Redis去重过滤器
        self.dupefilter = scrapy_redis.dupefilter.RFPDupeFilter.from_settings(self.settings)

        super().__init__(*args, **kwargs)

在爬虫中添加暂停功能的代码：

    def parse(self, response):
        # 获取爬虫状态
        paused = self.settings.getbool('PAUSED')

        # 如果爬虫处于暂停状态，则不进行任何操作
        if paused:
            return

        # 正常进行爬取操作
        # ...

    def closed(self, reason):
        # 获取爬虫状态
        paused = self.settings.getbool('PAUSED')

        # 如果爬虫处于暂停状态，则不进行任何操作
        if paused:
            return

        # 正常进行爬虫结束的操作
        # ...

    def pause_spider(self):
        # 将爬虫状态设置为暂停
        self.settings.set('PAUSED', True)

        # 清空调度器和去重过滤器中的任务队列
        self.scheduler.flush_pending_requests(self)
        self.dupefilter.clear()

        # 打印日志
        self.logger.info("Spider paused")

在项目的pipeline文件中定义一个管道，用于接收暂停信号：

from scrapy.exceptions import NotConfigured

class PauseSpiderPipeline(object):

    def __init__(self, paused, spider):
        self.paused = paused
        self.spider = spider

    @classmethod
    def from_crawler(cls, crawler):
        if not crawler.spider.settings.getbool('PAUSE_ENABLED'):
            raise NotConfigured

        paused = crawler.spider.settings.getbool('PAUSED')
        pipeline = cls(paused, crawler.spider)
        crawler.signals.connect(pipeline.pause_spider, signal=signals.spider_closed)
        return pipeline

    def process_item(self, item, spider):
        if self.paused:
            raise DropItem("Spider paused")

        return item

    def pause_spider(self, spider):
        self.paused = True

在项目的settings.py文件中启用该管道：

ITEM_PIPELINES = {
    'myproject.pipelines.PauseSpiderPipeline': 300,
}
PAUSE_ENABLED = True

通过以上步骤，当需要暂停Scrapy-Redis爬虫时，可以调用pause_spider方法，将爬虫状态设置为暂停。当爬虫处于暂停状态时，所有请求都会被丢弃，并且不会再进行新的请求。可以通过修改settings.py中的PAUSED状态来控制爬虫的暂停和继续操作。

1年前 0条评论