- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

一日一技：为什么 Scrapy 启动 A 爬虫，B 爬虫会自动启动？

未闻Code 发表于 2022/01/29 20:32:24 2022/01/29

【摘要】在一个 Scrapy 项目里面，有两个爬虫 A 和 B，使用命令scrapy crawl B想启动 B 爬虫，但是发现 A 爬虫也自动运行了?

昨天有位同学在公众号俱乐部群问了这样一个问题：

他在一个 Scrapy 项目里面，有两个爬虫 A 和 B，他使用命令scrapy crawl B想启动 B 爬虫，但是发现 A 爬虫也自动运行了。

然后，这个同学贴上来他的爬虫代码：

看到这个代码，我就知道是怎么回事了。要解释这个现象，我们需要掌握两个知识点：

Scrapy 是怎么加载爬虫的？
Python 的类变量与实例变量的区别。

Scrapy 是怎么加载爬虫的？

我们知道，Scrapy 的 spiders 文件夹里面，可以定义很多个爬虫文件。只要每个爬虫文件的 name 的值不一样，那么，我们就可以使用scrapy crawl name 的值来启动特定的爬虫。

那么，Scrapy 它是怎么根据这个名字找到对应的类的呢？

实际上，在我们执行scrapy crawl xxx的时候，Scrapy 有几个主要的步骤：

首先遍历spiders 文件夹下面的所有文件，在这些文件里面，寻找继承了scrapy.Spider的类
获取每个爬虫类的name属性的值
添加到一个公共的字典里面{'name1': 爬虫类1, 'name2': '爬虫类2'}
获取scrapy crawl xxx具体要启动的那个爬虫的名字，从公共字典里面，找到这个名字对应的爬虫类
执行这个爬虫类，得到一个爬虫对象。然后调用爬虫对象的start_requests()方法

从这个过程我们可以知道，spiders 文件夹下面，每一个爬虫类都会被加载。

Python 的类属性和实例属性

在我们定义Python 类的时候，我们其实可以在类里面，所有方法的外面写代码，例如：

class Test:
    a = 1 + 1
    b = 2 + 2
    if a + b == 6:
        right = True 
    else:
        right = False
    def __init__(self):
        self.age = 100
        self.address = '上海'

大家注意这几行代码：

    a = 1 + 1
    b = 2 + 2
    if a + b == 6:
        right = True 
    else:
        right = False

他们不在任何方法里面的，这里面初始化的变量，叫做类变量或者类属性。而在__init__里面，初始化的self.age和self.address叫做实例属性。

实例属性只有在类被执行的时候，获得实例对象的时候，才会执行。而类属性，是在类被 Python 加载的时候，就会执行。大家注意下面这段代码：

Python 只是加载了这个类，并没有初始化它，但里面的 print语句已经执行了。

而当我们初始化它以后，实例属性才会执行：

什么情况叫做Python 加载了一个类呢？

例如，当你from xxx import yyy的时候，yyy这个类就被加载了。又比如你可能是使用imortlib.import_module的时候。

所以，回到这个同学的问题。之所以他其中一个爬虫的代码始终会运行，原因就在下面红色圆圈中的代码：

他把这段代码写在了所有方法之外，让他处于了类属性的区域。在这个区域里面的代码，在爬虫类被加载的时候，就会执行。

如果要解决这个问题，只需要把这段代码，放到start_requests()方法里面就可以了。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

一日一技：为什么 Scrapy 启动 A 爬虫，B 爬虫会自动启动？

Scrapy 是怎么加载爬虫的？

Python 的类属性和实例属性

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

一日一技：为什么 Scrapy 启动 A 爬虫，B 爬虫会自动启动？

Scrapy 是怎么加载爬虫的？

Python 的类属性和实例属性

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品