- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

一日一技：如何正确在 PyCharm 中调试 Scrapy 爬虫？

未闻Code 发表于 2022/04/08 22:17:26 2022/04/08

【摘要】如何正确在 PyCharm 中调试 Scrapy 爬虫？有些人不知道如何让 Scrapy 爬虫进入调试模式，还有一些人不知道怎么单步调试。

最近有不少同学在粉丝群里面问，如何调试Scrapy 爬虫。有些人不知道如何让 Scrapy 爬虫进入调试模式；还有一些人不知道怎么单步调试。

怎么进入调试模式

我们知道，Scrapy 项目要启动爬虫的时候，需要在终端或者 CMD 中执行一段命令scrapy crawl 爬虫名。但是，PyCharm 的调试模式需要以某个.py文件作为入口来运行。

为了解决这个问题，我们可以在 Scrapy 项目的根目录创建一个 main.py文件，然后在里面写下如下一段代码：

from scrapy.cmdline import execute

execute('scrapy crawl 爬虫名'.split())

然后，以这个文件作为入口文件，在这个文件上右键，选择Debug 'main'，就可以正确启动 PyCharm 的调试模式并在第一个断点上停下来了。如下图所示：

如何正确单步调试

单步调试大家都会，不就是下图中画红框的这两个按钮嘛：

左边是逐行调试，遇到函数直接跳过，右边是遇到函数进入

但问题是，在 Scrapy 项目里面，如果你的代码运行到了yield scrapy.Request这种使用yield抛出请求对象的语句，只要再按一下单步调试的按钮，你就会发现 PyCharm 跳转到了一个陌生的地方，如下图所示：

又或者，你的代码发送了很多次请求，回调函数都到self.parse里面，现在你已经看完第一条请求返回的数据了，断点停在了第28行，如下图所示：

现在你想看第二次请求的返回数据，于是你点了一下单步调试，于是你又来到了一个陌生的地方：

这个地方就像一个泥潭，无论你怎么跳出都跳不出来，始终无法回到你自己的代码中。你越是往外跳，PyCharm 就会打开越多的陌生文件，如下图所示：

遇到这种情况怎么办呢？实际上非常简单，你注意观察在调试面板上，还有一个按钮，如下图箭头所指：

这个按钮的功能，是让 PyCharm 运行的代码，运行到你当前鼠标光标所在的位置再停下来。所以，例如现在上面图中的代码停在了第17行，我想马上运行到第28行怎么办？鼠标首先在第28行点一下，如下图所示箭头指向的输入光标：

然后按下这个运行到光标的按钮，就会发现代码已经运行到了这一行（是到了这一行，还没有运行这一行）。接下来你再按一下单步调试按钮，就能看到 info 变量的值了。看了第一次请求的返回值以后，你想看第二次请求的返回值怎么办呢？也很好办，你再一次用鼠标点一下第27行或者第28行，接下来再次点击运行到当前光标的按钮，于是第二次请求的结果立刻就出现在了你的面前：

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

一日一技：如何正确在 PyCharm 中调试 Scrapy 爬虫？

怎么进入调试模式

如何正确单步调试

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品