- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Scrapy添加代理验证

彭世瑜发表于 2021/08/14 01:23:58 2021/08/14

【摘要】 middlewares.py from w3lib.http import basic_auth_header class CustomProxyMiddleware(object): def process_request(self, request, spider): request.meta['proxy'] = "https://<PROXY_IP_O...

middlewares.py

from w3lib.http import basic_auth_header

class CustomProxyMiddleware(object): def process_request(self, request, spider): request.meta['proxy'] = "https://<PROXY_IP_OR_URL>:<PROXY_PORT>" request.headers['Proxy-Authorization'] = basic_auth_header( '<PROXY_USERNAME>', '<PROXY_PASSWORD>')

  
 
  1
  2
  3
  4
  5
  6
  7

settings.py

DOWNLOADER_MIDDLEWARES = { '<PROJECT_NAME>.middlewares.CustomProxyMiddleware': 350, 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 400,
}

  
 
  1
  2
  3
  4

问题

1、如果代理验证设置不对，状态码会返回407
407 Proxy Authentication Required

刚开始采用以下格式配置，发现部分请求可以发送，不过会有一个重试，部分请求直接报错

request.meta['proxy'] = "https://<PROXY_USERNAME>:<PROXY_PASSWORD>@<PROXY_IP_OR_URL>:<PROXY_PORT>"

  
 
  1

正确的设置是在请求头中设置 Proxy-Authorization

参考

Using a custom proxy in a Scrapy spider

Proxy-Authorization

文章来源: pengshiyu.blog.csdn.net，作者：彭世瑜，版权归原作者所有，如需转载，请联系作者。

原文链接：pengshiyu.blog.csdn.net/article/details/106438932

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Scrapy添加代理验证

问题

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Scrapy添加代理验证

问题

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品