- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

一日一技：如何替换URL中的query字段？

未闻Code 发表于 2022/02/03 16:31:11 2022/02/03

【摘要】使用urllib自带的函数替换网址中的字段

在我们写爬虫的时候，可能会需要在爬虫里面基于当前url生成一个新的url。例如下面这段伪代码：

import re
current_url = 'https://www.kingname.info/archives/page/2/'
current_page = re.search('/(\d+)', current_url).group(1)
next_page = int(current_page) + 1
next_url = re.sub('\d+', str(next_page), current_url)
make_request(next_url)

运行效果如下图所示：

但有时候，翻页参数不一定是数字。例如有些网站，访问一个URL：https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD

当你访问这个url的时候，它返回的是一个JSON字符串，并且这个JSON里面，有如下字段：

...
"paging": {
        "cursors": {
            "before": "MTA3NDU0NDExNDEzNTgz",
            "after": "MTE4OTc5MjU0NDQ4NTkwMgZDZD"
        },
        
    }
...

这种情况多见于信息流网站。它只能无限下滑看下一页，不能直接通过页数跳页。每次请求的时候返回下一页的参数after。当要访问下一页的时候，用这个参数替换当前url中的after=后面的参数。

这样一来，替换url中的参数就并不是一件简单的事情了。因为网址可能有4种情况：

第一页，没有after参数：https://xxx.com/articlelist?category=technology
第一页，有after参数名但没有值：https://xxx.com/articlelist?category=technology&after=
后续页面，after参数值后面没有内容： https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD
后续页面，aster参数值后面有内容：https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD&other=abc

大家可以试一试，如果用正则表达式，怎么覆盖这4种情况，生成下一页的网址。

实际上，我们不需要使用正则表达式。Python自带的urllib模块已经提供了解决这个问题的方案了。我们先来看一段代码：

from urllib.parse import urlparse, urlunparse, parse_qs, urlencode


def replace_field(url, name, value):
    parse = urlparse(url)
    query = parse.query
    query_pair = parse_qs(query)
    query_pair[name] = value
    new_query = urlencode(query_pair, doseq=True)
    new_parse = parse._replace(query=new_query)
    next_page = urlunparse(new_parse)
    return next_page

url_list = [
    'https://xxx.com/articlelist?category=technology',
    'https://xxx.com/articlelist?category=technology&after=',
    'https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD',
    'https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD&other=abc'
]

for url in url_list:
    next_page = replace_field(url, 'after', '0000000')
    print(next_page)

运行效果如下图所示：

从图中可以看到，这4种情况，都可以被我们成功添加下一页的参数after= 0000000。不用再去考虑正则表达式怎么适配所有情况。

其中urlparse 和urlunparse 是一对相反函数，前者把网址转成 ParseResult 对象，后者把ParseResult对象转回网址字符串。

ParseResult 对象的.query 属性，是一个字符串，也就是网址中，问号后面的内容，格式如下：

parse_qs与urlencode也是一对相反函数。其中前者把 .query输出的字符串转成字典，而后者把字段转成.query形式的字符串：

当使用parse_qs把 query转成字典以后，就可以修改参数的值，然后再重新转回去。

由于ParseResult对象的.query属性是只读属性，不能覆盖，因此我们需要调用一个内部方法._replace把新的.query字段替换上去，生成新的 ParseResult对象。最后再把它转回网址。

以上，就是今天我们介绍的，如何使用urllib自带的函数替换网址中的字段。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

一日一技：如何替换URL中的query字段？

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

​一日一技：如何替换URL中的query字段？

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

一日一技：如何替换URL中的query字段？