- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Python爬虫：利用urlparse获取“干净”的url

彭世瑜发表于 2021/08/13 22:58:40 2021/08/13

【摘要】 urlparse 类似处理操作系统路径的 os.path 模块，能够很好的处理网址路径导入模块 python3 from urllib.parse import urlparse, urljoin1 python2 from urlparse import urlparse, urljoin1 使用测试 url = "https://cdn.itjuzi...

urlparse 类似处理操作系统路径的 os.path 模块，能够很好的处理网址路径

导入模块

python3

from urllib.parse import urlparse, urljoin
  
 
  1

python2

from urlparse import urlparse, urljoin
  
 
  1

使用测试

url = "https://cdn.itjuzi.com/images/51202bf56a442ba934fe15d34a3f2976.png?imageView2/0/w/58/q/100"

ret = urlparse(url)
print ret
# ParseResult(scheme='https', netloc='cdn.itjuzi.com', 
# path='/images/51202bf56a442ba934fe15d34a3f2976.png',
# params='', query='imageView2/0/w/58/q/100', fragment='')

link = urljoin(ret.scheme+"://"+ret.netloc, ret.path)
print link
# https://cdn.itjuzi.com/images/51202bf56a442ba934fe15d34a3f2976.png


  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13

封装成函数

def get_clean_url(url): """ 获取干净的url链接 :param url: {str} url链接 :return: {str} 干净的url链接 """ ret = urlparse(url) link = urljoin(ret.scheme + "://" + ret.netloc, ret.path) return link

print(get_clean_url(url))
# https://cdn.itjuzi.com/images/51202bf56a442ba934fe15d34a3f2976.png
  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13

文章来源: pengshiyu.blog.csdn.net，作者：彭世瑜，版权归原作者所有，如需转载，请联系作者。

原文链接：pengshiyu.blog.csdn.net/article/details/80607140

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Python爬虫：利用urlparse获取“干净”的url

导入模块

使用测试

封装成函数

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Python爬虫：利用urlparse获取“干净”的url

导入模块

使用测试

封装成函数

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品