Python爬虫❤️ Urllib用法合集——⚡一键轻松入门爬虫⚡

举报
是Dream呀 发表于 2022/01/10 23:36:55 2022/01/10
【摘要】 📢📢📢📣📣📣 🌻🌻🌻Hello,大家好我叫是Dream呀,一个有趣的Python博主,小白一枚,多多关照😜😜😜 🏅🏅🏅CSDN Python领域新星创作者,大二在读...

在这里插入图片描述

📢📢📢📣📣📣
🌻🌻🌻Hello,大家好我叫是Dream呀,一个有趣的Python博主,小白一枚,多多关照😜😜😜
🏅🏅🏅CSDN Python领域新星创作者,大二在读,欢迎大家找我合作学习
💕入门须知:这片乐园从不缺乏天才,努力才是你的最终入场券!🚀🚀🚀
💓最后,愿我们都能在看不到的地方闪闪发光,一起加油进步🍺🍺🍺
🍉🍉🍉“一万次悲伤,依然会有Dream,我一直在最温暖的地方等你”,唱的就是我!哈哈哈~🌈🌈🌈
🌟🌟🌟✨✨✨

前言:

接下来一起和大家重温一下爬虫吧~

一、何为爬虫

在这里插入图片描述

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
我们平时的上网就是浏览器提交请求->下载网页代码->解析/渲染成页面。而我们的爬虫就是模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中。所以,我们的爬虫程序只提取网页代码中对我们有用的数据。
如果我们把互联网比作一张大的蜘蛛网,那计算机上的数据便是蜘蛛网上的一个猎物,而`爬虫程序就是一只小蜘蛛,沿着蜘蛛网抓取自己想要的数据。

解释1:通过一个程序,根据Url(http://www.taobao.com)进行爬取网页,获取有用信息
解释2:使用程序模拟浏览器,去向服务器发送请求,获取响应信息

`

二、爬虫核心

1.爬取页面:爬取整个页面,包含页面中的所有内容
2.解析数据:将页面中你得到的数据,进行解析
3.难点:爬虫和反爬虫之间的博弈

三、爬虫的用途

1.数据分析 / 人工数据集
2.社交软件冷启动
3.舆情控制
4.竞争对手监控
在这里插入图片描述

四、爬虫分类

1.通用爬虫:

实例: 百度、360、google、sougou等搜索引擎‐‐‐伯乐在线
功能: 访问网页‐>抓取数据‐>数据存储‐>数据处理‐>提供检索服务
robots协议 一个约定俗成的协议,添加robots.txt文件,来说明本网站哪些内容不可以被抓取,起不到限制作用 自己写的爬虫无需遵守
网站排名(SEO)

  1. 根据pagerank算法值进行排名(参考个网站流量、点击率等指标)
  2. 百度竞价排名

缺点:
1.抓取的数据大多是无用的
2.不能根据用户的需求来精准获取数据

2.聚焦爬虫

功能: 根据需求,实现爬虫程序,抓取需要的数据
设计思路:
1.确定要爬取的url 如何获取Url
2.模拟浏览器通过http协议访问url,获取服务器返回的html代码 如何访问
3.解析html字符串(根据一定规则提取需要的数据) 如何解析

五、反爬手段

1.User‐Agent:

User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版,urllib库使用 7.请求对象的定制 扩展:编码的由来 User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版 本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

2.代理IP

西次代理
快代理
什么是高匿名、匿名和透明代理?它们有什么区别?
1.使用透明代理,对方服务器可以知道你使用了代理,并且也知道你的真实IP。
2.使用匿名代理,对方服务器可以知道你使用了代理,但不知道你的真实IP。
3.使用高匿名代理,对方服务器不知道你使用了代理,更不知道你的真实IP。

3.验证码访问

打码平台 :云打码平台

4.动态加载网页

网站返回的是js数据 并不是网页的真实数据
selenium驱动真实的浏览器发送请求

5.数据加密

分析js代码

六、.urllib库使用

1.爬取网站界面

urllib.request.urlopen() 模拟浏览器向服务器发送请求
response 服务器返回的数据 response的数据类型是HttpResponse

# -*-coding:utf-8 -*-
# @Author:到点了,心疼徐哥哥
# 奥利给干!!!
#
# 使用urllib获取百度首页源码
import urllib.request

# 1.定义一个url 就是要访问的地址
url = 'https://www.bilibili.com/'

# 2.模拟浏览器向服务器发送请求 response响应
response = urllib.request.urlopen(url)

# 3.获取响应中的页面中的源码 content内容
# read方法 返回的是字节形式的二进制字
# 将二进制的数据转换为字符串
# 二进制到字符串 解码! decode('编码的格式')
content = response.read().decode('utf-8')

# 打印数据
print(content)


  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22

在这里插入图片描述

2.一个类型,六个方法

# -*-coding:utf-8 -*-
# @Author:到点了,心疼徐哥哥
# 奥利给干!!!
import urllib.request

url = 'https://www.bilibili.com/'

# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(url)

# 一个类型:HTTPResponse
# 六个方法:read readline readlines getcode geturl getheader

# 返回多少个字节
# content = response.read(5)
# print(content)

# 读取一行
# content=response.readline()
# print(content)

# 一行一行的读,直至读完
# content=response.readlines()
# print(content)

# 返回状态码 如果是200,就证明我们的逻辑没有错误
# print(response.getcode())

# 返回url地址
# print(response.geturl())

# 获取一个状态信息
print(response.getheaders())

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33

3.下载网页、图片and视频

网页:

import urllib.request
# 下载网页
# url_page='https://www.bilibili.com/'
# 
# url代表的是下载的路径 filename是文件的名字
# 在Python中 可以是变量的名字也可以是直接写值
# urllib.request.urlretrieve(url_page,'bilibili.html')  # 后缀很重要

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

在这里插入图片描述
图片:

# 下载图片
# url_img=''

# urllib.request.urlretrieve(url=url_img,filename='xzq.jpg')

  
 
  • 1
  • 2
  • 3
  • 4

视频:

# 下载视频
url_video='https://vd2.bdstatic.com/mda-mj01i9fur5bzkwj7/sc/cae_h264/1633050469983308417/mda-mj01i9fur5bzkwj7.mp4?v_from_s=hkapp-haokan-hnb&auth_key=1633070432-0-0-e7d194ed5654813f4560e2184fbff9e0&bcevod_channel=searchbox_feed&pd=1&pt=3&abtest='
urllib.request.urlretrieve(url_video,'阅兵.mp4')

  
 
  • 1
  • 2
  • 3

七.请求对象的定制

UA介绍User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统 及版本、CPU 类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等

语法:request = urllib.request.Request()

编码的由来:

由于计算机是美国人发明的,因此,最早只有127个字符被编码到计算机里,也就是大小写英文字母、数字和一些符号,
这个编码表被称为ASCII编码,比如大写字母A的编码是65,小写字母z的编码是122。
但是要处理中文显然一个字节是不够的,至少需要两个字节,而且还不能和ASCII编码冲突, 所以,中国制定了GB2312编码,用来把中文编进去。
你可以想得到的是,全世界有上百种语言,日本把日文编到Shift_JIS里,韩国把韩文编到Euc‐kr里,
各国有各国的标准,就会不可避免地出现冲突,结果就是,在多语言混合的文本中,显示出来会有乱码。
因此,Unicode应运而生。Unicode把所有语言都统一到一套编码里,这样就不会再有乱码问题了。
Unicode标准也在不断发展,但最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符,就需要4个字节)。
现代操作系统和大多数编程语言都直接支持Unicode。

八、编解码

1.get请求方式:urllib.parse.quote()

# -*-coding:utf-8 -*-
# @Author:到点了,心疼徐哥哥
# 奥利给干!!!
import urllib.request
import urllib.parse

url = 'https://www.baidu.com/s?wd='
# 请求对象的定制为了解决反爬的第一种手段
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36'
}
# 将周杰伦三个字变为unicode编码的格式
# 我们需要依赖于urllib.parse
name = urllib.parse.quote('薛之谦')

url = url + name
# print(url)

# 请求对象的定制
request = urllib.request.Request(url=url,headers=headers)

# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)

# 获取响应的内容
content = response.read().decode('utf-8')

# 打印数据
print(content)

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29

2.get请求方式:urllib.parse.urlencode()

# -*-coding:utf-8 -*-
# @Author:到点了,心疼徐哥哥
# 奥利给干!!!
# urlencode 应用场景:多个参数的时候
import urllib.request
import urllib.parse
base_url='https://www.baidu.com/s?'

data = {
    'wd':'周杰伦',
    'sex':'男'
 }

new_data = urllib.parse.urlencode(data)

# 请求资源路径
url = base_url +new_data

# print(new_data)
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36'
}
# 请求对象的定制
request = urllib.request.Request(url=url,headers=headers)

# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)

# 获取网页源码的数据
content = response.read().decode('utf-8')
print(content)

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31

3.post请求方式

# -*-coding:utf-8 -*-
# @Author:到点了,心疼徐哥哥
# 奥利给干!!!
import urllib.request
import urllib.parse

url = 'https://fanyi.baidu.com/sug'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36'
}
data = {
    'kw':'spider'
}

# post请求的参数 必须进行编码
data = urllib.parse.urlencode(data).encode('utf8')

# post请求的参数,不会拼接在url的后立案,需要放在请求对象定制的参数中
request = urllib.request.Request(url=url,data=data,headers=headers)

# 模拟服务器发送求求
response=urllib.request.urlopen(request)

# 获取响应的数据
content = response.read().decode('utf8')
# print(content)

# post请求的参数必须编码:data = urllib.parse.urlencode(data)
# 编码之后 必须调用encode方法:data = urllib.parse.urlencode(data).encode('utf8')
# 参数是放在请求对象定制的方法中:request = urllib.request.Request(url=url,data=data,headers=headers)


# 字符串———》json对象
import json

obj = json.loads(content)
print(obj)

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37

在这里插入图片描述

总结:post和get区别

1:get请求方式的参数必须编码,参数是拼接到url后面,编码之后不需要调用encode方法
2:post请求方式的参数必须编码,参数是放在请求对象定制的方法中,编码之后需要调用encode方法

往期文章推荐:

还看不懂Python OpenCV?不,我不允许!隔壁大爷都说看得懂!❤️环境配置+问题分析+视频图像入门❤️万字只为你~

Python OpenCV实战画图——这次一定能行!爆肝万字,建议点赞收藏~❤️❤️❤️

❤️大家中秋节快乐❤️接下来请欣赏Python Opencv实战之图像阈值和模糊处理,万字实战,收藏起来吧~

Python OpenCV ❤️超级有趣❤️ 颜色转换 + 几何变换,一网打尽⚡⚡⚡~

Python OpenCV图像处理:❤️转换+梯度❤️边缘检测+图像融合,aplacian金字塔合成新物种

🌲🌲🌲 好啦,这就是今天要分享给大家的全部内容了
❤️❤️❤️如果你喜欢的话,就不要吝惜你的一键三连了~
在这里插入图片描述
在这里插入图片描述

文章来源: xuyipeng.blog.csdn.net,作者:是Dream呀,版权归原作者所有,如需转载,请联系作者。

原文链接:xuyipeng.blog.csdn.net/article/details/120580862

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。