pycharm之爬虫教程(仅限于技术交流)
1:需求分析
对我们要爬取的数据进行一个需求分析 爬取什么网站的什么内容?比如说爬取某个网站上的音乐
2:思路
选中要爬取的网页点击ctrl+u或右键点击查看网页源码,查找解析出视频资源的url 查看源码搜索mp4如下图所示:
对该url发送请求,返回url二进制数据 将二进制数据保存为视频或mp3等格式 (具体情况具体分析)
3:代码分析:
首先进行import sys模块导入 sys模块提供了一系列有关python运行环境的变量和函数
sys模块的常见函数列表包括但不限于:
argv:让参数从程序外部向内部进行传递
exit([arg]):程序中间的推出 arg=0 为正常退出
sys.getdefaultencoding()获取当前的系统编码 一般情况默认为ascll码
sys.setdefaultencoding()设置系统默认编码 执行dir(sys)时不会看到这个方法 。等等
我们再从imp中导入reload模块 这里reload在python2和3中有些区别例如:
Python2 中可以直接使用reload(module)重载模块。
Pyhton3中需要使用如下方式:
(1) from imp
imp.reload(module)
(2) from imp import reload
reload(module)
对resquests进行模块导入 获取时间给time1 将当前你要爬取的网址换成你需要爬取的网站 然后对网站进行服务请求
在文章中特别注意加入resp.encoding='utf-8' 这样爬取的文件不会出现中文乱码的情况
视频是二进制数据流,content就是为了获取二进制数据的方法,以及保存数据的路径及文件名 特别要注意完成爬取后腰将file文件关闭 并输入一个提示 表示当前是否完成爬取操作
爬虫有害 多学反爬 仅限于技术交流 下方欢迎讨论
- 点赞
- 收藏
- 关注作者
评论(0)