pycharm之爬虫教程(仅限于技术交流)
【摘要】 1:需求分析对我们要爬取的数据进行一个需求分析 爬取什么网站的什么内容?比如说爬取某个网站上的音乐2:思路选中要爬取的网页点击ctrl+u或右键点击查看网页源码,查找解析出视频资源的url 查看源码搜索mp4如下图所示:对该url发送请求,返回url二进制数据 将二进制数据保存为视频或mp3等格式 (具体情况具体分析)3:代码分析:首先进行import sys模块导入 sys模块提供了一系...
1:需求分析
对我们要爬取的数据进行一个需求分析 爬取什么网站的什么内容?比如说爬取某个网站上的音乐
2:思路
选中要爬取的网页点击ctrl+u或右键点击查看网页源码,查找解析出视频资源的url 查看源码搜索mp4如下图所示:
对该url发送请求,返回url二进制数据 将二进制数据保存为视频或mp3等格式 (具体情况具体分析)
3:代码分析:
首先进行import sys模块导入 sys模块提供了一系列有关python运行环境的变量和函数
sys模块的常见函数列表包括但不限于:
argv:让参数从程序外部向内部进行传递
exit([arg]):程序中间的推出 arg=0 为正常退出
sys.getdefaultencoding()获取当前的系统编码 一般情况默认为ascll码
sys.setdefaultencoding()设置系统默认编码 执行dir(sys)时不会看到这个方法 。等等
我们再从imp中导入reload模块 这里reload在python2和3中有些区别例如:
Python2 中可以直接使用reload(module)重载模块。
Pyhton3中需要使用如下方式:
(1) from imp
imp.reload(module)
(2) from imp import reload
reload(module)
对resquests进行模块导入 获取时间给time1 将当前你要爬取的网址换成你需要爬取的网站 然后对网站进行服务请求
在文章中特别注意加入resp.encoding='utf-8' 这样爬取的文件不会出现中文乱码的情况
视频是二进制数据流,content就是为了获取二进制数据的方法,以及保存数据的路径及文件名 特别要注意完成爬取后腰将file文件关闭 并输入一个提示 表示当前是否完成爬取操作
爬虫有害 多学反爬 仅限于技术交流 下方欢迎讨论
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
作者其他文章
评论(0)