- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

pycharm之爬虫教程（仅限于技术交流）

泽宇-Li 发表于 2022/07/16 10:28:21 2022/07/16

【摘要】 1：需求分析对我们要爬取的数据进行一个需求分析爬取什么网站的什么内容？比如说爬取某个网站上的音乐2：思路选中要爬取的网页点击ctrl+u或右键点击查看网页源码，查找解析出视频资源的url 查看源码搜索mp4如下图所示：对该url发送请求，返回url二进制数据将二进制数据保存为视频或mp3等格式（具体情况具体分析）3：代码分析：首先进行import sys模块导入 sys模块提供了一系...

1：需求分析

对我们要爬取的数据进行一个需求分析爬取什么网站的什么内容？比如说爬取某个网站上的音乐

2：思路

选中要爬取的网页点击ctrl+u或右键点击查看网页源码，查找解析出视频资源的url 查看源码搜索mp4如下图所示：

对该url发送请求，返回url二进制数据将二进制数据保存为视频或mp3等格式（具体情况具体分析）

3：代码分析：

首先进行import sys模块导入 sys模块提供了一系列有关python运行环境的变量和函数

sys模块的常见函数列表包括但不限于：

argv：让参数从程序外部向内部进行传递

exit([arg]）:程序中间的推出 arg=0 为正常退出

sys.getdefaultencoding()获取当前的系统编码一般情况默认为ascll码

sys.setdefaultencoding()设置系统默认编码执行dir(sys)时不会看到这个方法。等等

我们再从imp中导入reload模块这里reload在python2和3中有些区别例如：

Python2 中可以直接使用reload(module)重载模块。

Pyhton3中需要使用如下方式：

(1) from imp

imp.reload(module)

(2) from imp import reload

reload(module)

对resquests进行模块导入获取时间给time1 将当前你要爬取的网址换成你需要爬取的网站然后对网站进行服务请求

在文章中特别注意加入resp.encoding='utf-8' 这样爬取的文件不会出现中文乱码的情况

视频是二进制数据流，content就是为了获取二进制数据的方法，以及保存数据的路径及文件名特别要注意完成爬取后腰将file文件关闭并输入一个提示表示当前是否完成爬取操作

爬虫有害多学反爬仅限于技术交流下方欢迎讨论

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

pycharm之爬虫教程（仅限于技术交流）

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

pycharm之爬虫教程（仅限于技术交流）

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品