pycharm之爬虫教程(仅限于技术交流)

举报
泽宇-Li 发表于 2022/07/16 10:28:21 2022/07/16
【摘要】 1:需求分析对我们要爬取的数据进行一个需求分析  爬取什么网站的什么内容?比如说爬取某个网站上的音乐2:思路选中要爬取的网页点击ctrl+u或右键点击查看网页源码,查找解析出视频资源的url 查看源码搜索mp4如下图所示:对该url发送请求,返回url二进制数据 将二进制数据保存为视频或mp3等格式 (具体情况具体分析)3:代码分析:首先进行import sys模块导入 sys模块提供了一系...

1:需求分析

对我们要爬取的数据进行一个需求分析  爬取什么网站的什么内容?比如说爬取某个网站上的音乐

2:思路

选中要爬取的网页点击ctrl+u或右键点击查看网页源码,查找解析出视频资源的url 查看源码搜索mp4如下图所示:

对该url发送请求,返回url二进制数据 将二进制数据保存为视频或mp3等格式 (具体情况具体分析)

3:代码分析:

首先进行import sys模块导入 sys模块提供了一系列有关python运行环境的变量和函数

sys模块的常见函数列表包括但不限于:

argv:让参数从程序外部向内部进行传递

exit([arg]):程序中间的推出  arg=0 为正常退出

sys.getdefaultencoding()获取当前的系统编码 一般情况默认为ascll码

sys.setdefaultencoding()设置系统默认编码 执行dir(sys)时不会看到这个方法 。等等

我们再从imp中导入reload模块 这里reload在python2和3中有些区别例如:

Python2 中可以直接使用reload(module)重载模块。

Pyhton3中需要使用如下方式:

(1)  from imp

 imp.reload(module)

(2) from imp import reload

 reload(module)

对resquests进行模块导入 获取时间给time1 将当前你要爬取的网址换成你需要爬取的网站 然后对网站进行服务请求

在文章中特别注意加入resp.encoding='utf-8'  这样爬取的文件不会出现中文乱码的情况



视频是二进制数据流,content就是为了获取二进制数据的方法,以及保存数据的路径及文件名 特别要注意完成爬取后腰将file文件关闭 并输入一个提示 表示当前是否完成爬取操作

爬虫有害  多学反爬   仅限于技术交流 下方欢迎讨论

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。