pycharm之爬虫教程(仅限于技术交流)

举报
泽宇-Li 发表于 2022/07/16 10:28:21 2022/07/16
1.8k+ 0 0
【摘要】 1:需求分析对我们要爬取的数据进行一个需求分析  爬取什么网站的什么内容?比如说爬取某个网站上的音乐2:思路选中要爬取的网页点击ctrl+u或右键点击查看网页源码,查找解析出视频资源的url 查看源码搜索mp4如下图所示:对该url发送请求,返回url二进制数据 将二进制数据保存为视频或mp3等格式 (具体情况具体分析)3:代码分析:首先进行import sys模块导入 sys模块提供了一系...

1:需求分析

对我们要爬取的数据进行一个需求分析  爬取什么网站的什么内容?比如说爬取某个网站上的音乐

2:思路

选中要爬取的网页点击ctrl+u或右键点击查看网页源码,查找解析出视频资源的url 查看源码搜索mp4如下图所示:

对该url发送请求,返回url二进制数据 将二进制数据保存为视频或mp3等格式 (具体情况具体分析)

3:代码分析:

首先进行import sys模块导入 sys模块提供了一系列有关python运行环境的变量和函数

sys模块的常见函数列表包括但不限于:

argv:让参数从程序外部向内部进行传递

exit([arg]):程序中间的推出  arg=0 为正常退出

sys.getdefaultencoding()获取当前的系统编码 一般情况默认为ascll码

sys.setdefaultencoding()设置系统默认编码 执行dir(sys)时不会看到这个方法 。等等

我们再从imp中导入reload模块 这里reload在python2和3中有些区别例如:

Python2 中可以直接使用reload(module)重载模块。

Pyhton3中需要使用如下方式:

(1)  from imp

 imp.reload(module)

(2) from imp import reload

 reload(module)

对resquests进行模块导入 获取时间给time1 将当前你要爬取的网址换成你需要爬取的网站 然后对网站进行服务请求

在文章中特别注意加入resp.encoding='utf-8'  这样爬取的文件不会出现中文乱码的情况

视频是二进制数据流,content就是为了获取二进制数据的方法,以及保存数据的路径及文件名 特别要注意完成爬取后腰将file文件关闭 并输入一个提示 表示当前是否完成爬取操作

爬虫有害  多学反爬   仅限于技术交流 下方欢迎讨论

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

作者其他文章

评论(0

抱歉,系统识别当前为高风险访问,暂不支持该操作

    全部回复

    上滑加载中

    设置昵称

    在此一键设置昵称,即可参与社区互动!

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。