Python爬虫自学系列(四)

举报
看,未来 发表于 2021/04/29 00:51:48 2021/04/29
【摘要】 文章目录 前言 关于动态网页的json包 人机交互 selenium自动化 前言 上一篇讲的是爬虫中的缓存,相对来说比较难一点,而且不是直接面向网页的,所以可能会比较无聊一点吧。 这一篇我们来讲当遇到动态网页时候的另一种处理办法,即json抓包处理。 然后呢,再讲一下界面交互相关的事情。 为什么能讲这么多呢?因为之前...

在这里插入图片描述

前言

上一篇讲的是爬虫中的缓存,相对来说比较难一点,而且不是直接面向网页的,所以可能会比较无聊一点吧。

这一篇我们来讲当遇到动态网页时候的另一种处理办法,即json抓包处理。

然后呢,再讲一下界面交互相关的事情。

为什么能讲这么多呢?因为之前都讲好了,现在总结一下再深化一点啦。


关于动态网页的json包

和单页面应用的简单表单事件不同,使用 JavaScript 时,不再是加载后立即下载页面全部内容。这种架构会造成许多网页在浏览器中展示的内容可能不会出现在 HTML 源代码中,我们在前面介绍的抓取技术也就无法抽取网站的重要信息了。

这篇带上了几个例子讲解了为什么要用json,以及该如何抓包的问题,喜欢的人还不少:

文章来源: lion-wu.blog.csdn.net,作者:看,未来,版权归原作者所有,如需转载,请联系作者。

原文链接:lion-wu.blog.csdn.net/article/details/112995418

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。