Python爬虫自学系列(四)
【摘要】
文章目录
前言 关于动态网页的json包 人机交互 selenium自动化
前言
上一篇讲的是爬虫中的缓存,相对来说比较难一点,而且不是直接面向网页的,所以可能会比较无聊一点吧。
这一篇我们来讲当遇到动态网页时候的另一种处理办法,即json抓包处理。
然后呢,再讲一下界面交互相关的事情。
为什么能讲这么多呢?因为之前...
前言
上一篇讲的是爬虫中的缓存,相对来说比较难一点,而且不是直接面向网页的,所以可能会比较无聊一点吧。
这一篇我们来讲当遇到动态网页时候的另一种处理办法,即json抓包处理。
然后呢,再讲一下界面交互相关的事情。
为什么能讲这么多呢?因为之前都讲好了,现在总结一下再深化一点啦。
关于动态网页的json包
和单页面应用的简单表单事件不同,使用 JavaScript 时,不再是加载后立即下载页面全部内容。这种架构会造成许多网页在浏览器中展示的内容可能不会出现在 HTML 源代码中,我们在前面介绍的抓取技术也就无法抽取网站的重要信息了。
这篇带上了几个例子讲解了为什么要用json,以及该如何抓包的问题,喜欢的人还不少:
文章来源: lion-wu.blog.csdn.net,作者:看,未来,版权归原作者所有,如需转载,请联系作者。
原文链接:lion-wu.blog.csdn.net/article/details/112995418
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)