Crawler:基于urllib库+实现爬虫有道翻译

举报
一个处女座的程序猿 发表于 2021/03/28 03:32:05 2021/03/28
4.9k+ 0 0
【摘要】 Crawler:基于urllib库+实现爬虫有道翻译     目录 输出结果 设计思路 实现步骤         输出结果 后期更新……     设计思路 第一步:首先要知道,data里面的内容是都需要在代码中发送给服务器的。第二步:理解反爬虫机制,找出加密参数。大多数网站的反爬虫的机制是对向服务器提交表单的动态值进行加密,所以,我们每翻译一...

Crawler:基于urllib库+实现爬虫有道翻译

目录

输出结果

设计思路

实现步骤


输出结果

后期更新……

设计思路

  • 第一步:首先要知道,data里面的内容是都需要在代码中发送给服务器的。
  • 第二步:理解反爬虫机制,找出加密参数。大多数网站的反爬虫的机制是对向服务器提交表单的动态值进行加密,所以,我们每翻译一次,就观察data里面有哪些参数是动态变化的。从这个网址来看,参数salt、sign对应的值是动态变化。
  • 第三步:找出动态参数的实现方式。根据反爬虫经验可知,一般网站生成的反爬加密值都是采用的时间戳,以及将一下字符串使用加密算法加密一下,我们可以从网页源代码中进行查找理解。

实现步骤

点击有道翻译网页源代码,查看NetWork栏下的相关数据的相关参数:
依次提取url、User-Agent、data
url = 
head['User-Agent']=
data =

文章来源: yunyaniu.blog.csdn.net,作者:一个处女座的程序猿,版权归原作者所有,如需转载,请联系作者。

原文链接:yunyaniu.blog.csdn.net/article/details/79575342

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

作者其他文章

评论(0

抱歉,系统识别当前为高风险访问,暂不支持该操作

    全部回复

    上滑加载中

    设置昵称

    在此一键设置昵称,即可参与社区互动!

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。