云社区 博客 博客详情
云社区 博客 博客详情

AI-数据采集-requests模块的深入使用(三)

咔吧咔吧 发表于 2020-10-22 18:01:30 10-22 18:01
咔吧咔吧 发表于 2020-10-22 18:01:30 2020/10/22
0
1

【摘要】 对于requests模块的深入使用我主要介绍三点 一.应用requests发送post请求 根据我之前做后台的经验post请求一般实在登录注册以及需要传输大文本内容的时候去使用。所以同样的,我们的爬虫也需要在这两个地方回去模拟浏览器发送post请求。 requests发送post请求的语法为: response = requests.post("http://www...

    对于requests模块的深入使用我主要介绍三点

    一.应用requests发送post请求

    根据我之前做后台的经验post请求一般实在登录注册以及需要传输大文本内容的时候去使用。所以同样的,我们的爬虫也需要在这两个地方回去模拟浏览器发送post请求。

    requests发送post请求的语法为: response = requests.post("http://www.baidu.com/", data = data , headers = headers)

    ● 其中data的形式为:字典

    这里我提供一个案例:使用爬虫来完成金山翻译。网址为: http://fy.iciba.com/

    首先我们可以使用抓包获取url地址如下图:

    image.png


    确定返回的参数:

    image.png


    请求体参数为:

    data = {

            'f' : 'auto' , # 表示被翻译的语言是自动识别的

            't' : 'auto' , # 表示翻译后的语言是自动识别的

            'w': '人生苦短,我用python' # 要翻译的中文字符串

     }

        

    User-Agent:

    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"}


    完整代码为:

    image.png

    image.png


    二.应用requests模块使用代理方法

    为什么要使用代理呢?

    ● 为了让服务器以为不是同一个客户端在请求

    ● 防止我们真实的地址被泄露,防止被追究

    

    代理ip是一个ip,指向的是一个代理服务器,代理服务器能够帮助我们向目标服务器转发请求

    image.png

    这里有一个图可以帮助大家理解正向代理和反向代理的区别:

    image.png


    三.代理ip(服务器)的分类

    

根据代理ip的匿名程度,代理IP可以分为下面三类:


透明代理(Transparent Proxy):透明代理虽然可以直接“隐藏”你的IP地址,但是还是可以查到你是谁。目标服务器接收到的请求头如下:

REMOTE_ADDR = Proxy IP

HTTP_VIA = Proxy IP

HTTP_X_FORWARDED_FOR = Your IP


匿名代理(Anonymous Proxy):使用匿名代理,别人只能知道你用了代理,无法知道你是谁。目标服务器接收到的请求头如下:

REMOTE_ADDR = Proxy IP

HTTP_VIA = Proxy IP

HTTP_X_FORWARDED_FOR = Your IP


高匿代理(Elite proxy或High Anonymity Proxy):高匿代理让别人根本无法发现你是在用代理,所以是最好的选择。毫无疑问使用高匿代理效果最好。目标服务器接收到的请求头如下:

REMOTE_ADDR = Proxy IP

HTTP_VIA = not determined

HTTP_X_FORWARDED_FOR = not determined


根据网站所使用的协议不同,需要使用相应协议的代理服务。从代理服务请求使用的协议可以分为:

http代理:目标url为http协议

https代理:目标url为https协议

socks隧道代理(例如socks5代理)等:

socks 代理只是简单地传递数据包,不关心是何种应用协议(FTP、HTTP和HTTPS等)。

socks 代理比http、https代理耗时少。

socks 代理可以转发http和https的请求

    

    

    

登录后可下载附件,请登录或者注册

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:huaweicloud.bbs@huawei.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
评论文章 //点赞 收藏 1
点赞
分享文章到微博
分享文章到朋友圈

评论 (0)


0/1000
评论

登录后可评论,请 登录注册

评论

您没有权限执行当前操作

温馨提示

您确认删除评论吗?

确定
取消
温馨提示

您确认删除评论吗?

删除操作无法恢复,请谨慎操作。

确定
取消
温馨提示

您确认删除博客吗?

确定
取消

确认删除

您确认删除博客吗?

确认删除

您确认删除评论吗?

温馨提示

登录超时或用户已下线,请重新登录!!!

确定
取消