- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Python爬虫实战：利用代理IP爬取百度翻译

yd_221604772 发表于 2024/08/06 10:34:19 2024/08/06

【摘要】 Python 爬虫实战：利用代理 IP 爬取百度翻译

一、爬取目标

本次目标网站：百度翻译（https://fanyi.baidu.com/），输入一个关键词后返回翻译结果：

二、环境准备

Python：3.10

编辑器：PyCharm

第三方模块，自行安装：

pip install requests # 网页数据爬取

三、代理IP获取

由于百度翻译限制很严，为了能正常获取数据这里必须使用到代理IP。

3.1 爬虫和代理IP的关系

爬虫和代理IP之间的关系是相互依存的。代理IP为爬虫提供了绕过IP限制、隐藏真实IP、提高访问速度等能力，使得爬虫能够更有效地进行数据抓取。然而，在使用时也需要注意合法性、稳定性、成本以及隐私保护等问题。

3.2 巨量IP介绍

巨量IP提供免费HTTP代理IP和长效静态IP、短效IP、动态IP代理、隧道代理等服务，支持按时、按量、按时按量3种计费方式，根据业务场景需求，让套餐的选择变得更灵活：巨量IP官网

3.3 超值企业极速池推荐

博主经常写爬虫代码使用的是巨量IP家的企业极速池，每日500万去重IP，单IP低至0.005元（按量计费），并且充值加赠50%，不得不说真的很香：

经常使用爬虫的小伙伴推荐使用IP时效：1分钟的套餐性价比超高。

3.4 免费IP领取

巨量IP还提供每日1000个免费IP供大家使用：代理IP免费领取

3.5 代码获取IP

1、点击产品管理找到我们购买或者领取的套餐：

2、将自己电脑的IP添加为白名单能获取代理IP，点击授权信息：

3、依次点击修改授权》快速添加》确定

4、添加完成后，点击生成提取链接：

5、设置每次提取的数量，点击生成链接，并复制链接：

6、将复制链接，复制到地址栏就可以看到我们获取到的代理IP了：

7、代理获取IP（注意：下面url需要换成你的链接）：

import requests
import time
import random


def get_ip():
    url = "这里放你自己的API链接"
    while 1:
        try:
            r = requests.get(url, timeout=10)
        except:
            continue

        ip = r.text.strip()
        if '请求过于频繁' in ip:
            print('IP请求频繁')
            time.sleep(1)
            continue
        break
    proxies = {
        'https': '%s' % ip
    }

    return proxies



if __name__ == '__main__':
    proxies = get_ip()
    print(proxies)

获取成功：

四、爬虫代码实战

4.1分析网页

在翻译栏左侧输入内容，并不需要刷新网页，翻译结果可实时返回，说明该翻译网站为进行Ajax加载的网站：

Ajax（Asynchronous JavaScript and XML）是一种在无需重新加载整个网页的情况下，能够更新部分网页内容的技术。它通过在后台与服务器交换数据，并允许网页异步更新，从而提升了用户体验。

4.2 寻找接口

1、鼠标右击》检查》选择XHR，输入翻译内容，找到对应的翻译接口：

2、找到接口网址（https://fanyi.baidu.com/sug）和请求方式（Post请求）：

3、可以看到携带的参数就是我们输入的内容：

4.3 参数构建

下面代码构建一个携带参数的post请求：

# 1. 百度接口链接  
post_url = 'https://fanyi.baidu.com/sug'  
# 2. 创建post请求携带的参数，将手动输入需要翻译的单词传进去  
data = {  
'kw': kw  
}  
# 3. 携带请求头  
headers = {  
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36 Edg/111.0.1661.51'}  
# 使用post 请求（和get类似）  
data_json = requests.post(url=post_url, data=data, headers=headers).json()

4.4 完整代码

注意下面代码需要修改 get_ip() 函数中 url 添加你自己的代理IP接口url（防止被识别到为爬虫）：

import requests
import time


def get_ip():
    url = "这里换成自己的代理IP接口url"
    while 1:
        try:
            r = requests.get(url, timeout=10) #
        except:
            continue

        ip = r.text.strip()
        if '请求过于频繁' in ip:
            print('IP请求频繁')
            time.sleep(1)
            continue
        break
    proxies = {
        'https': '%s' % ip
    }

    return proxies



def get_data(kw):
    # 1. 百度接口链接
    post_url = 'https://fanyi.baidu.com/sug'
    # 2. 创建post请求携带的参数，将手动输入需要翻译的单词传进去
    data = {
        'kw': kw
    }
    # 3. 携带请求头
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36 Edg/111.0.1661.51'}
    # 4. 获取代理IP
    proxies = get_ip()
    # 使用post 请求
    data_json = requests.post(url=post_url, data=data, headers=headers,proxies=proxies).json()
    # print(data_json)
    for key in data_json['data'][0]:
        print(key, data_json['data'][0][key])


def main():
    while True:
        # 手动输入需要翻译的单词
        kw = input("请输入需要翻译的单词：")
        get_data(kw)


if __name__ == '__main__':
    main()

可以看到中文翻译为英文，英文翻译为中文都可以轻松实现：

五、总结

代理IP对于爬虫是密不可分的，代理IP可以安全采集公开数据信息，有需要代理IP的小伙伴可以试试巨量家的超值企业极速池：巨量IP官网

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Python爬虫实战：利用代理IP爬取百度翻译

一、爬取目标

二、环境准备

三、代理IP获取

3.1 爬虫和代理IP的关系

3.2 巨量IP介绍

3.3 超值企业极速池推荐

3.4 免费IP领取

3.5 代码获取IP

四、爬虫代码实战

4.1分析网页

4.2 寻找接口

4.3 参数构建

4.4 完整代码

五、总结

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Python爬虫实战：利用代理IP爬取百度翻译

一、爬取目标

二、环境准备

三、代理IP获取

3.1 爬虫和代理IP的关系

3.2 巨量IP介绍

3.3 超值企业极速池推荐

3.4 免费IP领取

3.5 代码获取IP

四、爬虫代码实战

4.1分析网页

4.2 寻找接口

4.3 参数构建

4.4 完整代码

五、总结

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品