- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

爬虫中代理ip 的选择和使用实战

是Dream呀发表于 2024/11/11 21:14:05 2024/11/11

【摘要】爬虫中代理ip 的选择和使用实战

一、爬虫中的反爬问题

爬虫技术不仅是一种工具，更像是一门捕捉信息的艺术。通过它，我们能够从浩瀚的互联网中，精确获取到所需的有价值数据。对于那些需要进行数据分析或模型训练的人来说，爬虫技术几乎是必备的技能。虽然网上公开的数据很多，但由于数据的时效性和准确性问题，很多情况下直接使用这些数据并不理想，因此许多人选择亲自使用爬虫来采集最新、最符合需求的数据。
然而，很多人在爬虫过程中都会遇到反爬机制的困扰。反爬机制是网站为了防止自动化数据抓取而设立的一种防护措施，就像是网站的“防盗系统”，它会通过多种手段识别并阻止自动化工具的访问。比如，网站可能会通过检测单个IP地址的访问频率、分析用户的访问行为、识别使用的工具或用户代理等方法来发现异常。当网站检测到这些异常行为后，通常会采取一些防御措施，比如限制访问频率、直接返回错误信息，甚至完全禁止访问。
按照检查方法，当处于非爬虫操作时，我们在F12控制台输入window.navigator.webdriver时，显示的是false，输入进去出现了刺眼的红色报错，而且显示也出现了True， “Failed to load resource: the server responded with a status of 400”，对这个报错就是非常典型的爬虫被反爬，检测出是selenium，报400，无法进入网站。

对于很多爬虫新手来说，当出现这样的情况时，常常会一头雾水，不知道是代码出错了还是服务器出了问题。实际上，这种情况多数是因为网站运行了自己的JavaScript检测代码，针对selenium等工具的特性进行了检查。一旦被识别为自动化请求，网站便会触发“防盗系统”，阻止访问请求，从而使爬虫停止工作。

二、反爬出现的原因

触发反爬机制的常见原因之一是单一IP地址在短时间内发出了大量请求。很多网站都有这种限制，一旦某个IP地址的访问频率过高，网站就会将其识别为异常行为并采取防御措施。此外，网站还可能通过检测用户代理（User-Agent）字符串来识别请求来源，甚至通过分析访问模式来判断是否为自动化行为，这些都是常见的反爬策略。
我们此次的触发反爬的原因便是，待爬取的网站运行自己的 JavaScript 代码，对爬虫发送过去的请求信息进行检测，然后发现我们是selenium后，触发了“防盗系统”，就把我们爬虫的请求禁掉了。就像上图所示，表现为返回400错误码，意味着请求无法被服务器理解或接受。
面对这些反爬机制，大家在实际操作中可以采取一些应对措施。比如，通过修改请求头信息来模仿正常用户的浏览行为、使用代理IP池来分散请求压力、增加访问间隔时间以避免触发频率限制等。

三、代理IP解决方案

这时，代理IP显得尤为重要，它能帮助绕过这些限制。代理IP本质上是一个位于用户和目标服务器之间的中介服务器。当用户通过代理IP发送请求时，请求首先到达代理服务器，然后由代理服务器转发到目标服务器。这样，使用代理服务器来代替用户的真实IP地址发送网络请求，从而隐藏用户的真实身份，减少被目标网站识别和封锁的风险。
代理IP的作用

匿名性：代理IP提供了一种匿名访问网络的方式，用户的真实IP地址被隐藏，从而保护用户的隐私。
规避IP封锁：当某个IP地址因为频繁访问而被网站封锁时，使用代理IP可以绕过这种限制。
地理位置多样性：代理IP通常具有不同的地理位置，可以帮助用户访问那些有地区限制的资源。

代理IP的类型

透明代理：代理服务器向目标服务器透露用户的真实IP地址，但隐藏了请求的来源。
普通匿名代理：代理服务器不向目标服务器透露用户的真实IP地址，但目标服务器知道请求是通过代理发出的。
高匿名代理：代理服务器不向目标服务器透露任何用户信息，目标服务器看到的只是代理服务器的IP地址。

四、代理服务的具体操作

代理IP在跨境电商的应用

海外代理IP在跨境电商和海外市场分析中发挥着重要作用。在当下主流的电商平台，如亚马逊和EBay，都对爬虫有着很强的防护机制，不稳定的IP地址就会很容易被平台识别。特别是像EBay这样的海外大平台，它们在全球多个国家和地区设有分支机构，这就需要使用不同地区的IP地址来分别管理。
一个不稳定或被频繁使用的代理IP不仅不可靠，而且速度会很慢，更有可能这个ip已经被注册使用过，如果再使用就会招致来很多不必要的麻烦。因此，无论对从事跨境电子商务的企业，还是做跨境电商数据的用户来说，拥有一个稳定可靠的代理IP是至关重要的；像市面上的代理IP服务多种多样，它们主要提供隐私保护、绕过地域限制、加密传输等功能。选择代理IP服务时，我们通常会考虑其稳定性、速度、安全性以及价格，在试用和对比了市面上的多种代理IP服务后，我个人觉得青果网络的代理IP在网络连通性和业务成功率方面表现突出，它家的稳定性和高可用率在使用过程中也没让人失望，对于需要频繁使用代理IP的用户来说，值得体验。

现在他们家产品提供6小时的免费试用活动，感兴趣或有需求可先薅一波羊毛试试看。

拿我最喜欢鞋子来举例子，通过使用海外代理ip依靠爬虫，我们就可以轻松获取EBay的海外平台价格。

首先设置代理IP API URL，将我们生成的代理ip链接放入进去，然后构建代理字典：

proxy_api_url = '你的代理ipURL'
params = {
    'num': 100,
    'return_type': 'txt',
    'lb': 1,
    'sb': 0,
    'flow': 1,
    'regions': '',
    'protocol': 'http'
}

# 获取代理IP
response = requests.post(proxy_api_url, headers=headers, params=params, verify=True)
proxy_ip = response.text

# 构建代理字典
proxies = {
    'http': f'https://{proxy_ip}',
    'https': f'https://{proxy_ip}'
}

print(f"Using proxy: {proxy_ip}")

完成代理ip的部署之后，对商品页面进行抓取，找到我们需要的价格和元素，这里选择了商品价格、货币类型及运费三类信息：

将这三类信息元素放入我们的爬虫之中，例如价格price_element = soup.select_one('.x-price-primary span[itemprop="price"]')，然后运行爬虫结果，会发现其输出了所有代理ip的信息以及我们所需要的商品的价格和运费信息：

更进一步来说，通过这一个物品的信息我们就可以解析整个系列的物品信息，通过把所有的物品信息收集起来，就可以做进一步的价格监控、竞品分析、市场趋势等数据分析，具体完整的代码如下：

from fake_useragent import UserAgent
import requests
from bs4 import BeautifulSoup
import re

# 设置随机的请求头
headers = {'User-Agent': UserAgent().random}

# 代理IP API URL
proxy_api_url = '你的代理ipURL'
params = {
    'num': 100,
    'return_type': 'txt',
    'lb': 1,
    'sb': 0,
    'flow': 1,
    'regions': '',
    'protocol': 'http'
}

# 获取代理IP
response = requests.post(proxy_api_url, headers=headers, params=params, verify=True)
proxy_ip = response.text

# 构建代理字典
proxies = {
    'http': f'https://{proxy_ip}',
    'https': f'https://{proxy_ip}'
}

print(f"Using proxy: {proxy_ip}")

# 目标商品URL
item_url = 'https://www.ebay.com/itm/335217926054'

# 商品信息字典
item_info = {}

# 发送请求获取商品页面HTML
try:
    page_response = requests.get(item_url, proxies=proxies)
    page_response.raise_for_status()  # 检查请求是否成功
    soup = BeautifulSoup(page_response.text, 'html.parser')

    # 解析商品价格
    price_element = soup.select_one('.x-price-primary span[itemprop="price"]')
    item_info['price'] = price_element['content'] if price_element else 'Price not found'

    # 解析货币类型
    currency_element = soup.select_one('.x-price-primary span[itemprop="priceCurrency"]')
    item_info['currency'] = currency_element.text.strip() if currency_element else 'Currency not found'

    # 解析运费
    shipping_label = next((label for label in soup.select('.ux-labels-values__labels') if 'Shipping:' in label.text), None)
    if shipping_label:
        shipping_price_element = shipping_label.find_next_sibling('.ux-textspans--BOLD')
        item_info['shipping_price'] = re.search(r'\d+\.\d+', shipping_price_element.text).group(0) if shipping_price_element else 'Shipping price not found'
    else:
        item_info['shipping_price'] = 'Shipping price not found'

except requests.RequestException as e:
    print(f"An error occurred: {e}")

# 打印商品信息
print(item_info)

总结与展望

本文从爬虫技术的反爬问题入手，详细介绍了反爬机制的原理及其常见触发原因。针对反爬机制的应对措施，重点介绍了代理IP的重要性及其在匿名性、规避IP封锁、地理位置多样性等方面的作用。文章还推荐了一个优质的代理服务商——青果网络，并且结合具体实例详细说明了代理IP在浏览器上的设置方法和跨境电商数据抓取中的应用。最后，通过代码示例展示了如何利用代理IP抓取商品的价格、货币类型以及运费等信息，并进一步为电商数据分析提供参考。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

爬虫中代理ip 的选择和使用实战

一、爬虫中的反爬问题

二、反爬出现的原因

三、代理IP解决方案

四、代理服务的具体操作

代理IP在跨境电商的应用

总结与展望

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

爬虫中代理ip 的选择和使用实战

一、爬虫中的反爬问题

二、反爬出现的原因

三、代理IP解决方案

四、代理服务的具体操作

代理IP在跨境电商的应用

总结与展望

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品