使用Python调用Crawlbase Scraper API 抓取AliExpress 网页数据
由于速卖通多年来的巨大增长,对于那些需要有价值的数据进行市场研究的人来说,寻找可靠的速卖通代理变得越来越重要。
2022 年 11 月到 2023 年 4 月, 全球速卖通 吸引了 2.7 亿访客!每月访问量从未低于 432 亿次。猜猜怎么着?2023 年 1 月,全球点击量超过 4.49 亿次,夺得桂冠。
由于用户需求巨大,AliExpress 在定价和趋势方面领先于竞争对手,因此,抓取他们的数据可以提供有关当前趋势和定价的宝贵见解。但如果不使用代理,抓取 AliExpress 并不容易。
在本博客中,我们将指导您完成使用 Python 和Crawlbase Scraper API 构建 AliExpress 网络抓取工具的过程,为您提供分步方法。 您将学习如何设置编码环境、配置智能代理、创建抓取工具以及处理常见的网页抓取问题。
为什么使用Crawlbase Scraper API?
全球速卖通作为全球最大的电子商务平台之一,为企业和研究人员提供大规模的宝贵数据。 然而,从全球速卖通抓取数据也面临着一系列挑战。 这些挑战包括 IP 禁令、验证码以及绕过机器人检测机制的需要。使用Crawlbase Scraper API,将解决如下问题:
绕过 IP 封锁和限制
AliExpress 采用 IP 封锁作为标准措施,以防止过度抓取活动。通过不断轮换您的 IP 地址,Smart Proxy 可帮助您轻松绕过这些限制。这意味着您可以放心抓取数据,而不必担心 IP 地址被封锁,从而确保数据收集不间断。
绕过验证码
验证码是您在抓取速卖通时遇到的另一个障碍。 这些安全测试旨在区分人类和机器人。 智能代理 轮换IP地址 功能在这里可以解决问题。 当验证码出现时,智能代理会智能地切换到新的 IP 地址,确保您的抓取过程保持平稳和连续。 这些安全检查不会减慢您的速度。
逃避机器人检测
与许多在线平台一样,速卖通使用复杂的机器人检测机制来识别和阻止自动抓取活动。 智能代理的自动 IP 轮换可显着降低被检测为机器人的风险。 通过不断地 改变IP,智能代理使您的抓取活动保持谨慎,允许您匿名抓取数据。
高速数据提取
网络抓取的效率至关重要,而 Smart Proxy 在这方面表现出色。 它确保以最小的延迟处理您的请求,使您能够快速从速卖通提取数据。 此外,凭借其多线程操作,智能代理可以同时处理多个请求,进一步提高网页抓取任务的速度和效率。
数据保密和保护
智能代理不仅提高效率,还优先考虑您的匿名性。 通过多个路由您的请求 代理服务器,它可以保护您的在线身份,使您能够以最高级别的隐私和安全性执行网络抓取。
Curl 命令的基本智能代理用法
在设置Python环境之前,让我们尝试测试智能代理并使用简单的curl命令从AliExpress网页获取数据。 你的第一步是 注册 使用 Crawlbase 并转到您的 智能代理仪表板 获取代理身份验证令牌。
获得令牌后,打开命令提示符或终端,复制下面的命令行,替换 USER_TOKEN
使用您之前获得的令牌,然后按 Enter 执行代码,将完成Crawlbase Scraper API的调用:
curl -x “http://USER_TOKEN@smartproxy.crawlbase.com:8012" -k “https://aliexpress.com/w/wholesale-macbook-pro.html”
本篇 curl
命令将通过 Crawlbase 的智能代理向您的目标 URL 发出 HTTP 请求。 代理设置为运行于 smartproxy.crawlbase.com
在港口 8012
,并 -k
选项告诉 curl
忽略 SSL 证书验证。 当通过 HTTPS 连接到服务器并且您不想验证服务器证书的真实性时使用它。
在 Crawlbase 的智能代理上下文中,禁用 SSL 验证至关重要。 否则可能会阻碍智能代理和您的应用程序之间的交互。
成功执行后,您应该收到来自的 HTML 响应 全球速卖通 类似于此屏幕截图中显示的内容:
为智能代理请求添加参数
由于Crawlbase Scraper API 将您的请求转发到 抓取 API,它还受益于 Crawling API 的大部分功能。 您可以通过发送特定指令来微调您的请求,称为 参数,通过一个名为 CrawlbaseAPI-Parameters
.
这可以让您准确地告诉智能代理您希望它如何处理您的请求。 您可以对其进行自定义以完美满足您的需求。
在这种情况下,我们将使用一个名为 scraper=aliexpress-serp
。 这告诉智能代理提取网站的响应并以易于理解的方式组织它。 这就像要求 Smart Proxy 将杂乱的网站数据转变为整齐且有组织的信息。
curl -H “CrawlbaseAPI-参数:scraper=aliexpress-serp” -x “http://USER_TOKEN@smartproxy.crawlbase.com:8012" -k “https://aliexpress.com/w/wholesale-macbook-pro.html”
使用 Python 调用 Crawlbase Scraper API
步骤 1. 配置您的 Python 项目
现在我们已经讨论了智能代理如何运行的基本细节。 我们已准备好设置 Python 环境。
首先确保您有 Python 安装在您的机器上。 如果这是您第一次使用 Python,我们推荐我们的 Python 初学者指南 并按照有关如何在系统上正确设置 Python 的分步过程进行操作。
步骤 2. 设置项目目录
在计算机上配置 Python 后,我们现在需要设置一个新项目。 打开控制台或终端并执行以下命令。
<code>mkdir crawbase</code>
mkdir
:这是一个代表“make directory”的命令。 它用于创建新目录。crawlbase
:这是您要创建的目录的名称。 在本例中,它被命名为“crawlbase”,但您可以将其替换为您喜欢的任何其他名称。
接下来,执行下面的命令。
cd 文件夹名称 <br>
<code>touch crawlbase.py</code>
cd folder-name
:该命令代表“更改目录”。 它用于导航到特定文件夹。 将“文件夹名称”替换为您要输入的文件夹的名称。&&
:这是一个逻辑运算符,意思是“和”。 在此命令的上下文中,它确保命令的第二部分(touch crawlbase.py
) 仅当第一部分 (cd folder-name
) 成功。touch crawlbase.py
:本touch
命令用于创建一个空文件。 在这种情况下,它会在前面指定的目录中创建一个名为“crawlbase.py”的文件cd
命令。
因此,当您运行这行代码时,它会执行两件事:
- 它将当前目录更改为“文件夹名称”指定的目录。
- 它在该目录中创建一个名为“crawlbase.py”的新的空 Python 文件。
步骤3.安装依赖项
要从 AliExpress 网页检索数据并将其保存到 JSON 文件,我们需要两个基本包。
要求:这个包简化了发送HTTP/1.1请求的过程。 您不必手动将查询字符串添加到 URL 或对 PUT 和 POST 数据进行编码。 为了简单起见,您可以只使用 json 方法。
JSON:Python 本身支持 JSON。 它带有一个名为 json 的内置包,用于编码和解码 JSON 数据,无需安装额外的包。
步骤 4. 通过 Python 使用智能代理
我们已经可以开始编写主要的 Python 代码并集成智能代理调用了。
在上一节中,我们创建了一个名为 crawlbase.py
。 找到此文件,复制下面的代码并运行它以检索所需的数据。
import requests<br>
<br>
# replace with your Crawlbase user_token.<br>
username = 'USER_TOKEN'<br>
password = '' # password is empty, its not used for authentication.<br>
proxy_auth = f'{username}:{password}'<br>
<br>
url = 'https://nl.aliexpress.com/w/wholesale-macbook-pro.html'<br>
proxy_url = f"http://{proxy_auth}@smartproxy.crawlbase.com:8012"<br>
proxies = {"http": proxy_url, "https": proxy_url}<br>
<br>
response = requests.get(url=url, proxies=proxies, verify=False)<br>
<br>
print('Response Body: ', response.content)
导入 requests
Library:
该行导入 requests
Library,它简化了在 Python 中发出 HTTP 请求的过程。
设置代理身份验证:
更换 'USER_TOKEN'
使用您实际的 Crawlbase 用户令牌。 该令牌用于通过智能代理发出请求时进行身份验证。 这 proxy_auth
然后,遵循基本身份验证格式,将变量格式化为包含用户名和空密码。
定义 URL 和代理 URL:
url
:这是您要抓取的目标 URL。 在本例中,它是与 MacBook Pro 批发相关的速卖通网页。proxy_url
:这是智能代理服务器的 URL,包括身份验证详细信息。 网址格式为http://username:password@proxy_host:proxy_port
.
设置代理:
我们推荐使用 proxies
创建字典来指定代理设置。 “http”和“https”都设置为使用相同的代理 URL。
提出请求:
requests.get
:该函数向指定的URL发起HTTP GET请求。proxies
:代理参数设置为使用配置的代理设置。verify=False
:该参数设置为False
忽略 SSL 证书验证。 在生产环境中,正确处理 SSL 验证至关重要。
打印响应正文:
此行打印响应的内容,其中包括 HTML 或从指定 URL 检索的数据。
步骤 5. 执行 Python 代码
代码的成功响应将获取 AliExpress URL 的完整 HTML 源代码并将其显示在您的控制台上。 该数据在大多数情况下还没有用处,因为它很难剖析。 为了获得更合理且易于阅读的数据,我们必须解析此响应并将其转换为结构化数据,然后将其存储在数据库中以便于检索和分析。
步骤 6. 使用 AliExpress scraper 解析数据
此步骤将利用智能代理自动解析 AliExpress 数据的功能。 为此,我们只需要传递 scraper=速卖通-serp – CrawlbaseAPI-parameters
作为我们代码中的标题。 编辑你的 crawlbase.py
文件并粘贴下面的代码。
import requests<br>
import json<br>
<br>
# replace with your Crawlbase user_token.<br>
username = 'USER_TOKEN'<br>
password = '' # password is empty, its not used for authentication.<br>
proxy_auth = f'{username}:{password}'<br>
<br>
url = 'https://nl.aliexpress.com/w/wholesale-macbook-pro.html'<br>
proxy_url = f"http://{proxy_auth}@smartproxy.crawlbase.com:8012"<br>
proxies = {"http": proxy_url, "https": proxy_url}<br>
<br>
headers = {<br>
"CrawlbaseAPI-Parameters": "scraper=aliexpress-serp"<br>
}<br>
<br>
response = requests.get(url=url, proxies=proxies,<br>
headers=headers, verify=False)<br>
<br>
data = json.loads(response.text)<br>
<br>
print('Response Scraped Body: ', json.dumps(data, indent=4))
执行此代码后,响应将采用 JSON 格式,如下所示:
{<br>
"original_status": 200,<br>
"pc_status": 200,<br>
"url": "https://nl.aliexpress.com/w/wholesale-macbook-pro.html?spm=MI7V_IrIdoZgPjgbnB0s3Q&",<br>
"body": {<br>
"products": [<br>
{<br>
"title": "5 In 1 Usb C Hub Type C Naar 4K Hd Adapter Met Rj45 Netwerk 100M 1000M Ethernet Lan Oplader Adapter Voor Macbook Pro",<br>
"price": {<br>
"current": "\uffe11.27"<br>
},<br>
"url": "https://nl.aliexpress.com/item/1005005653517644.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-0&pdp_npi=4%40dis%21GBP%215.76%211.27%21%21%216.86%21%21%40210318ec16999696359782730e2cad%2112000033898457492%21sea%21UK%210%21AB&curPageLogUid=SwEz55KtOSLT",<br>
"image": "https://ae04.alicdn.com/kf/Sbffa8b7a90564cff82ca0b7c2ece62038/5-in-1-USB-C-Hub-Type-C-To-4K-HD-Adapter-with-RJ45-Network-100M.jpg_220x220xz.jpg_.webp",<br>
"shippingMessage": "Gratis verzending boven de \uffe18 \u00b7 Levering binnen 7 dagen",<br>
"soldCount": 207,<br>
"ratingValue": "",<br>
"ratingLink": "https://nl.aliexpress.com/item/1005005653517644.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-0&pdp_npi=4%40dis%21GBP%215.76%211.27%21%21%216.86%21%21%40210318ec16999696359782730e2cad%2112000033898457492%21sea%21UK%210%21AB&curPageLogUid=SwEz55KtOSLT",<br>
"sellerInformation": {<br>
"storeName": "",<br>
"storeLink": null<br>
}<br>
},<br>
{<br>
"title": "Getatek Usb C Hub 4K 60Hz Hdmi Docking Station Type C Naar Ethernet Poort Pd 100W Usb 3.2 Hub Adapter Voor Macbook Pro Xiaomi Lenovo",<br>
"price": {<br>
"current": "\uffe19.66"<br>
},<br>
"url": "https://nl.aliexpress.com/item/1005005980859268.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-1&pdp_npi=4%40dis%21GBP%2130.10%219.66%21%21%21261.78%21%21%40210318ec16999696359782730e2cad%2112000035159491762%21sea%21UK%210%21AB&curPageLogUid=zcTTJdwE54mt",<br>
"image": "https://ae04.alicdn.com/kf/S07ec6c1f025748f591ba11f8c9289000U/Getatek-USB-C-Hub-4K-60Hz-HDMI-Docking-Station-Type-C-to-Ethernet-Port-PD-100W.jpg_220x220xz.jpg_.webp",<br>
"shippingMessage": "Gratis verzending",<br>
"soldCount": 261,<br>
"ratingValue": "",<br>
"ratingLink": "https://nl.aliexpress.com/item/1005005980859268.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-1&pdp_npi=4%40dis%21GBP%2130.10%219.66%21%21%21261.78%21%21%40210318ec16999696359782730e2cad%2112000035159491762%21sea%21UK%210%21AB&curPageLogUid=zcTTJdwE54mt",<br>
"sellerInformation": {<br>
"storeName": "",<br>
"storeLink": null<br>
}<br>
},<br>
{<br>
"title": "12-In-1 Usb C Hub Docking Station Hdmi-Compatibele Adapter 4K 30Hz Pd 100W Type-C Hub Usb 3.0 Splitter Voor Laptop Macbook Pro Air",<br>
"price": {<br>
"current": "\uffe113.92"<br>
},<br>
"url": "https://nl.aliexpress.com/item/1005006054738654.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-2&pdp_npi=4%40dis%21GBP%2136.62%2113.92%21%21%2143.63%21%21%40210318ec16999696359782730e2cad%2112000035520585565%21sea%21UK%210%21AB&curPageLogUid=YU2V7Z8Q7JSg",<br>
"image": "https://ae04.alicdn.com/kf/S5a1cda79dd644150b8755030c9bdc68aJ/12-in-1-USB-C-HUB-Docking-Station-HDMI-compatible-Adapter-4K-30Hz-PD-100W-Type.jpg_220x220xz.jpg_.webp",<br>
"shippingMessage": "Gratis verzending",<br>
"soldCount": 47,<br>
"ratingValue": "",<br>
"ratingLink": "https://nl.aliexpress.com/item/1005006054738654.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-2&pdp_npi=4%40dis%21GBP%2136.62%2113.92%21%21%2143.63%21%21%40210318ec16999696359782730e2cad%2112000035520585565%21sea%21UK%210%21AB&curPageLogUid=YU2V7Z8Q7JSg",<br>
"sellerInformation": {<br>
"storeName": "",<br>
"storeLink": null<br>
}<br>
},<br>
{<br>
"title": "Baseus Usb Type C Hub Naar Hdmi Compatibel Usb 3.0 Adapter 6 In 1 Type C Hub Dock Voor macbook Pro Air Usb C Splitter",<br>
"price": {<br>
"current": "\uffe16.46"<br>
},<br>
"url": "https://nl.aliexpress.com/item/1005005208865147.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-3&pdp_npi=4%40dis%21GBP%2137.49%216.46%21%21%21325.98%21%21%40210318ec16999696359782730e2cad%2112000032856872202%21sea%21UK%210%21AB&curPageLogUid=0JuHtQXjX8DN",<br>
"image": "https://ae04.alicdn.com/kf/S72ff1470a93645d6b3afd70400d7a288N/Baseus-USB-Type-C-HUB-to-HDMI-compatible-USB-3-0-Adapter-6-in-1-Type.jpg_220x220xz.jpg_.webp",<br>
"shippingMessage": "Gratis verzending boven de \uffe18 \u00b7 Levering binnen 5 dagen",<br>
"soldCount": 900,<br>
"ratingValue": "",<br>
"ratingLink": "https://nl.aliexpress.com/item/1005005208865147.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-3&pdp_npi=4%40dis%21GBP%2137.49%216.46%21%21%21325.98%21%21%40210318ec16999696359782730e2cad%2112000032856872202%21sea%21UK%210%21AB&curPageLogUid=0JuHtQXjX8DN",<br>
"sellerInformation": {<br>
"storeName": "",<br>
"storeLink": null<br>
}<br>
},<br>
{<br>
"title": "Huav 2024 Originele Laptop 13.3 Inch 360% Omgedraaid Ultralicht 2K Touchscreen 16G Met 2Tssd Intel N4120 Windows 10 11 Laptop",<br>
"price": {<br>
"current": "\uffe1270.74"<br>
},<br>
"url": "https://nl.aliexpress.com/item/1005006176614563.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&aem_p4p_detail=20231114054716531607197640720004634170&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-4&pdp_npi=4%40dis%21GBP%21356.23%21270.74%21%21%213097.62%21%21%40210318ec16999696359782730e2cad%2112000036140607614%21sea%21UK%210%21AB&curPageLogUid=CWtKq454SCOw&search_p4p_id=20231114054716531607197640720004634170_1",<br>
"image": "https://ae04.alicdn.com/kf/S09eb548a999e407384e583126b354e73Y/HUAV-2024-Original-Laptop-13-3-inch-360-Flipped-Ultra-Light-2K-Touch-Screen-16G-Running.jpg_220x220xz.jpg_.webp",<br>
"shippingMessage": "Gratis verzending",<br>
"soldCount": 18,<br>
"ratingValue": "",<br>
"ratingLink": "https://nl.aliexpress.com/item/1005006176614563.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&aem_p4p_detail=20231114054716531607197640720004634170&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-4&pdp_npi=4%40dis%21GBP%21356.23%21270.74%21%21%213097.62%21%21%40210318ec16999696359782730e2cad%2112000036140607614%21sea%21UK%210%21AB&curPageLogUid=CWtKq454SCOw&search_p4p_id=20231114054716531607197640720004634170_1",<br>
"sellerInformation": {<br>
"storeName": "",<br>
"storeLink": null<br>
}<br>
},<br>
{<br>
"title": "Usb Hub 3.0 4 Poorten Usb3.0 Multi Splitter Adapter Otg Voor Xiaomi Lenovo Macbook Pro 13 15 Air Pro Pc Computer Laptop Accessoires",<br>
"price": {<br>
"current": "\uffe12.74"<br>
},<br>
"url": "https://nl.aliexpress.com/item/1005006212928878.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-5&pdp_npi=4%40dis%21GBP%214.57%212.74%21%21%215.44%21%21%40210318ec16999696359782730e2cad%2112000036304475455%21sea%21UK%210%21AB&curPageLogUid=koszKvWCNDet",<br>
"image": "https://ae04.alicdn.com/kf/S3a56023e42be4eff830bd6174528311bp/USB-HUB-3-0-4-Ports-USB3-0-Multi-Splitter-Adapter-OTG-For-Xiaomi-Lenovo-Macbook.jpg_220x220xz.jpg_.webp",<br>
"shippingMessage": "12-dag levering over \uffe18.39",<br>
"soldCount": 9,<br>
"ratingValue": "",<br>
"ratingLink": "https://nl.aliexpress.com/item/1005006212928878.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-5&pdp_npi=4%40dis%21GBP%214.57%212.74%21%21%215.44%21%21%40210318ec16999696359782730e2cad%2112000036304475455%21sea%21UK%210%21AB&curPageLogUid=koszKvWCNDet",<br>
"sellerInformation": {<br>
"storeName": "",<br>
"storeLink": null<br>
}<br>
},<br>
{<br>
"title": "Usb C Hub Voor Stoomdek Dockingstation Type C Naar Hdmi-Compatibel 4K 60Hz Pd 100W Usb 3.0 Adapterkabel Voor Laptop Macbook Pro",<br>
"price": {<br>
"current": "\uffe17.57"<br>
},<br>
"url": "https://nl.aliexpress.com/item/1005005653434065.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-6&pdp_npi=4%40dis%21GBP%2120.45%217.57%21%21%2124.37%21%21%40210318ec16999696359782730e2cad%2112000033897379128%21sea%21UK%210%21AB&curPageLogUid=E6zEd5ZZ3wXs",<br>
"image": "https://ae04.alicdn.com/kf/S73ea26b1e655401cb67152e3c2aa3f30i/USB-C-HUB-for-Steam-Deck-Docking-Station-Type-C-to-HDMI-compatible-4K-60Hz-PD.jpg_220x220xz.jpg_.webp",<br>
"shippingMessage": "Gratis verzending",<br>
"soldCount": 30,<br>
"ratingValue": "",<br>
"ratingLink": "https://nl.aliexpress.com/item/1005005653434065.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-6&pdp_npi=4%40dis%21GBP%2120.45%217.57%21%21%2124.37%21%21%40210318ec16999696359782730e2cad%2112000033897379128%21sea%21UK%210%21AB&curPageLogUid=E6zEd5ZZ3wXs",<br>
"sellerInformation": {<br>
"storeName": "",<br>
"storeLink": null<br>
}<br>
},<br>
{<br>
"title": "Usb C Naar Ethernet Adapter Rj45 Naar Thunderbolt 3 Type C Gigabit Netwerk Lan 1000Mbps Converter Voor Macbook Pro/Air Samsung Galaxy",<br>
"price": {<br>
"current": "\uffe13.37"<br>
},<br>
"url": "https://nl.aliexpress.com/item/1005006224668700.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-7&pdp_npi=4%40dis%21GBP%2111.24%213.37%21%21%2197.76%21%21%40210318ec16999696359782730e2cad%2112000036356461171%21sea%21UK%210%21AB&curPageLogUid=PuUF5xuqSwIN",<br>
"image": "https://ae04.alicdn.com/kf/S6a1bc693df814f689c8a28bb25ce9867L/USB-C-to-Ethernet-Adapter-RJ45-to-Thunderbolt-3-Type-C-Gigabit-Network-LAN-1000Mbps-Converter.jpg_220x220xz.jpg_.webp",<br>
"shippingMessage": "12-dag levering over \uffe18.39",<br>
"soldCount": null,<br>
"ratingValue": "",<br>
"ratingLink": "https://nl.aliexpress.com/item/1005006224668700.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-7&pdp_npi=4%40dis%21GBP%2111.24%213.37%21%21%2197.76%21%21%40210318ec16999696359782730e2cad%2112000036356461171%21sea%21UK%210%21AB&curPageLogUid=PuUF5xuqSwIN",<br>
"sellerInformation": {<br>
"storeName": "",<br>
"storeLink": null<br>
}<br>
},<br>
{<br>
"title": "Minisopuru Hub Usb C Hub 10Gbps Hub Usb Type C Naar Usb 3.2 Pd 100W Adapter Voor Macbook Pro Imac Pc Accessoires Usb Hub",<br>
"price": {<br>
"current": "\uffe14.64"<br>
},<br>
"url": "https://nl.aliexpress.com/item/1005005883953605.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-8&pdp_npi=4%40dis%21GBP%2132.13%214.64%21%21%21279.37%21%21%40210318ec16999696359782730e2cad%2112000034711180884%21sea%21UK%210%21AB&curPageLogUid=QeKUEU8r5Hh8",<br>
"image": "https://ae04.alicdn.com/kf/S13153af571704d17b2143b89918557785/Minisopuru-HUB-USB-C-Hub-10Gbps-Hub-USB-Type-C-to-USB-3-2-PD-100W.jpg_220x220xz.jpg_.webp",<br>
"shippingMessage": "Gratis verzending boven de \uffe18 \u00b7 Levering binnen 7 dagen",<br>
"soldCount": 600,<br>
"ratingValue": "",<br>
"ratingLink": "https://nl.aliexpress.com/item/1005005883953605.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-8&pdp_npi=4%40dis%21GBP%2132.13%214.64%21%21%21279.37%21%21%40210318ec16999696359782730e2cad%2112000034711180884%21sea%21UK%210%21AB&curPageLogUid=QeKUEU8r5Hh8",<br>
"sellerInformation": {<br>
"storeName": "",<br>
"storeLink": null<br>
}<br>
},<br>
{<br>
"title": "Screen Vervanging Compatibel Met Macbook Pro Air A1706 A1708 A1989 A2159 A2251 A2289 A2338 A1466 A1932 A2179 A2337 Lcd Display",<br>
"price": {<br>
"current": "\uffe1113.97"<br>
},<br>
"url": "https://nl.aliexpress.com/item/1005003836485026.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&aem_p4p_detail=20231114054716531607197640720004634170&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-9&pdp_npi=4%40dis%21GBP%21113.97%21113.97%21%21%21135.79%21%21%40210318ec16999696359782730e2cad%2112000031226615553%21sea%21UK%210%21AB&curPageLogUid=0LcWc3CWSgz3&search_p4p_id=20231114054716531607197640720004634170_2",<br>
"image": "",<br>
"shippingMessage": "Verzending: \uffe130.92",<br>
"soldCount": 128,<br>
"ratingValue": "",<br>
"ratingLink": "https://nl.aliexpress.com/item/1005003836485026.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&aem_p4p_detail=20231114054716531607197640720004634170&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-9&pdp_npi=4%40dis%21GBP%21113.97%21113.97%21%21%21135.79%21%21%40210318ec16999696359782730e2cad%2112000031226615553%21sea%21UK%210%21AB&curPageLogUid=0LcWc3CWSgz3&search_p4p_id=20231114054716531607197640720004634170_2",<br>
"sellerInformation": {<br>
"storeName": "",<br>
"storeLink": null<br>
}<br>
}<br>
],<br>
"relatedSearches": [<br>
{<br>
"title": "adapter netsnoer",<br>
"link": "https://nl.aliexpress.com/w/wholesale-adapter-netsnoer.html"<br>
},<br>
{<br>
"title": "macbook lucht bezel",<br>
"link": "https://nl.aliexpress.com/w/wholesale-macbook-air-bezel.html"<br>
},<br>
{<br>
"title": "macbook oplader",<br>
"link": "https://nl.aliexpress.com/w/wholesale-macbook-oplader.html"<br>
},<br>
{<br>
"title": "usb onderdeel",<br>
"link": "https://nl.aliexpress.com/w/wholesale-usb-c-onderdeel.html"<br>
},<br>
{<br>
"title": "keyboard bescherming macbook air",<br>
"link": "https://nl.aliexpress.com/w/wholesale-keyboard-bescherming-macbook-air.html"<br>
},<br>
{<br>
"title": "usb naar type c splitter",<br>
"link": "https://nl.aliexpress.com/w/wholesale-usb-naar-type-c-splitter.html"<br>
},<br>
{<br>
"title": "mac poorten",<br>
"link": "https://nl.aliexpress.com/w/wholesale-mac-poorten.html"<br>
},<br>
{<br>
"title": "dell laptops",<br>
"link": "https://nl.aliexpress.com/w/wholesale-dell-laptops.html"<br>
},<br>
{<br>
"title": "magsafe oplader macbook pro",<br>
"link": "https://nl.aliexpress.com/w/wholesale-magsafe-charger-macbook-pro.html"<br>
},<br>
{<br>
"title": "macbook pro a1229",<br>
"link": "https://nl.aliexpress.com/w/wholesale-macbook-pro-a1229.html"<br>
},<br>
{<br>
"title": "macbook lucht m1 16 16",<br>
"link": "https://nl.aliexpress.com/w/wholesale-macbook-air-m1-16-512.html"<br>
},<br>
{<br>
"title": "macbook pro a1708 toetsenbord vervanging",<br>
"link": "https://nl.aliexpress.com/w/wholesale-macbook-pro-a1708-keyboard-replacement.html"<br>
}<br>
],<br>
"relatedCategories": []<br>
}<br>
}
步骤 7. 将解析的数据保存到 JSON 文件
当然,我们不会让数据白白浪费。 在此步骤中,我们将在代码中添加几行,以便我们可以安全地存储抓取的数据以供以后使用。 回到你的 crawlbase.py
再次文件并粘贴下面的代码。
import requests<br>
import json<br>
<br>
# replace with your user_token which you get from your dashboard.<br>
username = 'USER_TOKEN'<br>
password = '' # password is empty, its not used for authentication.<br>
proxy_auth = f'{username}:{password}'<br>
<br>
url = 'https://nl.aliexpress.com/w/wholesale-macbook-pro.html'<br>
proxy_url = f"http://{proxy_auth}@smartproxy.crawlbase.com:8012"<br>
proxies = {"http": proxy_url, "https": proxy_url}<br>
<br>
headers = {<br>
"CrawlbaseAPI-Parameters": "scraper=aliexpress-serp"<br>
}<br>
<br>
response = requests.get(url=url, proxies=proxies,<br>
headers=headers, verify=False)<br>
<br>
data = json.loads(response.text)<br>
<br>
with open('scraped_data.json', 'w') as json_file:<br>
json.dump(data, json_file)<br>
<br>
print('Response Scraped Body: ', json.dumps(data, indent=4))
处理响应并将其保存为 JSON:
json.loads(response.text)
:这会将响应的 JSON 格式文本转换为 Python 字典。with open('scraped_data.json', 'w') as json_file
:以写入模式打开名为“scraped_data.json”的文件。json.dump(data, json_file)
:将Python字典(转换后的JSON数据)写入文件。
总结
在这篇博客中,我们深入探讨了Crawlbase Scraper API 的细节及其在提高 AliExpress 网页抓取效率方面发挥的重要作用。
该分步指南提供了有关配置 Python 项目、设置项目目录、安装依赖项、与 Python 无缝使用智能代理、执行代码以及使用 AliExpress 网络抓取工具高效解析抓取数据的深入介绍。最后一步是将解析后的数据保存到结构化 JSON 文件中。
- 点赞
- 收藏
- 关注作者
评论(0)