环境篇

Python3环境配置

既然要用Python 3开发爬虫，那么第一步一定是安装Python 3。这里会介绍Windows、Linux和Mac三大平台下的安装过程。

进入详情

MongoDB安装

MongoDB是由C++编写的非关系型数据库，是一个基于分布式文件存储的开源数据库系统，其内容存储形式类似JSON对象，非常灵活。

进入详情

Redis环境配置

Redis是一个基于内存的高效的非关系型数据库，本节中我们来了解一下它在各个平台的安装过程。欢迎交流。

进入详情

MySQL环境配置

MySQL 是一个轻量级的关系型数据库，在本节中我们来了解下它的安装方式。欢迎大家一起交流学习。

进入详情

App爬取相关库的安装

爬虫也可以抓取App的数据App中的页面要加载出来，首先需要获取数据，而这些数据一般是通过请求服务器的接口来获取的。

进入详情

基础篇

爬虫基本原理

我们可以把互联网比作一张大网，而爬虫（即网络爬虫）便是在网上爬行的蜘蛛。一个网页继续获取后续的网页。

进入详情

Urllib库基本使用

在Python 2中，有urllib和urllib2两个库来实现请求的发送。而在Python 3中，已经不存在urllib2这个库了，统一为urllib。

进入详情

Requests库基本使用

为了更加方便地实现这些操作，就有了更为强大的库requests，有了它，Cookies、登录验证、代理设置等操作都不是事儿。

进入详情

正则表达式基础

正则表达式是处理字符串的强大工具，它有自己特定的语法结构，有了它，实现字符串的检索、替换、匹配验证都不在话下。

进入详情

pyquery详解

如果你对Web有所涉及，如果你比较喜欢用CSS选择器，如果你对jQuery有所了解，那么这里有一个更适合你的解析库——pyquery。

进入详情

实战篇

使用Requests+正则表达式爬取猫眼电影

我们利用requests库和正则表达式来抓取猫眼电影TOP100的相关内容。requests比urllib使用更加方便。

进入详情

分析Ajax爬取今日头条街拍美图

本节中，我们以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法。抓取完成之后，将每组图片分文件夹下载并保存下来。

进入详情

使用Selenium模拟浏览器抓取淘宝商品美食信息

淘宝，它的整个页面数据确实也是通过Ajax获取的，但是这些Ajax接口参数比较复杂，可能会包含加密密钥等。

进入详情

进阶篇

10 行代码完成抖音热门视频的爬取

使用不到 10 行代码完成热门视频的下载、相关音乐的下载以及结构化信息的存储。本文就来详细介绍一下这个库的用法和逻辑实现。

进入详情

干货下载：网络爬虫总结资料

整体分为三个阶段，先介绍了从大学以来从事编程开发相关历程，其次是正式的网络爬虫分享，详细总结了网络爬虫开发的一些要点。

进入详情

开发者空间

了解空间

工作台

开发工具

实战案例

空间活动

空间论坛

开发平台

软件开发生产线 CodeArts

AI平台ModelArts

数据治理中心 DataArts Studio

数字内容生产线 MetaStudio

精选服务

云数据库 GaussDB

云数据库 RDS for MySQL

MapReduce服务 MRS

数据仓库服务 DWS

分布式缓存服务Redis版

分布式消息服务 DMS

华为云实时音视频 SparkRTC

媒体处理 MPC

主机迁移服务 SMS

对象存储迁移服务 OMS

云消息服务 KooMessage

云手机服务 KooPhone

企业搜索服务 KooSearch

云地图服务 KooMap

更多开放能力

开发工具

API生态

CodeArts API

API Explorer

Terraform Explorer

KooCLI

API 中心

SDK 中心

开发服务

Codelabs

DevStar

低代码平台Astro

CodeArts IDE

Huawei Cloud Toolkit

Classroom

开发资源

开源镜像站

开源资源

开发语言

开发实践

入门精选

分发资源

企业应用中心

企业通用专区

教育专区

华为应用专区

政务云专区

硬件云服务商城

医疗健康专区

跳蚤市场

华为云开发者日

直播专区

开发者精品活动

DTSE Tech Talk

加入HCDE

加入HCDG

加入HCSD

加入HCWD

鲁班会

沃土云创计划·企业

沃土云创计划·高校

沃土云创计划·个人

沃土云创计划·开源共创

博客

论坛

专题

开发者榜单

学习路径

在线课程

动手实验

考试认证

培训服务