- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

爬虫系列：连接网站与解析 HTML

爬虫程序大魔王发表于 2021/10/12 16:34:26 2021/10/12

【摘要】连接网站与解析 HTML

这篇文章是爬虫系列第三期，讲解使用 Python 连接到网站，并使用 BeautifulSoup 解析 HTML 页面。

在 Python 中我们使用 requests 库来访问目标网站，使用 BeautifulSoup 对获取的内容进行解析。由于这两个库并不是 Python 标准库，因此需要单独安装这两个库：

pip install beautifulsoup4

pip install requests

下面是获取网站内容的示例代码：

from urllib.error import HTTPError, URLError
import requests
from bs4 import BeautifulSoup

from config import logger_config


class ProcessConnection:
    def __init__(self):
        logger_name = ‘web_scraping'
        self._logger_write_file = logger_config.LoggingConfig().init_logging(logger_name)

    def init_connection(self, uri):
        # 连接网站
        try:
            session = requests.session()
            headers = {
                "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36",
                "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9"}
            html = session.get(uri, headers=headers)
        except (HTTPError, URLError) as e:
            self._logger_write_file.error('执行 get_sms_data 函数出错，具体错误内容：{message}'.format(message=e))
            return False
        try:
            bsObj = BeautifulSoup(html.text, features='html.parser')
            return bsObj
        except AttributeError as e:
            self._logger_write_file.error('执行 get_sms_data 函数出错，具体错误内容：{message}'.format(message=e))
            return False

首先使用了 requests 会话对象发送请求，并且设置了 User-agent，这里 User-agent 可以自定，这就为伪造 User-agent 提供了便利，同时也告诉了服务器客户端接受那些内容类型：

session = requests.session()
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36",
     "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9"}

网络如果连接出现了错误，对错误进行异常处理：

except (HTTPError, URLError) as e:

BeautifulSoup 解析 HTML 文档出现错误，抛出 AttributeError：

except AttributeError as e:

以上就完成了一个使用 Python 连接网站的过程。这个时候如果没有异常我们就会拿到网站的 HTML 代码，之后根据需要进一步对 HTML 进行内容解析，获取自己需要的内容。

解析 HTML

如果你已经确定了目标内容，可能是采集一个名字，一组统计数据，或者一段文字。你的目标内容可能隐藏在一个 HTML “烂泥堆”的第20层标签里，带有许多没用的标签或 HTML 属性，你按照目标网站的代码层级你有可能写出如下的一行代码抽取内容：

bsObj.findAll("table")[4].findAll("tr")[2].find("td").findAll("section")[1].find("a")

虽然以上写法可以达到目标，但是这样的写法看起来并不是很好。除了代码欠缺美感之外，还有一个问题就是：当网站管理员对网站稍作修改之后，这行代码便会失效。

例如，我们需要获得自己的公网 IP 地址，我们可以通过查询这个网站获得：https://www.pdflibr.com，之后查看网页源代码，找到自己的 IP 地址，又如下源代码：

<div class="ip-wrap ip-item right-item">
      <div class="item-text-title">IP信息</div>
          <div class="user-agent-content">
            <div class="layout layout-flex-direction item-result">
                <div class="left-name">当前IP地址：</div>
                <div class="right-result">106.125.148.85</div>
             </div>
             <div class="layout layout-flex-direction item-result">
               <div class="left-name">归属地：</div>
               <div class="right-result">中国 广东 广州</div>
            </div>
        </div>
 </div>

我们使用 BeautifulSoup 经行解析：

result = bsObj.findAll("div", {"class": "right-result"})
for child in result:
    get_ip = child.get_text()
    print(get_ip)

这样就可以获取自己的 IP 以及 IP 归属地。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

爬虫系列：连接网站与解析 HTML

解析 HTML

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

爬虫系列：连接网站与解析 HTML

解析 HTML

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品