- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

BeautifulSoup文档2-详细方法 | 对象的种类有哪些？

虫无涯发表于 2023/02/15 10:10:03 2023/02/15

【摘要】 1 使用细节将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象,；可以传入一段字符串或一个文件句柄，比如：from bs4 import BeautifulSoupsoup = BeautifulSoup(open("index.html"))soup = BeautifulSoup("<html>data</html>") 2 对象的种类 2.1 种类说明Bea...

1 使用细节

将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象,；
可以传入一段字符串或一个文件句柄，比如：

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html"))

soup = BeautifulSoup("<html>data</html>")

2 对象的种类

2.1 种类说明

Beautiful Soup将HTML文档转换成一个树形结构,每个节点都是Python对象；
所有对象为4种: Tag , NavigableString , BeautifulSoup , Comment .

2.2 Tag对象

与XML或HTML原生文档中的tag相同；

# -*- coding:utf-8 -*-
# 作者：NoamaNelson
# 日期：2023/2/14 
# 文件名称：bs02.py
# 作用：BeautifulSoup的使用
# 联系：VX(NoamaNelson)
# 博客：https://blog.csdn.net/NoamaNelson


from bs4 import BeautifulSoup

soup = BeautifulSoup('<b class="boldest">Extremely bold</b>', 'html.parser')
tag = soup.b
print(type(tag))

输出为：

<class 'bs4.element.Tag'>

tag很很多属性，两个最重要的属性: name和attributes

2.2.1 name属性

通过.name 来获取tag的名字；

print(tag.name)

输出为：

可以修改tag的name：

tag.name = "blockquote"
print(tag)

输出为：

<blockquote class="boldest">Extremely bold</blockquote>

2.2.2 attributes属性

一个tag可能有很多个属性. tag <b class="boldest"> 有一个 “class” 的属性,值为 “boldest” . tag的属性的操作方法与字典相同:

print(tag["class"])

输出为：

['boldest']

也可以直接”点”取属性, 比如: .attrs ：

print(tag.attrs)

输出为：

{'class': ['boldest']}

tag的属性可以被添加，删除或修改. 操作方法与字典一样：

tag['class'] = 'verybold'
tag['id'] = 1
print(tag)

del tag['class']
del tag['id']
print(tag)

print(tag.get('class'))

输出为：

<blockquote class="verybold" id="1">Extremely bold</blockquote>
<blockquote>Extremely bold</blockquote>
None

2.2.3 多值属性

最常见的多值的属性是 class (一个tag可以有多个CSS的class).；
还有一些属性 rel , rev , accept-charset , headers , accesskey .；
在Beautiful Soup中多值属性的返回类型是list:

# 多值属性
css_soup = BeautifulSoup('<p class="body strikeout"></p>', 'html.parser')
print(css_soup.p['class'])

css_soup = BeautifulSoup('<p class="body"></p>', 'html.parser')
print(css_soup.p['class'])

输出为：

['body', 'strikeout']
['body']

2.3 NavigableString对象

用 NavigableString 类来包装tag中的字符串；

# NavigableString类
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>', 'html.parser')
print(tag.string)
print(type(tag.string))

输出为：

Extremely bold
<class 'bs4.element.NavigableString'>

使用 replace_with() 方法替换tag中的字符串：

# replace_with() 方法
tag.string.replace_with("No longer bold")
print(tag)

输出为：

<blockquote>No longer bold</blockquote>

2.4 BeautifulSoup对象

BeautifulSoup 对象表示的是一个文档的全部内容；
它支持 遍历文档树 和 搜索文档树 中描述的大部分的方法；
包含了一个值为 “[document]” 的特殊属性：

# BeautifulSoup类
# [document]属性
print(soup.name)

输出为：

[document]

2.5 Comment对象

Comment 对象是一个特殊类型的 NavigableString 对象；
Comment可以对注释进行解析；

# Comment对象
markup = "<b><!--Hey, buddy. Want to buy a used parser?--></b>"
soup = BeautifulSoup(markup, 'html.parser')
comment = soup.b.string
print(comment)
print(type(comment))

输出为：

Hey, buddy. Want to buy a used parser?
<class 'bs4.element.Comment'>

3 本文涉及的源码

# -*- coding:utf-8 -*-
# 作者：NoamaNelson
# 日期：2023/2/14 
# 文件名称：bs02.py
# 作用：BeautifulSoup的使用
# 联系：VX(NoamaNelson)
# 博客：https://blog.csdn.net/NoamaNelson


from bs4 import BeautifulSoup

# name属性
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>', 'html.parser')
tag = soup.b
print(type(tag))
print(tag.name)

# 修改name
tag.name = "blockquote"
print(tag)
print(tag["class"])

# Attributes属性
print(tag.attrs)

# tag属性修改删除等操作
tag['class'] = 'verybold'
tag['id'] = 1
print(tag)
del tag['class']
del tag['id']
print(tag)
print(tag.get('class'))


# 多值属性
css_soup = BeautifulSoup('<p class="body strikeout"></p>', 'html.parser')
print(css_soup.p['class'])

css_soup = BeautifulSoup('<p class="body"></p>', 'html.parser')
print(css_soup.p['class'])

# NavigableString类
print(tag.string)
print(type(tag.string))
# replace_with() 方法
tag.string.replace_with("No longer bold")
print(tag)

# BeautifulSoup类
# [document]属性
print(soup.name)
# Comment对象
markup = "<b><!--Hey, buddy. Want to buy a used parser?--></b>"
soup = BeautifulSoup(markup, 'html.parser')
comment = soup.b.string
print(comment)
print(type(comment))

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

BeautifulSoup文档2-详细方法 | 对象的种类有哪些？

1 使用细节

2 对象的种类

2.1 种类说明

2.2 Tag对象

2.2.1 name属性

2.2.2 attributes属性

2.2.3 多值属性

2.3 NavigableString对象

2.4 BeautifulSoup对象

2.5 Comment对象

3 本文涉及的源码

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

BeautifulSoup文档2-详细方法 | 对象的种类有哪些？

1 使用细节

2 对象的种类

2.1 种类说明

2.2 Tag对象

2.2.1 name属性

2.2.2 attributes属性

2.2.3 多值属性

2.3 NavigableString对象

2.4 BeautifulSoup对象

2.5 Comment对象

3 本文涉及的源码

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品