- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

[爬虫]python下的xpath清洗数据之html数据清洗

~大鱼~ 发表于 2021/05/27 16:24:36 2021/05/27

【摘要】目录源起分析解决总结源起现在我们面对一些爬虫数据，特别是对于web网页的爬取的时候，网页总有一些不规整的数据来导致拿数据的麻烦，比如如下这种 <html> <div> <p>111</p> <p>222</p> <p>333</p> <p&gt...

源起

现在我们面对一些爬虫数据，特别是对于web网页的爬取的时候，网页总有一些不规整的数据来导致拿数据的麻烦，比如如下这种

<html> <div> <p>111</p> <p>222</p> <p>333</p> <p>444 <script> eeeeeeeeeeee </script> </p> <p>555 <script> aabbccddd </script> </p> </div> </html>

<html>

<div>

<p>444

eeeeeeeeeeee

</script>

</p>

<p>555

aabbccddd

</script>

</p>

</div>

</html>

我只想拿到111,222,333,444,555这些有效的信息，因为有些p标签里面会引入script元素，导致我们还要在后期清洗，比较麻烦

分析

首先拿到问题我们就可以本能的想至少两种方式，如果当成是文本处理，使用排除掉script这些文本，另外我们可以直接移除掉这些script元素，这里我不推荐使用正则，毕竟我们拿到一个特定的环境，比如lxml 库就可以很轻松的处理这些文档，使用正则后期维护困难，另外，你过两个星期之后你也不会知道你当时写的正则是什么意思

解决

还是直接上代码吧

<br /># -*- coding: utf-8 -*- from lxml import html from lxml.html.clean import Cleaner html_str = """ <html> <div> <p>111111</p> <p>222222</p> <p>333333</p> <p>44444 <script> eeeeeeeeeeee </script> </p> <p>665666 <script> aabbccddd </script> </p> </div> </html> """ def clean_script(): cleaner = Cleaner() cleaner.javascript = True # This is True because we want to activate the javascript filter cleaner.style = True # clean the style element tree = html.fromstring(html_str) print html.tostring(cleaner.clean_html(tree)) def remove_node(): tree = html.fromstring(html_str) ele = tree.xpath('//script') for e in ele: e.getparent().remove(e) print html.tostring(tree) if __name__ == '__main__': remove_node()

<br /># -*- coding: utf-8 -*-

from lxml import html

from lxml.html.clean import Cleaner

html_str = """

<html>

<div>

<p>44444

eeeeeeeeeeee

</script>

</p>

<p>665666

aabbccddd

</script>

</p>

</div>

</html>

"""

def clean_script():

cleaner = Cleaner()

cleaner.javascript = True # This is True because we want to activate the javascript filter

cleaner.style = True # clean the style element

tree = html.fromstring(html_str)

print html.tostring(cleaner.clean_html(tree))

def remove_node():

tree = html.fromstring(html_str)

ele = tree.xpath('//script')

for e in ele:

e.getparent().remove(e)

print html.tostring(tree)

if __name__ == '__main__':

remove_node()

输出结果

<html>

<p>44444

</p>

<p>665666

</p>

</div>

</body></html>

总结

本次主要介绍了常见的html 数据清洗方法，介绍了lxml 一些常用操作和方法，希望对于大家清洗数据的时候有帮助

文章来源: brucedone.com，作者：大鱼的鱼塘，版权归原作者所有，如需转载，请联系作者。

原文链接：brucedone.com/archives/1149

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

[爬虫]python下的xpath清洗数据之html数据清洗

目录

源起

分析

解决

总结

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品