- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

lxparse:解析列表页链接和详情页内容

冬晨夕阳发表于 2022/08/22 22:41:28 2022/08/22

【摘要】 lxparse：一个适用于解析列表页链接和提取详请页内容的Python库。 Github地址：https://github.com/lixi5338619/lxparse 项目背景现有2000...

lxparse：一个适用于解析列表页链接和提取详请页内容的Python库。

Github地址：https://github.com/lixi5338619/lxparse

项目背景

现有2000个政企网站信源，要短时间实现动态监测。

开发时即要查看网站类型又要分析数据接口，然后配置解析规则，人都看麻了。所以写一个自动提取列表页链接的方法。

奈何国内的站点页面类型千奇百怪，几乎不存在通用的解析方法，只能说尽可能让页面内容提取更便捷一些。

lxparse中的列表页解析借助了readability的主体抽取方法，详情页解析引用了gen的一些正则匹配方法。

实现逻辑

列表页

1、提取列表页主体。删除html中的无关标签，主要以a标签聚焦程度为评估标准。
2、通过xpath规则筛选主体中存在的a标签，以h、ul/li、tr/td 为主，返回链接数组。
3、通过余弦公式计算数组中所有url的相似度，保留相似度较高的url，返回链接数组。
4、从数组中再次过滤，保留符合规则的链接。

详情页

标题、作者、来源：以常见规则匹配，并筛选和评估最优解。
发布时间：以常见规则和正文内容匹配，经过处理和验证后返回时间格式。
正文内容：通过readability的主体抽取方法，返回带标签和格式化的正文内容。

使用方法

安装： pip install lxparse
调用：

from lxparse import LxParse
lx = LxParse()

list_html = ""
lx.parse_list(list_html)
# 指定解析规则
lx.parse_list(list_html,xpath_list="/div[@id='lx']/a")

detail_html = ""
lx.parse_detail(detail_html)
# 指定解析规则,不声明则使用默认规则
xpath_item = {
    'xpath_title':'',
    'xpath_source':'',
    'xpath_date':'',
    'xpath_author':'',
    'xpath_content':'',
}
lx.parse_detail(detail_html,item=xpath_item)

parse_detail 返回：

测试代码

demo文件中分别有列表页和详情页的解析示例。

一些页面测试：将html保存本地后，今日头条、新浪新闻、百度资讯、网易新闻、腾讯新闻等可正常解析。

备注

使用lxparse解析库解析时，如有解析异常可手动指定解析规则。

测试用例不多，毕竟目前无法100%解析成功，如有问题可以提issues一起优化。

文章来源: blog.csdn.net，作者：考古学家lx(李玺)，版权归原作者所有，如需转载，请联系作者。

原文链接：blog.csdn.net/weixin_43582101/article/details/126453369

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

lxparse:解析列表页链接和详情页内容

项目背景

实现逻辑

列表页

详情页

使用方法

测试代码

备注

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

lxparse:解析列表页链接和详情页内容

项目背景

实现逻辑

列表页

详情页

使用方法

测试代码

备注

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品