- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

GNE 版本升级，基于可视化信号自动化识别并提取新闻正文

未闻Code 发表于 2022/01/28 11:22:54 2022/01/28

【摘要】 GNE 是一个通用的新闻正文抽取器，自从开源以来，已经被很多人用来作为新闻正文通用爬虫的重要组件，近日GNE 版本升级，可基于可视化信号自动化识别并提取新闻正文。

GNE 是一个通用的新闻正文抽取器，自从开源以来，已经被很多人用来作为新闻正文通用爬虫的重要组件。

GNE 的算法，来自于《基于文本及符号密度的网页正文提取方法》[1]，这个算法是完全基于 HTML 里面的信息来寻找正文。因此，它有一些先天性缺陷：

如果正文只有三五句话，但评论是长篇大论，提取就会失败
如果正文里面 html 标签太多，也会导致正文找错位置
经常提取到版权信息

但如果让人来看网页，就不会搞错。因为正文的位置和评论的位置肯定不一样，版权信息一般在最下面……这些可视化信号，是通过 CSS 来确定的，单纯从 HTML 中是看不到的。

GNE 输入的HTML，原本就是使用模拟浏览器输出的 HTML，并不是真正的网页源代码。既然如此，在使用模拟浏览器的时候，为什么不直接把每个节点的坐标信息都记录下来呢？在使用模拟浏览器的时候，只需要执行一段 JavaScript 代码，就可以把每个节点是否可见，每个可见节点的长宽高、左上角、右下角的坐标记录下来。这样，GNE 在解析正文的时候，可以参考这些信息，直接移除不可见的节点，并移除尺寸显然不合理、位置显然不正确的节点。从而大大提高正文识别的准确率。

基于可视化信号的提取效果如何呢？我们用一篇新闻来作为例子：广西省发生了一起事件，位置在来宾市，画面曝光[2]。

首先在浏览器的开发者工具里面，直接复制经过js 渲染后的源代码：

当我们直接使用 GNE识别正文的时候，运行效果如下图所示：

可以看到，提取到的信息是版权信息。

现在，如果使用经过修改的 HTML 代码，就能成功提取到正文，如下图所示：

那么，这个经过修改的 HTML 有什么特别呢？我们来看看它长什么样：

在body 标签下面的所有节点，都有一个属性叫做 is_visiable ，它的值是字符串的 true 或者 false 。如果值为 true , 那么，还有一个属性叫做 coordinate 。它的值是一个 JSON 字符串，包含了这个节点的尺寸，坐标等信息。

那么，这些特殊的 HTML 是怎么生成的呢？如果你只是想做一个临时测试，那么其实只需要在Chrome 的开发者工具的Console(控制台)标签页执行这样一段 js 代码就可以了：

function insert_visiability_info() {
    function get_body() {
        var body = document.getElementsByTagName('body')[0]
        return body
    }

    function insert_info(element) {
        is_visiable = element.offsetParent !== null
        element.setAttribute('is_visiable', is_visiable)
        if (is_visiable) {
            react = element.getBoundingClientRect()
            coordinate = JSON.stringify(react)
            element.setAttribute('coordinate', coordinate)
        }
    }

    function iter_node(node) {
        children = node.children
        insert_info(node)
        if (children.length !== 0) {
            for(const element of children) {
                iter_node(element)
            }
        }
    }

    function sizes() {
        let contentWidth = [...document.body.children].reduce( 
          (a, el) => Math.max(a, el.getBoundingClientRect().right), 0) 
          - document.body.getBoundingClientRect().x;
      
        return {
          windowWidth:  document.documentElement.clientWidth,
          windowHeight: document.documentElement.clientHeight,
          pageWidth:    Math.min(document.body.scrollWidth, contentWidth),
          pageHeight:   document.body.scrollHeight,
          screenWidth:  window.screen.width,
          screenHeight: window.screen.height,
          pageX:        document.body.getBoundingClientRect().x,
          pageY:        document.body.getBoundingClientRect().y,
          screenX:     -window.screenX,
          screenY:     -window.screenY - (window.outerHeight-window.innerHeight),
        }
    }

    function insert_page_info() {
        page_info = sizes()
        node = document.createElement('meta')
        node.setAttribute('name', 'page_visiability_info')
        node.setAttribute('page_info', JSON.stringify(page_info))
        document.getElementsByTagName('head')[0].appendChild(node)
    }
    
    insert_page_info()
    body = get_body()
    iter_node(body)
}
insert_visiability_info()

如下图所示：

执行完成以后，重新打开Elements(元素)标签页，就可以看到我们需要的属性已经添加到了各个节点里面。

如果你想要使用 Puppeteer 或者 Selenium 来实现同样爬虫，想批量自动化执行 JavaScript，我给出一个 Demo，大家可以参考：GitHub - GeneralNewsExtractor/GneRender: Render web page to add necessary info on every dom element.[3].

只需要执行如下几个命令：

yarn install
node render.js

就可以在当前文件夹下面生成一个test.html，就这是经过修改的特殊 HTML 了。

最新版本的 GNE 已经提交到了 Pypi，大家现在可以直接试用 pip 安装：

pip install gne

参考文献

[1]《基于文本及符号密度的网页正文提取方法》: https://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFQ&dbname=CJFDLAST2019&filename=GWDZ201908029&v=MDY4MTRxVHJXTTFGckNVUkxPZmJ1Wm5GQ2poVXJyQklqclBkTEc0SDlqTXA0OUhiWVI4ZVgxTHV4WVM3RGgxVDM=

[2] 广西省发生了一起事件，位置在来宾市，画面曝光: https://www.163.com/dy/article/G33O1QTA05372UZS.html

[3] GitHub - GeneralNewsExtractor/GneRender: Render web page to add necessary info on every dom element.: https://github.com/GeneralNewsExtractor/GneRender

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

GNE 版本升级，基于可视化信号自动化识别并提取新闻正文

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

GNE 版本升级，基于可视化信号自动化识别并提取新闻正文

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品