- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

NLP：基于textrank4zh库对文本实现提取文本关键词、文本关键短语和文本摘要

一个处女座的程序猿发表于 2021/03/30 23:35:11 2021/03/30

【摘要】 NLP：基于textrank4zh库对文本实现提取文本关键词、文本关键短语和文本摘要目录输出结果设计思路核心代码输出结果关键词：故宫0.030737773083470445镜头0.026154204788274925吸烟0.02464630557740873网友0.02236230415962...

输出结果

设计思路

核心代码

输出结果


  
   
    
     
    
    
     
      关键词：
     
    
   
    
     
    
    
     
      故宫
     
    
   
    
     
    
    
     
      0.030737773083470445
     
    
   
    
     
    
    
     
      镜头
     
    
   
    
     
    
    
     
      0.026154204788274925
     
    
   
    
     
    
    
     
      吸烟
     
    
   
    
     
    
    
     
      0.02464630557740873
     
    
   
    
     
    
    
     
      网友
     
    
   
    
     
    
    
     
      0.0223623041596296
     
    
   
    
     
    
    
     
      规定
     
    
   
    
     
    
    
     
      0.021749817200586608
     
    
   
    
     
    
    
     
      工作
     
    
   
    
     
    
    
     
      0.021491249428577667
     
    
   
    
     
    
    
     
      禁止
     
    
   
    
     
    
    
     
      0.02028752723934755
     
    
   
    
     
    
    
     
      景区
     
    
   
    
     
    
    
     
      0.019314322943705477
     
    
   
    
     
    
    
     
      炫耀
     
    
   
    
     
    
    
     
      0.018931429709004036
     
    
   
    
     
    
    
     
      称
     
    
   
    
     
    
    
     
      0.01849004576313802
     
    
   
    
     
    
    
     
      表示
     
    
   
    
     
    
    
     
      0.017926862026642076
     
    
   
    
     
    
    
     
      全面
     
    
   
    
     
    
    
     
      0.016033284719331194
     
    
   
    
     
    
    
     
      通报
     
    
   
    
     
    
    
     
      0.016033284719331194
     
    
   
    
     
    
    
     
      全市
     
    
   
    
     
    
    
     
      0.01573736890057259
     
    
   
    
     
    
    
     
      带有
     
    
   
    
     
    
    
     
      0.014258600922955385
     
    
   
    
     
    
    
     
      挑衅
     
    
   
    
     
    
    
     
      0.014258600922955385
     
    
   
    
     
    
    
     
      单位
     
    
   
    
     
    
    
     
      0.012633705830118174
     
    
   
    
     
    
    
     
      设立
     
    
   
    
     
    
    
     
      0.012318056112472466
     
    
   
    
     
    
    
     
      男子
     
    
   
    
     
    
    
     
      0.012219070984211678
     
    
   
    
     
    
    
     
      黑名单
     
    
   
    
     
    
    
     
      0.011988917420401994
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      关键短语：
     
    
   
    
     
    
    
     
      禁止吸烟
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      摘要：
     
    
   
    
     
    
    
     
      10 0.12507418731273198
     
    
   
    
     
    
    
     
      视频在网络上传播开来，不少网友担心故宫的安危，称一旦发生火情，后果不堪设想，有网友表示，这样的行为应该被旅游景区拉近黑名单，建议终身禁止进入任何景区和各种场馆
     
    
   
    
     
    
    
     
      0 0.12010154061801917
     
    
   
    
     
    
    
     
      今天一大早，两位男子在故宫抽烟对镜头炫耀的视频在网络上传播，引发网友愤怒
     
    
   
    
     
    
    
     
      6 0.10828312286511374
     
    
   
    
     
    
    
     
      而视频中两人也表示知道有故宫禁止吸烟的规定

设计思路

后期更新……

核心代码


  
   
    
     
    
    
     
      def analyze Found at: textrank4zh.TextRank4Keyword
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      def analyze(self, text, 
     
    
   
    
     
    
    
     
       window=2, 
     
    
   
    
     
    
    
     
       lower=False, 
     
    
   
    
     
    
    
     
       vertex_source='all_filters', 
     
    
   
    
     
    
    
     
       edge_source='no_stop_words', 
     
    
   
    
     
    
    
     
       pagerank_config={'alpha':0.85}):
     
    
   
    
     
    
    
      """分析文本
     
    
   
    
     
    
    
     
       
     
    
   
    
     
    
    
     
       Keyword arguments:
     
    
   
    
     
    
    
     
       text -- 文本内容，字符串。
     
    
   
    
     
    
    
     
       window -- 窗口大小，int，用来构造单词之间的边。默
     
    
   
    
     
    
    
     
       认值为2。
     
    
   
    
     
    
    
     
       lower -- 是否将文本转换为小写。默认为False。
     
    
   
    
     
    
    
     
       vertex_source -- 选择使用words_no_filter, 
     
    
   
    
     
    
    
     
       words_no_stop_words, words_all_filters中的哪一个来构
     
    
   
    
     
    
    
     
       造pagerank对应的图中的节点。
     
    
   
    
     
    
    
     
       默认值为`'all_filters'`，可选值为`'no_filter', 
     
    
   
    
     
    
    
     
       'no_stop_words', 'all_filters'`。关键词也来自
     
    
   
    
     
    
    
     
       `vertex_source`。
     
    
   
    
     
    
    
     
       edge_source -- 选择使用words_no_filter, 
     
    
   
    
     
    
    
     
       words_no_stop_words, words_all_filters中的哪一个来构
     
    
   
    
     
    
    
     
       造pagerank对应的图中的节点之间的边。
     
    
   
    
     
    
    
     
       默认值为`'no_stop_words'`，可选值为`'no_filter', 
     
    
   
    
     
    
    
     
       'no_stop_words', 'all_filters'`。边的构造要结合`window`参
     
    
   
    
     
    
    
     
       数。
     
    
   
    
     
    
    
     
       """
     
    
   
    
     
    
    
      # self.text = util.as_text(text)
     
    
   
    
     
    
    
     
       self.text = text
     
    
   
    
     
    
    
     
       self.word_index = {}
     
    
   
    
     
    
    
     
       self.index_word = {}
     
    
   
    
     
    
    
     
       self.keywords = []
     
    
   
    
     
    
    
     
       self.graph = None
     
    
   
    
     
    
    
     
       result = self.seg.segment(text=text, lower=lower)
     
    
   
    
     
    
    
     
       self.sentences = result.sentences
     
    
   
    
     
    
    
     
       self.words_no_filter = result.words_no_filter
     
    
   
    
     
    
    
     
       self.words_no_stop_words = result.
     
    
   
    
     
    
    
     
       words_no_stop_words
     
    
   
    
     
    
    
     
       self.words_all_filters = result.words_all_filters
     
    
   
    
     
    
    
     
       util.debug(20 * '*')
     
    
   
    
     
    
    
     
       util.debug('self.sentences in TextRank4Keyword:\n', ' 
     
    
   
    
     
    
    
     
       || '.join(self.sentences))
     
    
   
    
     
    
    
     
       util.debug('self.words_no_filter in 
     
    
   
    
     
    
    
     
       TextRank4Keyword:\n', self.words_no_filter)
     
    
   
    
     
    
    
     
       util.debug('self.words_no_stop_words in 
     
    
   
    
     
    
    
     
       TextRank4Keyword:\n', self.words_no_stop_words)
     
    
   
    
     
    
    
     
       util.debug('self.words_all_filters in 
     
    
   
    
     
    
    
     
       TextRank4Keyword:\n', self.words_all_filters)
     
    
   
    
     
    
    
     
       options = ['no_filter', 'no_stop_words', 'all_filters']
     
    
   
    
     
    
    
      if vertex_source in options:
     
    
   
    
     
    
    
     
       _vertex_source = result['words_' + vertex_source]
     
    
   
    
     
    
    
      else:
     
    
   
    
     
    
    
     
       _vertex_source = result['words_all_filters']
     
    
   
    
     
    
    
      if edge_source in options:
     
    
   
    
     
    
    
     
       _edge_source = result['words_' + edge_source]
     
    
   
    
     
    
    
      else:
     
    
   
    
     
    
    
     
       _edge_source = result['words_no_stop_words']
     
    
   
    
     
    
    
     
       self.keywords = util.sort_words(_vertex_source, 
     
    
   
    
     
    
    
     
       _edge_source, window=window, 
     
    
   
    
     
    
    
     
       pagerank_config=pagerank_config)

文章来源: yunyaniu.blog.csdn.net，作者：一个处女座的程序猿，版权归原作者所有，如需转载，请联系作者。

原文链接：yunyaniu.blog.csdn.net/article/details/95798449

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

NLP：基于textrank4zh库对文本实现提取文本关键词、文本关键短语和文本摘要

输出结果

设计思路

核心代码

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品