python 利用jieba.analyse进行 关键词提取

举报
泽宇-Li 发表于 2020/12/18 00:21:17 2020/12/18
【摘要】 1、简单应用代码如下:1234567891011121314 #!/usr/bin/env python# -*- coding: utf-8 -*-# @File : jieba.analyse.py# @Author: 赵路仓# @Date : 2020/3/14# @Desc : 提取关键字# @Contact : 398333404@qq.com import jieba.analy...

1、简单应用

代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @File : jieba.analyse.py
# @Author: 赵路仓
# @Date : 2020/3/14
# @Desc : 提取关键字
# @Contact : 398333404@qq.com
 
import jieba.analyse
  
text='安全、防止水合物和段塞生成的重要措施之一。因此,针对未来还上油田开发技术,我们预先开展了水深1500米管道式油气水分离器的概念设计。通过该研究,提出适合海洋环境的体积小、重量轻、分离效率高、便于操作和维护的新型油气水三相分离器,使其成为海洋深水油气田开'
Key=jieba.analyse.extract_tags(text,topK=3)
print(Key)

image.png

2、含参使用

1
keywords = jieba.analyse.extract_tags(content, topK=5, withWeight=True, allowPOS=()) 
  • 第一个参数:待提取关键词的文本

  • 第二个参数:返回关键词的数量,重要性从高到低排序

  • 第三个参数:是否同时返回每个关键词的权重

  • 第四个参数:词性过滤,为空表示不过滤,若提供则仅返回符合词性要求的关键词

代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @File : jieba.analyse.py
# @Author: 赵路仓
# @Date : 2020/3/14
# @Desc : 提取关键字
# @Contact : 398333404@qq.com
 
import jieba.analyse
  
# 字符串前面加u表示使用unicode编码
content = u'安全、防止水合物和段塞生成的重要措施之一。因此,针对未来还上油田开发技术,我们预先开展了水深1500米管道式油气水分离器的概念设计。通过该研究,提出适合海洋环境的体积小、重量轻、分离效率高、便于操作和维护的新型油气水三相分离器,使其成为海洋深水油气田开'
 
keywords = jieba.analyse.extract_tags(content, topK=5, withWeight=True, allowPOS=())
# 访问提取结果
for item in keywords:
  # 分别为关键词和相应的权重
  print(item[0], item[1])

image.png

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。