建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
请选择 进入手机版 | 继续访问电脑版
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
选择版块
直达楼层
标签
您还可以添加5个标签
  • 没有搜索到和“关键字”相关的标签
  • 云产品
  • 解决方案
  • 技术领域
  • 通用技术
  • 平台功能
取消

采纳成功

您已采纳当前回复为最佳回复

hwJw19

发帖: 31粉丝: 7

发消息 + 关注

发表于2020年11月18日 16:11:23 178 4
直达本楼层的链接
楼主
显示全部楼层
[AI人工智能全栈成长计划] 【问答官3阶段】jieba 提供了两种关键词提取方法,分别是什么?请简单描述一下

键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来,在文献检索、自动文摘、文本分类等方面有着重要的应用。

举报
分享

分享文章到朋友圈

分享文章到微博

采纳成功

您已采纳当前回复为最佳回复
发表于2020年11月18日 16:49:27
直达本楼层的链接
沙发
显示全部楼层

jieba 提供了两种关键词提取方法,分别基于 TF-IDF 算法和 TextRank 算法。

TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率)是一种统计方法,用以评估一个词语对于一个文件集或一个语料库中的一份文件的重要程度,其原理为:一个词语在一篇文章中出现次数越多,同时在所有文档中出现次数越少,越能够代表该文章。

TextRank是另一种关键词提取算法,其基本思想来源于PageRank算法,通过把文本分割成若干组成单元(单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘。

点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

蜡笔不辣

发帖: 24粉丝: 4

发消息 + 关注

发表于2020年11月19日 11:54:49
直达本楼层的链接
板凳
显示全部楼层

基于 TF-IDF 算法的关键词提取:

TF-IDF是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

主要步骤:计算词频、计算逆文档频率、计算TF-IDF;


基于 TextRank 算法的关键词提取

进行关键词提取时,TextRank中时以词为节点,以共现关系建立起节点之间的链接,需要强调的是,TextRank中是无向边,或者说是双向边;

主要步骤:

1、把文本按照完整句子进行分割;

2、对于每个完整的句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词;

3、构建候选关键词图,然后采用共现关系构造任两点之间的边;

4、根据PageRank原理中的衡量重要性的公式,初始化各节点的权重,然后迭代计算各节点的权重,直至收敛;

5、对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选关键词;

6、得到最重要的多个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。

点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

漫游寰宇外

发帖: 6粉丝: 0

发消息 + 关注

发表于2020年11月28日 17:01:10
直达本楼层的链接
地板
显示全部楼层

关键词提取:


基于TF-IDF算法的关键词抽取 


import jieba.analyse

  • jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()) 

sentence 为待提取的文本 
topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20 
withWeight 为是否一并返回关键词权重值,默认值为 False 
allowPOS 仅包括指定词性的词,默认值为空,即不筛选

  • jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例,idf_path 为 IDF 频率文件

  •  

关键词提取所使用逆向文件频率(IDF)文本语料库可以切换成自定义语料库的路径

  • 用法:jieba.analyse.set_idf_path(file_name) # file_name为自定义语料库的路径

关键词提取所使用停止词(Stop Words)文本语料库可以切换成自定义语料库的路径

  • 用法: jieba.analyse.set_stop_words(file_name) # file_name为自定义语料库的路径

基于TextRank算法的关键词提取

  • jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=(‘ns’, ‘n’, ‘vn’, ‘v’)) 直接使用,接口相同,注意默认过滤词性。

  • jieba.analyse.TextRank() 新建自定义 TextRank 实例 

  • 基本思想:

  1. 将待抽取关键词的文本进行分词 

  2. 以固定窗口大小(默认为5,通过span属性调整),词之间的共现关系,构建图 

  3. 计算图中节点的PageRank,注意是无向带权图


点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

yzx

发帖: 11粉丝: 3

发消息 + 关注

发表于2020年11月29日 20:33:54
直达本楼层的链接
5#
显示全部楼层

jieba 提供了两种关键词提取方法,分别基于 TF-IDF 算法和 TextRank 算法。

通过 jieba.analyse.extract_tags 方法可以基于 TF-IDF 算法进行关键词提取,该方法共有 4 个参数:

  • sentence:为待提取的文本

  • topK:为返回几个 TF/IDF 权重最大的关键词,默认值为 20

  • withWeight:是否一并返回关键词权重值,默认值为 False

  • allowPOS:仅包括指定词性的词,默认值为空

通过 jieba.analyse.textrank 方法可以使用基于 TextRank 算法的关键词提取,其与 'jieba.analyse.extract_tags' 有一样的参数,但前者默认过滤词性(allowPOS=('ns', 'n', 'vn', 'v'))。

代码示例如下:

import jieba.analyse as anls #关键词提取
'''功能:提取关键词'''
sent = open("all.txt", 'r', encoding='UTF-8').read()
#基于tf-idf提取关键词
print("基于TF-IDF提取关键词结果:")
for x, w in anls.extract_tags(sent, topK=20, withWeight=True):
print('%s %s' % (x, w))
#基于textrank提取关键词
print("基于textrank提取关键词结果:")
for x, w in anls.textrank(sent, withWeight=True):
print('%s %s' % (x, w))

运行结果:

基于TF-IDF提取关键词结果:

故宫 0.2926176361335443
北京故宫 0.264979505
2019 0.22698925638417722
外朝 0.1513261709227848
2018 0.1513261709227848
中心 0.12202795792556963
古建筑 0.11424658644012657
大殿 0.10322119571443038
紫禁城 0.09920117016822785
永乐 0.09911316359455696
统称 0.0955449146286076
宫殿 0.09541328542329114
万平方米 0.0929427829007595
列为 0.09066487540987342
九千余 0.08797897248101266
世界 0.08292777352348102
和内廷 0.07779265657911393
72 0.0756630854613924
15 0.0756630854613924
1406 0.0756630854613924

基于textrank提取关键词结果:

故宫 1.0
中心 0.9908920177809065
世界 0.5734006593111067
大殿 0.5521326736013975
北京故宫 0.5316046737608524
英国 0.4986608115801715
国家 0.48905863236581826
修缮 0.457942099649872
中国 0.4571298768895292
列为 0.4563189310093983
建筑 0.4465371080385551
南京 0.4374665601969024
外朝 0.43039726183147553
统称 0.42592844268023056
工作 0.38930993246593065
保护 0.38300696880781676
保存 0.37770077979626976
皇后 0.3717748063436477
美国白宫 0.37027900907588707
居住 0.36903003334388784


点赞 评论 引用 举报

游客

富文本
Markdown
您需要登录后才可以回帖 登录 | 立即注册

结贴

您对问题的回复是否满意?
满意度
非常满意 满意 一般 不满意
我要反馈
0/200