《TensorFlow自然语言处理》—3.2.3 TF-IDF方法

举报
华章计算机 发表于 2019/07/21 21:38:51 2019/07/21
【摘要】 本节书摘来自华章计算机《TensorFlow自然语言处理》一书中的第3章,第3.2.3节,[澳] 图珊·加内格达拉(Thushan Ganegedara) 著 马恩驰 陆 健 译。

3.2.3 TF-IDF方法

TF-IDF是一种基于频率的方法,它考虑了单词在语料库中出现的频率。这是一种表示给定文档中特定单词的重要性的单词表示。直观地说,单词的频率越高,该单词在文档中就越重要。例如,在关于猫的文档中,单词cats会出现更多次。然而,仅仅计算频率是行不通的,因为像this和is这样的词是非常频繁的,但是它们并没有携带很多信息。TF-IDF将此考虑在内,并把这些常用单词的值置为零。

同样,TF代表词频率,IDF代表逆文档频率:

 image.png

下面做个快速练习,考虑两个文件:

文件1:This is about cats. Cats are great companions.

文件2:This is about dogs. Dogs are very loyal.

现在让我们来处理一些数字:

 image.png

因此,cat这个词具有丰富的信息,而this这个词不是,这是我们在衡量单词重要性方面所期望的行为。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。