- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《TensorFlow自然语言处理》—3.2.3　TF-IDF方法

华章计算机发表于 2019/07/21 21:38:51 2019/07/21

【摘要】本节书摘来自华章计算机《TensorFlow自然语言处理》一书中的第3章，第3.2.3节，［澳］　图珊·加内格达拉（Thushan Ganegedara）　著马恩驰　陆　健　译。

3.2.3　TF-IDF方法

TF-IDF是一种基于频率的方法，它考虑了单词在语料库中出现的频率。这是一种表示给定文档中特定单词的重要性的单词表示。直观地说，单词的频率越高，该单词在文档中就越重要。例如，在关于猫的文档中，单词cats会出现更多次。然而，仅仅计算频率是行不通的，因为像this和is这样的词是非常频繁的，但是它们并没有携带很多信息。TF-IDF将此考虑在内，并把这些常用单词的值置为零。

同样，TF代表词频率，IDF代表逆文档频率：

下面做个快速练习，考虑两个文件：

文件1：This is about cats. Cats are great companions.

文件2：This is about dogs. Dogs are very loyal.

现在让我们来处理一些数字：

因此，cat这个词具有丰富的信息，而this这个词不是，这是我们在衡量单词重要性方面所期望的行为。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《TensorFlow自然语言处理》—3.2.3　TF-IDF方法

3.2.3　TF-IDF方法

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《TensorFlow自然语言处理》—3.2.3 TF-IDF方法

3.2.3 TF-IDF方法

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

《TensorFlow自然语言处理》—3.2.3　TF-IDF方法

3.2.3　TF-IDF方法