- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《TensorFlow自然语言处理》—3.2.2　独热编码表示方式

华章计算机发表于 2019/07/21 21:37:15 2019/07/21

【摘要】本节书摘来自华章计算机《TensorFlow自然语言处理》一书中的第3章，第3.2.2节，［澳］　图珊·加内格达拉（Thushan Ganegedara）　著马恩驰　陆　健　译。

3.2.2　独热编码表示方式

表示单词的更简单方法是使用独热编码表示。这意味着，如果我们有一个V大小的词汇表，对于第i个词wi，我们将用一个V长度的向量[0, 0, 0, …, 0, 1, 0, …, 0, 0]来表示单词wi，其中第i个元素为1，其他元素为零。举个例子，考虑一下这句话：Bob and Mary are good friends。其每个单词的独热表示如下所示：

但是，正如你可能已经想到的那样，这种表示有许多缺点。该表示并没有用任何方式对单词之间的相似性编码，并且完全忽略了单词的上下文。让我们考虑单词向量之间的点积作为相似性度量方法，两个矢量越相似，这两个矢量的点积越高。例如，单词car和cars的单词表示的相似距离是0，而car和pencil也有相同的值。

对于大型词汇表，此方法变得非常没有效果。此外，对于典型的NLP任务，词汇量很容易超过50000个单词。因此，50000单词的单词表示矩阵将导致非常稀疏的50000×

50000矩阵。

然而，即使在最先进的词嵌入学习算法中，独热编码也起着重要作用。我们使用独热编码将单词表示为数字向量，并将其送入神经网络，以便神经网络可以学习单词的更好和更短的数字特征表示。

单热编码也称为局部表示（与分布式表示相反），因为特征表示由向量中的单个元素的激活情况决定。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《TensorFlow自然语言处理》—3.2.2　独热编码表示方式

3.2.2　独热编码表示方式

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《TensorFlow自然语言处理》—3.2.2 独热编码表示方式

3.2.2 独热编码表示方式

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

《TensorFlow自然语言处理》—3.2.2　独热编码表示方式

3.2.2　独热编码表示方式