- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《TensorFlow自然语言处理》—3.3　Word2vec—基于神经网络学习单词表示

华章计算机发表于 2019/07/21 21:51:18 2019/07/21

【摘要】本节书摘来自华章计算机《TensorFlow自然语言处理》一书中的第3章，第3.3.1节，［澳］　图珊·加内格达拉（Thushan Ganegedara）　著马恩驰　陆　健　译。

3.3　Word2vec—基于神经网络学习单词表示

"You shall know a word by the company it keeps."

—J.R. Firth

由J.R.Firth于1957年发表的这一陈述是Word2vec的基础，因为Word2vec利用给定单词的上下文来学习它的语义。Word2vec是一种开创性的方法，可以在没有任何人为干预的情况下学习单词的含义。此外，Word2vec通过查看给定单词周围的单词来学习单词的数字表示。

我们可以想象一个真实世界的场景来测试上述说法的正确性。比如，你正在参加考试，你在第一个问题中找到了这句话：“Mary is a very stubborn child. Her pervicacious nature always gets her in trouble.”。现在，除非你非常聪明，否则你可能不知道pervicacious是什么意思。在这种情况下，你会自动查看在感兴趣的单词周围的短语。在我们的例子中，pervicacious的周围是stubborn、nature、和trouble，这三个词就足以说明，pervicacious事实上是指顽固状态。我认为这足以证明语境对于认识一个词的含义的重要性。

现在，让我们讨论Word2vec的基础知识。如前所述，Word2vec通过查看单词上下文并以数字方式表示它，来学习给定单词的含义。所谓“上下文”，指的是在感兴趣的单词的前面和后面的固定数量的单词。假设我们有一个包含N个单词的语料库，在数学上，这可以由以w0，w1，…，wi和wN表示的一系列单词表示，其中wi是语料库中的第i个单词。

接下来，如果我们想找到一个能够学习单词含义的好算法，那么，在给定一个单词之后，我们的算法应该能够正确地预测上下文单词。这意味着对于任何给定的单词wi，以下概率应该较高：

为了得到等式右边，我们需要假设给定目标单词（wi）的上下文单词彼此独立（例如，wi - 2和wi - 1是独立的）。虽然不完全正确，但这种近似使得学习问题切合实际，并且在实际中效果良好。

3.3.1　练习：queen = king – he + she吗

在继续之前，让我们做一个小练习，来了解如何最大化前面提到的概率以找到单词的好的含义（即表示）。考虑以下非常小的语料库：

现在让我们手动做一些预处理并删除标点符号和无信息的单词：

现在，让我们用其上下文单词为每个单词形成一组元组，其格式为：目标单词→上下文单词1，上下文单词2。我们假设两边的上下文窗口大小为1：

请记住，我们的目标是给出左侧的单词能够预测右侧的单词。要做到这一点，对于给定的单词，右侧上下文中的单词应该与左侧上下文中的单词在数值或几何上具有很高的相似性。换句话说，感兴趣的单词应该可以用周围的词来表达。现在，让我们假定实际的数值向量来理解它是如何工作的。为简单起见，我们只考虑以粗体突出显示的元组。让我们首先假设rich这个词有以下数值：