NLP之word2vec

举报
AI Medicine 发表于 2021/12/05 23:16:22 2021/12/05
【摘要】 简要介绍word2vec的关键点

Word2vec, 也叫word embeddings,用向量形式表示word

主要内容

One-hot encoder

  1. 最基础的向量表示,独热向量

神经网络形式

  1. 原因:将稀疏的one-hot转换为密集的dense vector
  2. 输入为one hot vector
  3. 输出为:同样维度的向量,比较dense

方法

  1. 思路:
    1. 构造语境与目标词汇的映射关系,其实就是inputlabel间的关系
  2. CBOW(Continuous bag of words
    1. 从原始语句推测目标词语
    2. 输入为:目标词周围的一系列词语,形成的词袋。(例如上下文4个词,则为4个维度的one-hot向量)
    3. 操作:由矩阵z映射至词向量空间
    4. 优点:适合小型数据库
  3. Skip-gram
    1. 从目标词语推测原始语句,即使用语句中的每个词作为独立的上下文,对目标词进行预测。建立的是词与词之间的共现关系。
    2. 输入为:当前中心词的one-hot
    3. 操作:通过矩阵E投射值隐含层,隐含层向量为该词的词向量。
    4. 优点:在大型语料中表现更好
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。