NLP之word2vec
【摘要】 简要介绍word2vec的关键点
Word2vec, 也叫word embeddings,用向量形式表示word。
主要内容
One-hot encoder
- 最基础的向量表示,独热向量
神经网络形式
- 原因:将稀疏的one-hot转换为密集的dense vector
- 输入为one hot vector
- 输出为:同样维度的向量,比较dense
方法
- 思路:
- 构造语境与目标词汇的映射关系,其实就是input和label间的关系
- CBOW(Continuous bag of words)
- 从原始语句推测目标词语
- 输入为:目标词周围的一系列词语,形成的词袋。(例如上下文4个词,则为4个维度的one-hot向量)
- 操作:由矩阵z映射至词向量空间
- 优点:适合小型数据库
- Skip-gram
- 从目标词语推测原始语句,即使用语句中的每个词作为独立的上下文,对目标词进行预测。建立的是词与词之间的共现关系。
- 输入为:当前中心词的one-hot
- 操作:通过矩阵E投射值隐含层,隐含层向量为该词的词向量。
- 优点:在大型语料中表现更好
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)