NLP专栏丨情感分析方法入门下
【摘要】 基于统计方法的情感分析模型基于统计方法的情感分析方法主要依赖于已经建立的“情感词典”,“情感词典”的建立是情感分类的前提和基础,目前在实际使用中,可将其归为4类:通用情感词、程度副词、否定词、领域词。英文方面主要是基于对英文词典WordNet[1] 的扩充,Hu和Liu[2]在已手工建立种子形容词词汇表的基础上,利用 WorldNet 中词间的同义和近义关系判断情感词的情感倾向,并以此来判断...
基于统计方法的情感分析模型
这里处理上述的词典外,下面[5]补充了现有的其它中文词典以供参考:
语言是一个高度复杂的东西,采用简单的线性叠加显然会造成很大的精度损失。词语权重同样不是一成不变的,而且也难以做到准确。
对于新的情感词,比如给力,牛逼等等,词典不一定能够覆盖。因此需要不断刷新词典来补充新词。在当下网络词汇不断出现的时代,如果词典的刷新速度跟不上新词出现的速度,那么情感分析在实际使用中会与预期相差较大的距离。比如淘宝商品评价,饿了么外卖评价等,如果无法捕捉新词,那么分析的情感将会偏离实际。
基于词典的情感分类,核心在于情感词典。而情感词典的构建需要有较强的背景知识,需要对语言有较深刻的理解,在分析外语方面会有很大限制。
02
基于深度学习的情感分析模型
FastText[6]




2.3 TextRNN[8]
2.4 TextRNN+Attention[9]
HAN为Hierarchical Attention Networks,将待分类文本,分为一定数量的句子,分别在word level和sentence level进行encoder和attention操作,从而实现对较长文本的分类。相比于上述的算法模型,HAN的结构稍微复杂一些,具体可以分解为以下步骤。
2.5 TextRCNN[10]
词的表示变成词向量和前向后向上下文向量连接起来的形式:
之后再接跟TextCNN相同卷积层,pooling层即可,在seq_length维度进行 max pooling,然后进行fc操作就可以进行分类了,可以将该网络看成是fasttext 的改进版本。
03
总结
参考文献
[1]https://wordnet.princeton.edu/
[2]HU M,LIU B. Mining and summarizing customer reviews[C]. NY,USA:Proceedings of Knowledge Discoveryand Da-ta Mining,2004:168 - 177.
[3]https://languageresources.github.io/2018/03/07/
%E9%87%91%E5%A4%A9%E5%8D%8E_Hownet/
[4]朱嫣岚,闵锦,周雅倩,等. 基于 How Net 的词汇语义倾向计算[J]. 中文信息学报,2006,20(1):14 - 20
[5]https://blog.csdn.net/weixin_41657760/article/
details/93163519
[6]https://arxiv.org/abs/1612.03651
[7]https://arxiv.org/abs/1408.5882
[8]https://www.ijcai.org/Proceedings/16/Papers/408.pdf
[9]https://www.aclweb.org/anthology/P16-2034/
[10]http://zhengyima.com/my/pdfs/Textrcnn.pdf
[11]https://zhuanlan.zhihu.com/p/76003775
[12]https://zhuanlan.zhihu.com/p/73176084
[13]https://github.com/649453932/Chinese-Text-Classification-Pytorch
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)