NLP专栏丨情感分析方法入门下
基于统计方法的情感分析模型
这里处理上述的词典外,下面[5]补充了现有的其它中文词典以供参考:
语言是一个高度复杂的东西,采用简单的线性叠加显然会造成很大的精度损失。词语权重同样不是一成不变的,而且也难以做到准确。
对于新的情感词,比如给力,牛逼等等,词典不一定能够覆盖。因此需要不断刷新词典来补充新词。在当下网络词汇不断出现的时代,如果词典的刷新速度跟不上新词出现的速度,那么情感分析在实际使用中会与预期相差较大的距离。比如淘宝商品评价,饿了么外卖评价等,如果无法捕捉新词,那么分析的情感将会偏离实际。
基于词典的情感分类,核心在于情感词典。而情感词典的构建需要有较强的背景知识,需要对语言有较深刻的理解,在分析外语方面会有很大限制。
02
基于深度学习的情感分析模型
FastText[6]
2.3 TextRNN[8]
2.4 TextRNN+Attention[9]
HAN为Hierarchical Attention Networks,将待分类文本,分为一定数量的句子,分别在word level和sentence level进行encoder和attention操作,从而实现对较长文本的分类。相比于上述的算法模型,HAN的结构稍微复杂一些,具体可以分解为以下步骤。
2.5 TextRCNN[10]
词的表示变成词向量和前向后向上下文向量连接起来的形式:
之后再接跟TextCNN相同卷积层,pooling层即可,在seq_length维度进行 max pooling,然后进行fc操作就可以进行分类了,可以将该网络看成是fasttext 的改进版本。
03
总结
参考文献
[1]https://wordnet.princeton.edu/
[2]HU M,LIU B. Mining and summarizing customer reviews[C]. NY,USA:Proceedings of Knowledge Discoveryand Da-ta Mining,2004:168 - 177.
[3]https://languageresources.github.io/2018/03/07/
%E9%87%91%E5%A4%A9%E5%8D%8E_Hownet/
[4]朱嫣岚,闵锦,周雅倩,等. 基于 How Net 的词汇语义倾向计算[J]. 中文信息学报,2006,20(1):14 - 20
[5]https://blog.csdn.net/weixin_41657760/article/
details/93163519
[6]https://arxiv.org/abs/1612.03651
[7]https://arxiv.org/abs/1408.5882
[8]https://www.ijcai.org/Proceedings/16/Papers/408.pdf
[9]https://www.aclweb.org/anthology/P16-2034/
[10]http://zhengyima.com/my/pdfs/Textrcnn.pdf
[11]https://zhuanlan.zhihu.com/p/76003775
[12]https://zhuanlan.zhihu.com/p/73176084
[13]https://github.com/649453932/Chinese-Text-Classification-Pytorch
- 点赞
- 收藏
- 关注作者
评论(0)