基于文本和音频的情绪识别-Multi-hop Attention Mechanism
Yoon S, Byun S, Dey S, et al. Speech Emotion Recognition Using Multi-hop Attention Mechanism[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019: 2822-2826.
一、思路
1、分别对audio和text预处理,一个句子作为一个sample。对于音频,分帧后提取MFCC特征;文本以词为单位(one-hot编码或者embedding),形成向量序列。然后分别将两类数据输入至两个的bidirectional recurrent encoder (BRE) BRE模型,进行预训练。
2、Multi-Hop attention操作:
将两个BRE模型的输出作为attention的输入,进行权重学习,具体如下
-----------------------------------------------------------------------------------------------
(a)图表示BRE结构,与RNN类似,只是在ht的输出部分加上了residual connection操作,具体公式如下
-----------------------------------------------------------------------------------------------
(b)Multi-Hop Attention - 1 (MHA-1)
-----------------------------------------------------------------------------------------------
(c)Multi-Hop Attention - 2 (MHA-2)
-----------------------------------------------------------------------------------------------
(d)Multi-Hop Attention - 3 (MHA-3)
-----------------------------------------------------------------------------------------------
最后输出为融合后的H矩阵进行全连接后加softmax输出
二、实验数据
IEMOCAP:1636 happy, 1084 sad, 1103 angry and 1708 neutral ,共5531utterances, 其中excitement作为happy类。
十折交叉验证,train:development:test = 8:1:1
对比实验中,文本一类是来自源文件,另一类是通过Google api转写(ASR)
三、实验结果
四、总结
1、文本与音频的结合采用了多跳注意力机制,是个创新的融合方式,不同于传统的拼接操作
2、注意力机制在2-hop的时候效果最佳,过多的hop并没有提升效果,反而网络层次增高导致复杂的提升,有过拟合风险
参考文献:
[1] Yoon S, Byun S, Dey S, et al. Speech Emotion Recognition Using Multi-hop Attention Mechanism[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019: 2822-2826.
- 点赞
- 收藏
- 关注作者
评论(0)