基于文本和音频的情绪识别-Multi-hop Attention Mechanism

举报
Tython 发表于 2020/02/07 12:11:44 2020/02/07
【摘要】 Yoon S, Byun S, Dey S, et al. Speech Emotion Recognition Using Multi-hop Attention Mechanism[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). ...

Yoon S, Byun S, Dey S, et al. Speech Emotion Recognition Using Multi-hop Attention Mechanism[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019: 2822-2826.

 

一、思路

1、分别对audio和text预处理,一个句子作为一个sample。对于音频,分帧后提取MFCC特征;文本以词为单位(one-hot编码或者embedding),形成向量序列。然后分别将两类数据输入至两个的bidirectional recurrent encoder (BRE) BRE模型,进行预训练。

2、Multi-Hop attention操作:

将两个BRE模型的输出作为attention的输入,进行权重学习,具体如下

 

1581048334825588.png

 -----------------------------------------------------------------------------------------------

(a)图表示BRE结构,与RNN类似,只是在ht的输出部分加上了residual connection操作,具体公式如下  

1581048397444818.png 

 -----------------------------------------------------------------------------------------------

(b)Multi-Hop Attention - 1 (MHA-1)


1581048417775737.png 

 -----------------------------------------------------------------------------------------------

(c)Multi-Hop Attention - 2 (MHA-2)

 

1581048504197017.png 

 -----------------------------------------------------------------------------------------------

(d)Multi-Hop Attention - 3 (MHA-3)

 

1581048528591102.png

 -----------------------------------------------------------------------------------------------

最后输出为融合后的H矩阵进行全连接后加softmax输出

 

1581048565651795.png

 

 

二、实验数据

IEMOCAP:1636 happy, 1084 sad, 1103 angry and 1708 neutral ,共5531utterances, 其中excitement作为happy类。

十折交叉验证,train:development:test = 8:1:1

对比实验中,文本一类是来自源文件,另一类是通过Google api转写(ASR)

 

三、实验结果 

1581048585795565.png

 

四、总结

1、文本与音频的结合采用了多跳注意力机制,是个创新的融合方式,不同于传统的拼接操作

2、注意力机制在2-hop的时候效果最佳,过多的hop并没有提升效果,反而网络层次增高导致复杂的提升,有过拟合风险


参考文献:

[1] Yoon S, Byun S, Dey S, et al. Speech Emotion Recognition Using Multi-hop Attention Mechanism[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019: 2822-2826.

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。