亚马逊智能音箱Alexia团队音频情感分析论文
Parthasarathy S, Rozgic V, Sun M, et al. Improving Emotion Classification through Variational Inference of Latent Variables[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019: 7410-7414.
摘要:传统的语音情绪识别模型是利用句子级(utterance-level)语音特征和相关情绪标签进行训练和预测。在该论文中,作者假设语音信号是由多个隐式因子决定的,例如情绪状态、年龄、性别以及说话的内容。为此,作者提出对抗自动编码机(Adversarial Autoencoder, AAE)来对隐式因子进行推测并对输入特征进行再表示。其中,对输入特征的再表示是作为一个辅助任务,来帮助语音的情绪识别。IEMOCAP数据的实验证明了辅助学习能有效提升情绪分类的效果。同时,作者认为所提出的学习方式可用于端到端的语音情绪识别,只要所用的模型是基于语音帧作为输入。
一、思路
提取音频特征,将特征输入到Adversarial Autoencoder模型,进行半监督学习。半监督包括有监督的label分类和无监督的中间隐层表示z。通过对z的对抗学习,使得中间因层z服从高斯分布,符合作者提出的隐式因子假设。预测阶段只需输入语音帧的特征,生成中间隐层表示,再输出到softmax层分类,得到情绪类别概率。具体模型如下:
1.输入部分:输入x可以由传统的手工特征UTT,即65 frame level LLDs from the Interspeech 2013 paralinguistic feature set,也可由CNN对频谱图提取。
2.模型训练:
(1)Autoencoder的无监督训练,由输出重构的 x ̂ 跟输入的 x 求解loss;
(2)假设中间隐层变量z服从高斯先验分布,每次从高斯分布中采样一个sample,跟中间层向量z一起,作为true sample和fake sample输入至判别器判断,loss可反传至encoder,直至判别器无法分辨。由此学得的z服从高斯分布;
(3)中间层的另一个输出是类别向量y,将该x对应的真实label与类别向量y一起输入另一个判别器,使之类别服从同一分布;
(4)最后求解中间层输出y与实际label的交叉熵损失,以拟合分类器。
3.模型预测:直接输入音频帧的特征(from hand engineering or CNN),即可得到音频帧在三个维度下的类别(Act - Activation, Val - Valence and Dom - Dominance)。
二. 实验设置
实验数据:IEMOCAP,Activation、Valence、Dominance三个连续型维度,每个维度下数值{1,2},{3},{4,5}离散划分为低中高三类,采用精确率(Accuracy)作为每个维度的评价指标。
情绪定义:
离散型情绪定义:快乐、悲伤、生气、中性、讨厌、惊讶、害怕等。直观可解释,也便于分类评价。
连续型情绪定义:维度情感模型通过几个取值连续的维度(唤醒维Activation、效价维Valence、支配维Dominance)将情感刻画为一个多维信号。与传统的离散情感模型相比,具有表示情感的范围广、能描述情感的演变过程等优点,分别表示。
评价指标:
离散型情感分类:多分类问题,评价指标在类别均衡时可采用精确率(Accuracy),类别不均衡时采用准确率(Precision)、召回率(Recall)、F值(F-score)等。
连续型情感分类[1]:维度情感预测问题主要可以分为两种类型, 一是根据一个或多个维度的取值将维度情感预测问题退化为一个分类问题, 此分类问题既可以是按照某个维度的取值分成正与负(或积极与消极)两种类型的两分类问题, 又可以是按照某个维度的取值分为低、中、高三种类型的三分类问题, 还可以是在效价-唤醒空间中用四个象限代表四个类别的四分类问题等; 二是对每个维度的连续取值进行预测, 此时维度情感预测问题是一个回归问题。
三. 实验结果
UTT:65 frame level LLDs from the Interspeech 2013 paralinguistic feature set
FR:CNN对频谱图卷积后的特征表示
经过AAE优化后的特征效果优于原始特征
四.总结
1. 基于CNN的端到端特征提取算法优于传统手工特征算法,待考量因为只用了一类手工特征,而且任务只是三分类,未在离散情感定义下进行评测。
2.AAE的优点是能提升原先算法的准确率。通过对抗学习认为隐层的分布可表示情绪状态、年龄、性别以及说话的内容这些因子,个人认为有些牵强。
参考文献:
[1] 李霞, 卢官明, 闫静杰, 张正言. 多模态维度情感预测综述. 自动化学报, 2018, 44(12): 2142-2159. doi: 10.16383/j.aas.2018.c170644
[2] Parthasarathy S, Rozgic V, Sun M, et al. Improving Emotion Classification through Variational Inference of Latent Variables[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019: 7410-7414.
- 点赞
- 收藏
- 关注作者
评论(0)