亚马逊智能音箱Alexia团队音频情感分析论文

举报
Tython 发表于 2020/02/07 11:27:05 2020/02/07
【摘要】 传统的语音情绪识别模型是利用句子级(utterance-level)语音特征和相关情绪标签进行训练和预测。在该论文中,作者假设语音信号是由多个隐式因子决定的,例如情绪状态、年龄、性别以及说话的内容。为此,作者提出对抗自动编码机(Adversarial Autoencoder, AAE)来对隐式因子进行推测并对输入特征进行再表示。其中,对输入特征的再表示是作为一个辅助任务,来帮助语音的情绪识别。

Parthasarathy S, Rozgic V, Sun M, et al. Improving Emotion Classification through Variational Inference of Latent Variables[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019: 7410-7414.

 

摘要:传统的语音情绪识别模型是利用句子级(utterance-level)语音特征和相关情绪标签进行训练和预测。在该论文中,作者假设语音信号是由多个隐式因子决定的,例如情绪状态、年龄、性别以及说话的内容。为此,作者提出对抗自动编码机(Adversarial Autoencoder, AAE)来对隐式因子进行推测并对输入特征进行再表示。其中,对输入特征的再表示是作为一个辅助任务,来帮助语音的情绪识别。IEMOCAP数据的实验证明了辅助学习能有效提升情绪分类的效果。同时,作者认为所提出的学习方式可用于端到端的语音情绪识别,只要所用的模型是基于语音帧作为输入。

 

一、思路

提取音频特征,将特征输入到Adversarial Autoencoder模型,进行半监督学习。半监督包括有监督的label分类和无监督的中间隐层表示z。通过对z的对抗学习,使得中间因层z服从高斯分布,符合作者提出的隐式因子假设。预测阶段只需输入语音帧的特征,生成中间隐层表示,再输出到softmax层分类,得到情绪类别概率。具体模型如下:

 

1581045666399239.png

1.输入部分:输入x可以由传统的手工特征UTT,即65 frame level LLDs from the Interspeech 2013 paralinguistic feature set,也可由CNN对频谱图提取。

 

2.模型训练:

(1)Autoencoder的无监督训练,由输出重构的 x ̂ 跟输入的 x 求解loss;

(2)假设中间隐层变量z服从高斯先验分布,每次从高斯分布中采样一个sample,跟中间层向量z一起,作为true sample和fake sample输入至判别器判断,loss可反传至encoder,直至判别器无法分辨。由此学得的z服从高斯分布;

(3)中间层的另一个输出是类别向量y,将该x对应的真实label与类别向量y一起输入另一个判别器,使之类别服从同一分布;

(4)最后求解中间层输出y与实际label的交叉熵损失,以拟合分类器。

 

3.模型预测:直接输入音频帧的特征(from hand engineering or CNN),即可得到音频帧在三个维度下的类别(Act - Activation, Val - Valence and Dom - Dominance)。

 

二. 实验设置

实验数据:IEMOCAP,Activation、Valence、Dominance三个连续型维度,每个维度下数值{1,2},{3},{4,5}离散划分为低中高三类,采用精确率(Accuracy)作为每个维度的评价指标。


情绪定义:

离散型情绪定义:快乐、悲伤、生气、中性、讨厌、惊讶、害怕等。直观可解释,也便于分类评价。

连续型情绪定义:维度情感模型通过几个取值连续的维度(唤醒维Activation、效价维Valence、支配维Dominance)将情感刻画为一个多维信号。与传统的离散情感模型相比,具有表示情感的范围广、能描述情感的演变过程等优点,分别表示。

 

评价指标:

离散型情感分类:多分类问题,评价指标在类别均衡时可采用精确率(Accuracy),类别不均衡时采用准确率(Precision)、召回率(Recall)、F值(F-score)等。

连续型情感分类[1]:维度情感预测问题主要可以分为两种类型, 一是根据一个或多个维度的取值将维度情感预测问题退化为一个分类问题, 此分类问题既可以是按照某个维度的取值分成正与负(或积极与消极)两种类型的两分类问题, 又可以是按照某个维度的取值分为低、中、高三种类型的三分类问题, 还可以是在效价-唤醒空间中用四个象限代表四个类别的四分类问题等; 二是对每个维度的连续取值进行预测, 此时维度情感预测问题是一个回归问题。

 

三. 实验结果

UTT:65 frame level LLDs from the Interspeech 2013 paralinguistic feature set 

FR:CNN对频谱图卷积后的特征表示

经过AAE优化后的特征效果优于原始特征

 

1581045879129127.png

 

四.总结

1. 基于CNN的端到端特征提取算法优于传统手工特征算法,待考量因为只用了一类手工特征,而且任务只是三分类,未在离散情感定义下进行评测。

2.AAE的优点是能提升原先算法的准确率。通过对抗学习认为隐层的分布可表示情绪状态、年龄、性别以及说话的内容这些因子,个人认为有些牵强。

 

 参考文献:

[1] 李霞, 卢官明, 闫静杰, 张正言. 多模态维度情感预测综述. 自动化学报, 2018, 44(12): 2142-2159. doi: 10.16383/j.aas.2018.c170644

[2] Parthasarathy S, Rozgic V, Sun M, et al. Improving Emotion Classification through Variational Inference of Latent Variables[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019: 7410-7414.

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。