基于特征生成网络的训练数据增广及抑郁程度估计模型
引言
随着社会经济近些年的飞速发展,人们的生活压力也越来越大,所以抑郁症慢慢成了一种社会常见的精神疾病。轻则影响我们的工作,降低我们的生活体验,重则会造成自杀。目前,医院诊断抑郁症的主要方式还是靠一些调查问卷和访谈,但是首先我国心理医生数量较少,导致很多患者不能及时得到诊疗,其次医生访谈的过程主观性比较强,同一个病人不同医生的诊断结果可能都是有差异的。因此,我们的目标就是借助计算机的技术,通过分析患者的音视频和文本信息,来实现一个自动化抑郁症的分析系统,这样既可以为抑郁症的诊断提供一个客观指标,也可以辅助医生进行治疗,提高诊断效率。
但是抑郁症数据不同于其他数据(如ImageNet)拥有大量样本,抑郁症的样本数较少,从下面这张表也可以看到,目前几种公开的抑郁症数据库,其实每个数据库的样本并不大,200到300之间。因此,我们就想能不能借助对抗生成网络GAN,也进行抑郁症的音频特征扩充呢?因为有的抑郁症数据库出于隐私保护没有提供画面,所以我们想从音频扩充上出发。但是特征扩充后,如何去衡量生成特征的质量好坏,因为音频特征不像视频图像那样直观,所以我们就提出了一个2层级联GAN框架做音频特征的扩充,然后从空间域、频率域和深度学习方面提出了三种评价特征生成质量的客观指标,也探讨了模型的性能与生成的训练数据规模之间的关系。
特征生成网络GAN
GAN 的思想来源于二人零和博弈思想(minimax two-player game),基本结构如下图所示:一个生成器G 和一个判别器D。GAN常用于图像领域,包括图像的生成,域迁移领域,也有人用GAN做医学图像的扩充。但是在我们这个工作的时候,还没人把GAN用于音频工作上。
我们来看我们提出的音频特征生成网络。真实数据是我们提出的音频特征6902维向量,具体特征种类见下表。将其补零reshape成84*84的2D图像,这样就可以发挥卷积网络的优势了。在实验中发现如果直接生成84*84的特征图,效果不好,于是我们先将84*84分为9个小块,每一块分配一个GAN来学习它的分布,就这样,第一层9个GAN模型,每一个生成对应的小块,然后我们发现每个小块内部学习的挺好,可以学到相应的纹理,但是每个小块的边缘学习的不好,因此我们就用第二级的GAN来输入整个9个块,对小块边缘进行一个微调,这样的就最后得到一个生成的特征图。
上图是我们提出的这个2层级联对抗生成网络的结构。左边是生成器,右边这个是判别器,从这个模型可以看到,每一个部分我们都串接了一个橙黄色的25维度的one-hot向量,这相当于是一个条件信息,因为在我们的网络中,我们不仅要生成音频特征,而且需要知道此时生成的音频特征到底是什么抑郁等级的,我们的目标PHQ-8就有25个等级,所以这里的one-hot向量就是告诉网络生成哪一个抑郁等级的音频特征。
生成特征的评价指标
(1)基于图像熵的相似性度量
在特征生成好之后,就要判断生成特征的质量怎么样,毕竟音频特征不像图像起码可以直观看。所以,我们首先从空间域的图像熵角度度量真假样本的相似度。 因为图像熵可以反映图像的灰度分布和结构化信息,从图像结构上来说,如果真实样本和生成样本保持一致的话,说明生成样本生成的也不错了。具体过程如下图:首先定义一个真实样本集和生成样本集。对于真实样本,我们计算他们的图像熵,然后使用正态分布去拟合他们的分布。对于生成样本,计算他们的图像熵在这个正态分布中的概率密度,如果大于0.8,那就保留,否则就丢弃这个生成样本,就是这里的公式:
至于这里我们为什么选正态分布去拟合,原因在这里:下图真实样本男女在不同抑郁等级上的图像熵分布,用直方图统计分布后,可以直观看出来基本每一个等级的分布都符合正态分布,因此在这里我们采用的是正态分布去拟合。
(2)基于频域的相似性度量
然后,第二个评价指标是频域。我们知道一个图像最先吸引眼球的可能是物体的边缘信息,做FFT之后这些边缘信息就是高频信息,有时候这些高频信息是一些重要的信息。如果生成样本能把真实样本的高频信息学到的话,那也说明生成样本学的挺好的。具体我们是这样做的,对所有真实样本做FFT得到他们的幅度谱,然后拉成向量形式,计算所有真实样本两两之间的向量夹角,从而得到一个最大角度和最小角度,然后对生成样本也做fft得到频谱向量,如果对于任意一个真实样本的向量,它与这个生成样本的频谱向量处于这个最大夹角和最小夹角之间,那我们就保留,否则就丢弃了。如下所示:
(3)基于深度学习的相似性度量
最终,我们使用生成模型对每个抑郁等级生成了3000个样本,这样女性下来一共是57000个生成样本,男性一共是51000个生成样本。下面这个表里面列出了每种评价指标对生成样本的保留率,我们看到三个保留率都挺高的,但是一个有意思的现象是,三者合并之后的保留率却很低,男女分别为0.374和0.245.这其实说明了一个问题,就是三种评价指标的重合率不高,就是他们是从三个不同的方面去衡量生成样本的好坏的,没有太多冗余,这也正是我们想达到的目的。
来看看最后保留下来的生成样本和真实样本之间的可视化图,其实一些纹理信息已经保留下来了:
下图是他们FFT之后的幅度谱,可以看到高频信息还是学到了:
使用生成数据训练抑郁症估计模型
最后我们来看模型的性能。下图中的绿线是用生成样本训练,用真实样本测试的性能,红线是用真实样本训练模型,真实样本测试的性能,图中这个横坐标是生成样本的规模,横轴的1代表使用的生成样本与真实样本数据规模相同,4代表使用的生成样本是真实样本数据规模的4倍,以此类推。可以看到,如果使用与真实样本相同规模的数据量去训练模型,生成样本的性能不如真实样本,对女性来说真实样本的性能,RMSE在5.920,而生成样本的性能是6.559,男性也一样,生成样本的性能不如真实样本。但是随着生成数据量加大,模型的性能在逐渐变好。男女最后都会稳定下来。
下表是具体的数值。可以看到模型稳定后,生成样本的性能可以达到5.52,要好于其他真实样本的性能。这个工作发表在IEEE access上(Le Yang,Dongmei Jiang,and Hichem Sahli. Feature Augmenting Networks for Improving Depression Severity Estimation From Speech Signals. IEEE Access 8: 24033 - 24045 (2020) )。
总结
通过使用对抗生成网络来扩充抑郁症的数据,可以提高模型性能,对于抑郁症数据的增强提供了一个新思路。另外提出的三种评价指标的组合也能较全面的进行生成音频特征质量的衡量。
- 点赞
- 收藏
- 关注作者
评论(0)