集成深层与浅层结构的多模态抑郁症估计与识别模型(二)
在上一篇文章中,我们引出了我们提出的“集成深层与浅层结构的多模态抑郁症估计与识别模型”中使用的特征。具体来说,我们根据抑郁症患者的外在表现,提出了用于刻画患者面部运动迟滞的面部运动范围直方图特征,同时为了自动化的分析患者的文本信息,我们提出使用段落向量(PV)+SVM的方式进行文本分析。在本节中,我们将详细介绍提出的抑郁症识别模型以及实验结果。
InDepS-R(Integrating Deep and Shallow Models for Depression Recognition):深层与浅层模型结合的抑郁症识别模型
模型包括三方面:第一个是左上的基于音视频CNN-DNN的抑郁程度估计模块。右边这个图是它的放大,首先使用音视频特征来训练CNN和DNN模型,以对应的PHQ-8得分为标签。这里DCNN和DNN是分开分两步训练的,这样的好处是可以避免网络一次性学习太多参数。DNN的输出就是作为单模态的估计结果了,然后将音频和视频单模态的预测结果串接输入到一个DNN模型中,得到最后的融合估计结果。
模型的第二个部分是基于PV-SVM模型的生活状态分类模块。我们将患者针对右下角这五个问题的回答利用段落向量模型得到他们的特征映射,然后使用SVM对这五个问题进行了二分类,比如判断患者的睡眠好还是不好,他们的性格是外向还是内向等等。这样就完成了文本的自动分析。
第三个模块就是抑郁症分类模块。该模块将音视频得来的PHQ-8 预测分数和文本分析得来的抑郁症症状分类结果串接,作为随机森林的输入,进行最终抑郁/非抑郁的分类。
这个整个模型的设计考虑了不同特征的特性,音视频与抑郁症的联系比较隐含,因此我们借助神经网络的非线性建模能力去挖掘音视频和抑郁症之间的关系,而文本则属于一种高层次的特征,于是借助浅层模型便足够了。这里使用了很多模型的组合,但仔细分析,就像当时我们论文的一位评审所说,每部分的设计都是考虑了各自的特点。
实验结果分析
首先,由于原始数据集分部不均衡,因此我们对数据首先进行了平衡,具体的平衡方法如上图所示,平衡后得到的样本个数如右下角表格所示。模型训练最后确定的参数如下:
如前所述,InDepS-R模型包括三部分,因此我们对模型结果分三部分进行分析:
a) 基于DCNN-DNN的音视频抑郁症PHQ-8估计实验
在视觉模态中,我们考察了受试者在说话和不说话时的抑郁症估计性能,可以看到讲话时候的模型性能还是好于不讲话时候的性能,这也容易理解,人在说话时面部的信息更多些。然后我们分别测试了DCNN-SVR和DCNN-DNN,可见后者的性能更好。最后音视频单模态的结果如上图,总体上,视频模态要好于音频模态。
因为这里视频的HDR特征是我们新提出来的特征,在此我们跟以往比较常用的词袋特征BoW和运动历史直方图MHH做了比较,实验结果显示还是HDR要好于前两者:
我们也对三者特征进行了可视化,从下图可以看到,bow和mhh直观上对于抑郁和非抑郁类别不可分,但是HDR特征针对两类样本区分度还是可以的:
然后在音视频多模态融合实验中,与其他人的结果相比,这里提出的使用音视频进行决策级融合的结果在测试集上的RMSE为6.338,为最低结果:
b) 基于PV-SVM的精神/生活状态分类实验(分类准确率 %)
在文本分析模块中,我们测试了在不同参数下的PV-SVM的生活状态的分类性能,这里L代表使用Pv模型将文本特征映射的维度,S代表PV模型一次考虑的单词数目。我们对比了不同参数下的性能,发现PV模型对参数L比较敏感,当L为100,S为5时,五个问题的整体分类准确率最高。另外我们看到,对于问题1问题2的分类准确率要明显高于后面三个问题,这主要是因为前两个问题是问患者有没有抑郁症病史和PTSD病史,而患者针对这两个问题的回答都很简单,yes或者no。后面三个问题的回答相对较复杂,有时候是模棱两可的。
c) 抑郁症最终分类结果
最终,我们的模型的抑郁症分类结果如下图所示,在验证集35个样本,29个都分类正确了。
再来看具体的F1指标,我们提出的这个整合深层与浅层的模型在测试集上,取得了最好的平均F1值,平均得分达到了0.746,比上一章0.724的结果提高约3%。这个工作我们也发表在情感计算领域的会议ACII和情感计算领域的顶刊TAC上。
本节的任务主要是抑郁症识别,是一个分类问题,在下一节中,我们将介绍另外两种模型,基于音视频和文本的抑郁症程度估计模型。
- 点赞
- 收藏
- 关注作者
评论(0)