集成深层与浅层结构的多模态抑郁症估计与识别模型(三)
在上一篇文章中,我们引出了我们提出的“集成深层与浅层结构的多模态抑郁症估计与识别模型”中的第一个抑郁症识别模型,在本节中,我们将介绍另外两种多模态抑郁症分析模型,他们的主要任务是抑郁症程度估计。
TriDep-E(Triplet Deep Models for Depression Estimation):三流决策融合多模态抑郁症估计模型
模型框架如下图所示,与第一个模型的不同之处在于对文本的处理不同,这里在使用Pv模型得到五个问题的特征映射之后,采用了与音视频一样的CNN-DNN模型对每个问题进行phq-8的估计,然后五个问题的结果先融合一次,得到文本模态的抑郁程度结果,最后,把文本、音频和视频三个单模态的预测结果使用DNN进行决策级融合,得到最终的抑郁症程度估计。
InDepS-E(Integrating Deep and Shallow Models for Depression Estimation):深层与浅层模型结合的抑郁症估计模型
最后来看我们InDepS-E框架,这个框架也包含三部分。我们首先来看第一部分,就是下图中左上这块,关于音视频的处理。前面两个模型是将抑郁症和非抑郁症患者放到一起去训练CNNDNN模型,在这里,为了让模型能重点去学习这两个类别的特定属性,于是我们将抑郁症和非抑郁症患者分开建模,就是使用抑郁患者的音视频建立一个估计模型,它的预测结果记为PHQ_D,同样,使用非抑郁患者的音视频建立一个估计模型,这个模型的预测结果记为PHQ_ND。
在左下文本分析里面包含两块,第一块跟之前的用法一样,使用PV-SVM和随机森林进行抑郁/非抑郁的识别,第二块这里我们加入了文本的全局特征,比如这个患者在这个访谈期间说了多少单词,说了多少句子,其中用了多少个填充词,笑了多少次,叹气的次数等等一共8种全局统计特征,最后组成一个8维的向量输入随机森林里面进行抑郁症识别。最后,这两块文本特征的识别结果采用逻辑与进行合并一下,得到最后的识别结果,记为D_c。
实验结果及分析
TriDep-E模型参数
InDep-E模型参数
两种融合框架的抑郁症估计结果如下表所示,
从单模态结果中,可以看到,文本模态要好于音频和视频模态。为了直观,我们来直接看后两个模型的多模态融合的最终结果,如下图所示。整体上,第三个模型,也就是整合了深度和浅层模型的抑郁症估计模型获得了更好的性能,RMSE为5.4,要远好于第二种模型的5.974.这也说明了根据模态特性设计融合框架的重要。这个结果也是取得了AVEC2017年抑郁症估计竞赛的第二名,当时第一名的结果在测试集上的是5.0左右。最后这两个模型的工作我们发表在了AVEC2017竞赛上。
至此,我们“集成深层与浅层结构的多模态抑郁症估计与识别模型”介绍到此结束。本工作主要有两块,除了对视频特征和文本特征有创新外,也设计了多种多模态融合框架,但是我们也发现一个问题,就是跟我们做对比的方法,深度模型不多。这主要是因为数据量不够,所以限制了深度模型在抑郁症分析时候的使用。那接下来一章的工作就是围绕数据量扩充这点展开的。
- 点赞
- 收藏
- 关注作者
评论(0)