集成深层与浅层结构的多模态抑郁症估计与识别模型(三)

举报
ForEver207 发表于 2020/07/23 20:51:58 2020/07/23
【摘要】 在本工作中,我们首先提出一个新的视觉描述特征—位移范围直方图HDR来描述患者面部肌肉运动的信息,因为有心理学文献指出,抑郁症患者通常会表现出运动迟滞的现象,另外就是提出使用PV-SVM来进行自动化的文本分析,这就回答了上一章留下来的问题。另外这一章另一个重点是根据模态之间的特性探索了多模态融合的框架,提出了三种融合模型。


上一篇文章中,我们引出了我们提出的“集成深层与浅层结构的多模态抑郁症估计与识别模型”中的第一个抑郁症识别模型,在本节中,我们将介绍另外两种多模态抑郁症分析模型,他们的主要任务是抑郁症程度估计。


*TriDep-E(Triplet Deep Models for Depression Estimation)三流决策融合多模态抑郁症估计模型

模型框架如下图所示,与第一个模型的不同之处在于对文本的处理不同,这里在使用Pv模型得到五个问题的特征映射之后,采用了与音视频一样的CNN-DNN模型对每个问题进行phq-8的估计,然后五个问题的结果先融合一次,得到文本模态的抑郁程度结果,最后,把文本、音频和视频三个单模态的预测结果使用DNN进行决策级融合,得到最终的抑郁症程度估计。


image.png


*InDepS-E(Integrating Deep and Shallow Models for Depression Estimation)深层与浅层模型结合的抑郁症估计模型


最后来看我们InDepS-E框架,这个框架也包含三部分。我们首先来看第一部分,就是下图中左上这块,关于音视频的处理。前面两个模型是将抑郁症和非抑郁症患者放到一起去训练CNNDNN模型,在这里,为了让模型能重点去学习这两个类别的特定属性,于是我们将抑郁症和非抑郁症患者分开建模,就是使用抑郁患者的音视频建立一个估计模型,它的预测结果记为PHQ_D,同样,使用非抑郁患者的音视频建立一个估计模型,这个模型的预测结果记为PHQ_ND。


在左下文本分析里面包含两块,第一块跟之前的用法一样,使用PV-SVM和随机森林进行抑郁/非抑郁的识别,第二块这里我们加入了文本的全局特征,比如这个患者在这个访谈期间说了多少单词,说了多少句子,其中用了多少个填充词,笑了多少次,叹气的次数等等一共8种全局统计特征,最后组成一个8维的向量输入随机森林里面进行抑郁症识别。最后,这两块文本特征的识别结果采用逻辑与进行合并一下,得到最后的识别结果,记为D_c。



image.png


实验结果及分析

TriDep-E模型参数

image.png


InDep-E模型参数

image.png


两种融合框架的抑郁症估计结果如下表所示,

image.png

image.png

从单模态结果中,可以看到,文本模态要好于音频和视频模态。为了直观,我们来直接看后两个模型的多模态融合的最终结果,如下图所示。整体上,第三个模型,也就是整合了深度和浅层模型的抑郁症估计模型获得了更好的性能,RMSE为5.4,要远好于第二种模型的5.974.这也说明了根据模态特性设计融合框架的重要。这个结果也是取得了AVEC2017年抑郁症估计竞赛的第二名,当时第一名的结果在测试集上的是5.0左右。最后这两个模型的工作我们发表在了AVEC2017竞赛上。


image.png




至此,我们“集成深层与浅层结构的多模态抑郁症估计与识别模型”介绍到此结束。本工作主要有两块,除了对视频特征和文本特征有创新外,也设计了多种多模态融合框架,但是我们也发现一个问题,就是跟我们做对比的方法,深度模型不多。这主要是因为数据量不够,所以限制了深度模型在抑郁症分析时候的使用。那接下来一章的工作就是围绕数据量扩充这点展开的。



【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。