集成深层与浅层结构的多模态抑郁症估计与识别模型(一)

举报
ForEver207 发表于 2020/07/21 21:29:47 2020/07/21
【摘要】 在本工作中,我们首先提出一个新的视觉描述特征—位移范围直方图HDR来描述患者面部肌肉运动的信息,因为有心理学文献指出,抑郁症患者通常会表现出运动迟滞的现象,另外就是提出使用PV-SVM来进行自动化的文本分析,这就回答了上一章留下来的问题。另外这一章另一个重点是根据模态之间的特性探索了多模态融合的框架,提出了三种融合模型

在抑郁症识别中,当前大多数算法都是重点关注音频和视频的副语言特征,如语音基频、讲话速度、面部动作单元等,而忽视了语音本身反映出来的语言语义信息。在抑郁症分析领域普遍还是采用传统的静态浅层模型,如SVM、GMM、决策树等。因此提出能根据各个模态特性的、同时融合音视频和文本的多模态融合的深度模型在抑郁症分析中将具有很大潜力。


因此,在本工作中,我们首先提出一个新的视觉描述特征—位移范围直方图HDR来描述患者面部肌肉运动的信息,因为有心理学文献指出,抑郁症患者通常会表现出运动迟滞的现象,另外就是提出使用PV-SVM来进行自动化的文本分析,这就回答了上一章留下来的问题。另外这一章另一个重点是根据模态之间的特性探索了多模态融合的框架,提出了三种融合模型,分别是整合深层与浅层模型的抑郁症识别模型,三流深度抑郁症估计模型,和整合深层与浅层模型的抑郁症估计模型。从名字也能看出来,后两种是用于抑郁症估计的,第一种是用于抑郁症识别的。由于内容较多,本章工作我们将分为两部分介绍,分别从特征和模型两部分进行讲解。



*视频特征位移范围直方图(Histogram of Displacement Range, HDR

我们先来看提出的视频特征,位移范围直方图。提出这个特征的动机是为了刻画抑郁患者精神性运动迟缓,特征是基于面部68个关键点的坐标的,在计算时,首先定义时间间隔M和范围R,我们统计在不同时间M下,坐标点之间的差值,然后统计这些差值落在范围R中的频数,构成直方图,实际当中,可以定义多个M和R。当M相同时,差值就可以反映关键点移动的速度信息,而当采用多个M时,就可以反映出关键点的加速度信息。这就是位移范围直方图的构建思路和它的物理含义。


image.png

*基于段落向量( Paragraph Vector )的文本特征

在文本特征上,我们采用段落向量进行文本映射,段落向量是词向量的升级版,考虑了语句中的词序,可从变长文本片段中学习固定长度的特征表示,将文本语句映射到固定维度的特征空间中:

image.png


在这里,我们经过分析,将受试者对于下述特定问题的回答,输入训练好的PV模型中,得到其对应回答的文本特征:

image.png

*音频特征

在音频特征上,我们综合分析近几年INTERSPEECH大会上大家普遍采用的音频特征后,然后提取了这些特征的并集。最后得到6902维的全局特征:

image.png





【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。