集成深层与浅层结构的多模态抑郁症估计与识别模型(一)
在抑郁症识别中,当前大多数算法都是重点关注音频和视频的副语言特征,如语音基频、讲话速度、面部动作单元等,而忽视了语音本身反映出来的语言语义信息。在抑郁症分析领域普遍还是采用传统的静态浅层模型,如SVM、GMM、决策树等。因此提出能根据各个模态特性的、同时融合音视频和文本的多模态融合的深度模型在抑郁症分析中将具有很大潜力。
因此,在本工作中,我们首先提出一个新的视觉描述特征—位移范围直方图HDR来描述患者面部肌肉运动的信息,因为有心理学文献指出,抑郁症患者通常会表现出运动迟滞的现象,另外就是提出使用PV-SVM来进行自动化的文本分析,这就回答了上一章留下来的问题。另外这一章另一个重点是根据模态之间的特性探索了多模态融合的框架,提出了三种融合模型,分别是整合深层与浅层模型的抑郁症识别模型,三流深度抑郁症估计模型,和整合深层与浅层模型的抑郁症估计模型。从名字也能看出来,后两种是用于抑郁症估计的,第一种是用于抑郁症识别的。由于内容较多,本章工作我们将分为两部分介绍,分别从特征和模型两部分进行讲解。
视频特征—位移范围直方图(Histogram of Displacement Range, HDR)
我们先来看提出的视频特征,位移范围直方图。提出这个特征的动机是为了刻画抑郁患者精神性运动迟缓,特征是基于面部68个关键点的坐标的,在计算时,首先定义时间间隔M和范围R,我们统计在不同时间M下,坐标点之间的差值,然后统计这些差值落在范围R中的频数,构成直方图,实际当中,可以定义多个M和R。当M相同时,差值就可以反映关键点移动的速度信息,而当采用多个M时,就可以反映出关键点的加速度信息。这就是位移范围直方图的构建思路和它的物理含义。
基于段落向量( Paragraph Vector )的文本特征
在文本特征上,我们采用段落向量进行文本映射,段落向量是词向量的升级版,考虑了语句中的词序,可从变长文本片段中学习固定长度的特征表示,将文本语句映射到固定维度的特征空间中:
在这里,我们经过分析,将受试者对于下述特定问题的回答,输入训练好的PV模型中,得到其对应回答的文本特征:
音频特征
在音频特征上,我们综合分析近几年INTERSPEECH大会上大家普遍采用的音频特征后,然后提取了这些特征的并集。最后得到6902维的全局特征:
- 点赞
- 收藏
- 关注作者
评论(0)