MultiAtt-DPNet: 基于多注意力机制及局部时空信息的端到端抑郁症估计网络(三)

举报
ForEver207 发表于 2020/07/21 20:51:46 2020/07/21
【摘要】 在上一节中,我们介绍了D-PAttNet网络。可以看到,D-PAttNet在AU检测任务中达到了state-of-the-art性能,说明将人脸分块进行空间和时间信息的学习对于人脸分析具有很重要的作用,而且D-PAttNet是端到端建模,避免了动态信息的浪费。因此可以将D-PAttNet用于基于人脸的抑郁症分析,但是还有一个问题,抑郁症的访谈时长要远远长于AU的动态变化时长,有时候有些视频帧不重要


上一节中,我们介绍了D-PAttNet网络。可以看到,D-PAttNet在AU检测任务中达到了state-of-the-art性能,说明将人脸分块进行空间和时间信息的学习对于人脸分析具有很重要的作用,而且D-PAttNet是端到端建模,避免了动态信息的浪费。因此可以将D-PAttNet用于基于人脸的抑郁症分析,但是还有一个问题,抑郁症的访谈时长要远远长于AU的动态变化时长,有时候有些视频帧不重要,那么就会给模型带来噪声,因此为了从时间维度上重点突出情感信息显著的视频帧,在D-PAttNet的基础上提出了时间注意力机制,自动为重点帧分配更高的权重,与D-PAttNet 的空间注意力机制相结合,组成了时空多注意力机制,我们将这个网络称为MultiAtt-DPNet。


MultiAtt-DPNet与D-PAttNet唯一的区别就是在模型的前端加入了时间维度的注意力。然后其余部分都与D-PAttNet一致,模型最后的输出是抑郁症的程度BDI得分。具体网络结构如下所示:

image.png

MultiAtt-DPNet采用的实验数据库是AVEC2014抑郁症数据库,包含84名受试者的300个视频(包含音视频)。受试者通过进行一系列人机交互的任务,记录其语音和面部数据。每个视频的持续时间从6秒到4分钟不等。该数据库中受试者需要完成两项任务,一个是指定的阅读任务(Northwind),另一个任务则为随意讲述一段记忆(Freeform)。 在实验设置上与D-PAttNet实验设置一致。


我们来看实验结果,我们测试了使用不同注意力时的性能,当没有注意力时模型性能最差,当时空多注意力都用上时,模型性能最好。

image.png

同时我们对模型的权重进行了可视化,由空间注意力可以看到,普遍上半脸对于抑郁症分析作用更大,也可以看到第3块的人脸权重较低,这是由于其他几个上半脸和P3的重合度比较高,所以模型就自动降低了这部分的权重:


image.png


image.png

在时间注意力上,可以看到,当人脸在安静的时候,时间上的权重比较稳定,当开始说话,面部出现动作和表情或者是头动时,权重就会明显变化,模型学习的还是挺好的。


下表是将我们的结果与仅用视觉模态的方法进行一个对比,可见当时空多注意力都用上时,我们的模型性能在要好于上面提到的这些方法。

image.png


同时,我们将结果与当年参加AVEC2014的队伍之间的对比,需要注意的是,这些队伍使用的是音视频多模态,而我们仅使用了面部单模态,我们的模型性能可以排到第二名,仅次于MIT的实验结果。这个工作正在TMM在审。

image.png


做个总结,本章提出了三个模型,从AU到抑郁症层层递进,模型结构也是一点点演变而来。创新点主要集中在时空信息的研究和注意力机制的研究上,同时也做了大量的可视化工作,有助于我们理解模型的工作机制。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。