SoundNet-根据声音识别场景

举报
Tython 发表于 2020/02/07 11:45:38 2020/02/07
【摘要】 作者从大量的来自现实环境中的非标注音频数据,来学习自然环境下的声音表示。得益于视频数据无处不在并且很容易大规模获取,利用图像和声音的一致性,可以对非标注视频进行学习。作者通过teacher-student的学习方式,将成熟的图像识别模型用于分类视频场景以及物品识别,然后将识别的结果和语音之间进行映射,联合学习到声音的类别及场景。该模型在声音/场景分类任务中取得了SOTA的成绩。

Aytar Y, Vondrick C, Torralba A. Soundnet: Learning sound representations from unlabeled video[C]//Advances in neural information processing systems. NIPS 2016: 892-900.

 

摘要:作者从大量的来自现实环境中的非标注音频数据,来学习自然环境下的声音表示。得益于视频数据无处不在并且很容易大规模获取,利用图像和声音的一致性,可以对非标注视频进行学习。作者通过teacher-student的学习方式,将成熟的图像识别模型用于分类视频场景以及物品识别,然后将识别的结果和语音之间进行映射,联合学习到声音的类别及场景。该模型在声音/场景分类任务中取得了SOTA的成绩。

 

一、思路

从题目中可以看出,其主要是从无标记的视频数据中来学习声音的相关信息。由于视频中包含图像和语音,由于图像现在的场景识别已经可以做到比较准确,因此根据识别的环境和语音之间的映射学习,从而可以学习得到语音与场景环境之间的对应关系[1]。

论文的主要原理如下图所示:

 

1581046914584235.jpg

即通过SoundNet架构与ImageNet,Place CNN等进行联合训练。首先视频数据集中的每个视频都切分成两部分,一部分为音频,一部分为RGB图像帧。视觉识别网络采用在ImageNet和Places两个大型图像数据集上的预训练VGG模型。ImageNet和Places都是图像识别领域的大型数据集,其中Imagenet是图像目标分类数据集,Places是图像场景分类数据集。将从视频中分割出来的RGB帧输入到预训练的VGG模型(代码中正常使用ResNet34)中,得到的输出结果作为声音识别网络的监督信息。声音识别网络采用8层的全卷积结构,使用从视频中提取出的声音时间序列作为网络的输入,损失函数采用KL-divergence[1]。


二、实验设置

1、数据集:

(1)DCASE Challenge: Detection and Classification of Acoustic Scenes and Events Challenge (DCASE) 。含10个声音场景,每个场景下有10个训练样本,以及总共100个测试样本。每个样本是30秒的录音文件,该任务属于多分类任务。任务页:http://dcase.community/challenge2019/index

(2)ESC-50, ESC-10:ESC-50含2000个自然界的短音频(5秒),分为50个小类,5个大类(动物、自然音效、人类非说话音、室内音、室外/城市的声音)(animals, natural soundscapes, human non-speech sounds, interior/domestic sounds, and exterior/urban noises)。每个小类下含40个样本。 ESC-10是 ESC-50的子集,只含有10个小类(dog bark, rain, sea waves, baby cry, clock tic, person sneeze, helicopter, chainsaw, rooster, and fire cracking)。下载链接:https://github.com/karolpiczak/ESC-50

2、评价指标:准确率Accuracy


三、实验结果

得益于大量数据的训练,SoundNet在三个数据中均优于传统算法。

 

1581046972572120.png

四、总结

1、论文提供了很好思路解决标注数据稀缺的问题,通过transfer learning,跨模态之间进行映射。多模态也将是近几年的大趋势。

2、论文信息及相关代码主页:https://projects.csail.mit.edu/soundnet/


参考文献:

[1] SoundNet:根据声音来识别场景环境实践 https://blog.csdn.net/sparkexpert/article/details/80835589

[2] Aytar Y, Vondrick C, Torralba A. Soundnet: Learning sound representations from unlabeled video[C]//Advances in neural information processing systems. NIPS 2016: 892-900.

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。