SoundNet-根据声音识别场景
Aytar Y, Vondrick C, Torralba A. Soundnet: Learning sound representations from unlabeled video[C]//Advances in neural information processing systems. NIPS 2016: 892-900.
摘要:作者从大量的来自现实环境中的非标注音频数据,来学习自然环境下的声音表示。得益于视频数据无处不在并且很容易大规模获取,利用图像和声音的一致性,可以对非标注视频进行学习。作者通过teacher-student的学习方式,将成熟的图像识别模型用于分类视频场景以及物品识别,然后将识别的结果和语音之间进行映射,联合学习到声音的类别及场景。该模型在声音/场景分类任务中取得了SOTA的成绩。
一、思路
从题目中可以看出,其主要是从无标记的视频数据中来学习声音的相关信息。由于视频中包含图像和语音,由于图像现在的场景识别已经可以做到比较准确,因此根据识别的环境和语音之间的映射学习,从而可以学习得到语音与场景环境之间的对应关系[1]。
论文的主要原理如下图所示:
即通过SoundNet架构与ImageNet,Place CNN等进行联合训练。首先视频数据集中的每个视频都切分成两部分,一部分为音频,一部分为RGB图像帧。视觉识别网络采用在ImageNet和Places两个大型图像数据集上的预训练VGG模型。ImageNet和Places都是图像识别领域的大型数据集,其中Imagenet是图像目标分类数据集,Places是图像场景分类数据集。将从视频中分割出来的RGB帧输入到预训练的VGG模型(代码中正常使用ResNet34)中,得到的输出结果作为声音识别网络的监督信息。声音识别网络采用8层的全卷积结构,使用从视频中提取出的声音时间序列作为网络的输入,损失函数采用KL-divergence[1]。
二、实验设置
1、数据集:
(1)DCASE Challenge: Detection and Classification of Acoustic Scenes and Events Challenge (DCASE) 。含10个声音场景,每个场景下有10个训练样本,以及总共100个测试样本。每个样本是30秒的录音文件,该任务属于多分类任务。任务页:http://dcase.community/challenge2019/index
(2)ESC-50, ESC-10:ESC-50含2000个自然界的短音频(5秒),分为50个小类,5个大类(动物、自然音效、人类非说话音、室内音、室外/城市的声音)(animals, natural soundscapes, human non-speech sounds, interior/domestic sounds, and exterior/urban noises)。每个小类下含40个样本。 ESC-10是 ESC-50的子集,只含有10个小类(dog bark, rain, sea waves, baby cry, clock tic, person sneeze, helicopter, chainsaw, rooster, and fire cracking)。下载链接:https://github.com/karolpiczak/ESC-50
2、评价指标:准确率Accuracy
三、实验结果
得益于大量数据的训练,SoundNet在三个数据中均优于传统算法。
四、总结
1、论文提供了很好思路解决标注数据稀缺的问题,通过transfer learning,跨模态之间进行映射。多模态也将是近几年的大趋势。
2、论文信息及相关代码主页:https://projects.csail.mit.edu/soundnet/
参考文献:
[1] SoundNet:根据声音来识别场景环境实践 https://blog.csdn.net/sparkexpert/article/details/80835589
[2] Aytar Y, Vondrick C, Torralba A. Soundnet: Learning sound representations from unlabeled video[C]//Advances in neural information processing systems. NIPS 2016: 892-900.
- 点赞
- 收藏
- 关注作者
评论(0)