【2020华为云AI实战营】视频分类——实战营第六章自主拓展笔记
写在前面:
大家好,这篇博客是本人学习完华为云AI实战营第六章课程后的一点思考,我对视频分类这个领域比较感兴趣,所以除了老师上课介绍的内容之外自己也对这个领域进行深入。由于刚学习课程没多久所以不足之处希望各位老师和同学们指正!
视频分类指的是给一个视频片段,算法会对视频内容进行分类,其本质是三维视觉。在这篇博客中我将内容分为以下四部份:
l 视频分类与图像分类的区别
l 业内主流方法与具体介绍
l 视频分类常用数据集
l 一个具体领域应用和未来方向
一.视频分类与图像分类的区别
1. 在图像分类中,我们一般使用的是二维卷积,因为图片是平面静态的。而在视频中我们则要用到三维卷积,除了 二维空间之外还多了一维时间。
2. 数据集不同,这点很显然,动态与静态的区别。
3. 视频分类中时间轴上连续,而图片分类不具备这点。
二.业内主流方法与具体介绍
1. 三维卷积:在二维卷积之上多了一个深度通道,这个深度通道可以是视频的连续帧,也可能是3D图像的切片。
三维卷积的历史发展:
2015年 |
池化三维卷积 |
三维卷积难被初始化,参数过大且无预训练数据集 |
2017年~ |
I3D |
解决难初始化问题,“打气”,复制二维卷积 |
P3D |
假3D,拆分卷积 |
|
R(2+1)D |
空间维与时空维自由交换 |
|
S3D |
3D与2D卷积互换 |
2. 注意力机制
其核心为:并非每一帧都关键,寻找关键信息。
注意力机制源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息。上述机制通常被称为注意力机制。
注意力机制主要有两个方面:
l 决定需要关注输入的哪部分
l 分配有限的信息处理资源给重要的部分。
3. LSTM:视频与自然语言结合
用来处理时域信息的方法也就是视频分类中最重要的时间维,早期用光流的方式(非深度学习方法但是简单高效)。
LSTM内部主要有三个阶段:
a. 忘记阶段。这个阶段主要是对上一个节点传进来的输入进行选择性忘记。简单来说就是会 “忘记不重要的,记住重要的”。
b. 选择记忆阶段。这个阶段将这个阶段的输入有选择性地进行“记忆”。主要是会对输入进行选择记忆。哪些重要则着重记录下来,哪些不重要,则少记一些。
将上面两步得到的结果相加,即可得到传输给下一个状态的
c. 输出阶段。这个阶段将决定哪些将会被当成当前状态的输出。
LSTM的详细内容可以参考这篇文章: https://zhuanlan.zhihu.com/p/32085405
三.视频分析常用数据集
UCF101:最早的视频分类数据集,UCF-101是一种现实动作视频的动作识别数据集,来源于YouTube,一共有101个动作类别,13320个视频。
Kinetics:ActivityNet是一项视频分类的比赛,与图像理解的ImageNet比赛类似,吸引了大量学者的关注和参与。在行为理解比赛项目下,使用的数据集为Kinetcs。
上述两个数据集在动作之间样本差异很大,如踢腿、挥手,可退化为图像分类问题解决,即可能通过一帧猜测
The Something-Something :实现单帧无法判断其动作.个例子,一段视频十秒钟完成倒一壶茶的动作,任意一帧只能看到一个茶壶无法判断其动作。
其他数据集,不一一例举,如下图总结:
四.具体领域与未来方向
视频分类的应用领域非常广
1. 医疗影像:
背景:
核心介绍:扫描人体器官后机器自动分析结果,医学数据通常都是3D的,比如CT彩超扫描的数据,虽然我们看的片子是2D的,但其实那只是一个切片,真正的扫描数据是3D的。
下表给出医疗影像具体方向上与视频分类在三维卷积方法上的类比:
视频分类的方法 |
医疗影像方法 |
P3D |
P3D-based Approaches,分别从三个视角观察,每个视角上的都当成二维图像,之后进行融合 |
R(2+1)D |
Anisotropic Hybrid Network |
2维分割,当做图像分割处理 |
2. 未来方向:
标注成本过高,一帧一帧的标注相比图片而言需要更多的精力与财力,此外,基于时间维的技术还不成熟,时空联系上还有待探究。
- 点赞
- 收藏
- 关注作者
评论(0)