【2020华为云AI实战营】视频分类——实战营第六章自主拓展笔记

举报
woyuRT 发表于 2020/08/06 11:07:03 2020/08/06
【摘要】 写在前面:大家好,这篇博客是本人学习完华为云AI实战营第六章课程后的一点思考,我对视频分类这个领域比较感兴趣,所以除了老师上课介绍的内容之外自己也对这个领域进行深入。由于刚学习课程没多久所以不足之处希望各位老师和同学们指正! 视频分类指的是给一个视频片段,算法会对视频内容进行分类,其本质是三维视觉。在这篇博客中我将内容分为以下四部份:l 视频分类与图像分类的区别l 业内主流方法与具体介绍...

写在前面:

大家好,这篇博客是本人学习完华为云AI实战营第六章课程后的一点思考,我对视频分类这个领域比较感兴趣,所以除了老师上课介绍的内容之外自己也对这个领域进行深入。由于刚学习课程没多久所以不足之处希望各位老师和同学们指正!

 

视频分类指的是给一个视频片段,算法会对视频内容进行分类,其本质是三维视觉。在这篇博客中我将内容分为以下四部份:

l  视频分类与图像分类的区别

l  业内主流方法与具体介绍

l  视频分类常用数据集

l  一个具体领域应用和未来方向

一.视频分类与图像分类的区别

1. 在图像分类中,我们一般使用的是二维卷积,因为图片是平面静态的。而在视频中我们则要用到三维卷积,除了 二维空间之外还多了一维时间。

2. 数据集不同,这点很显然,动态与静态的区别。

3. 视频分类中时间轴上连续,而图片分类不具备这点。

二.业内主流方法与具体介绍

1.  三维卷积:在二维卷积之上多了一个深度通道,这个深度通道可以是视频的连续帧,也可能是3D图像的切片。

三维卷积的历史发展:

2015

池化三维卷积

三维卷积难被初始化,参数过大且无预训练数据集

2017~

I3D

解决难初始化问题,“打气”,复制二维卷积


P3D

3D,拆分卷积

R2+1D

空间维与时空维自由交换

S3D

3D2D卷积互换

 

2.  注意力机制

其核心为:并非每一帧都关键,寻找关键信息。

注意力机制源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息。上述机制通常被称为注意力机制。

注意力机制主要有两个方面:

l  决定需要关注输入的哪部分

l  分配有限的信息处理资源给重要的部分。

3.  LSTM:视频与自然语言结合

用来处理时域信息的方法也就是视频分类中最重要的时间维,早期用光流的方式(非深度学习方法但是简单高效)

LSTM内部主要有三个阶段:

    a. 忘记阶段。这个阶段主要是对上一个节点传进来的输入进行选择性忘记。简单来说就是会 “忘记不重要的,记住重要的”。

    b. 选择记忆阶段。这个阶段将这个阶段的输入有选择性地进行“记忆”。主要是会对输入进行选择记忆。哪些重要则着重记录下来,哪些不重要,则少记一些。

将上面两步得到的结果相加,即可得到传输给下一个状态的

    c. 输出阶段。这个阶段将决定哪些将会被当成当前状态的输出。

LSTM的详细内容可以参考这篇文章: https://zhuanlan.zhihu.com/p/32085405

三.视频分析常用数据集

UCF101:最早的视频分类数据集,UCF-101是一种现实动作视频的动作识别数据集,来源于YouTube,一共有101个动作类别,13320个视频。

KineticsActivityNet是一项视频分类的比赛,与图像理解的ImageNet比赛类似,吸引了大量学者的关注和参与。在行为理解比赛项目下,使用的数据集为Kinetcs

  上述两个数据集在动作之间样本差异很大,如踢腿、挥手,可退化为图像分类问题解决,即可能通过一帧猜测

 

The Something-Something :实现单帧无法判断其动作.个例子,一段视频十秒钟完成倒一壶茶的动作,任意一帧只能看到一个茶壶无法判断其动作。

其他数据集,不一一例举,如下图总结:

四.具体领域与未来方向

视频分类的应用领域非常广

1.  医疗影像:

背景:

核心介绍:扫描人体器官后机器自动分析结果,医学数据通常都是3D的,比如CT彩超扫描的数据,虽然我们看的片子是2D的,但其实那只是一个切片,真正的扫描数据是3D的。

下表给出医疗影像具体方向上与视频分类在三维卷积方法上的类比:

视频分类的方法

医疗影像方法

P3D

P3D-based Approaches,分别从三个视角观察,每个视角上的都当成二维图像,之后进行融合

R(2+1)D

Anisotropic Hybrid Network


2维分割,当做图像分割处理

 

2. 未来方向:

标注成本过高,一帧一帧的标注相比图片而言需要更多的精力与财力,此外,基于时间维的技术还不成熟,时空联系上还有待探究。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。