《深入理解AutoML和AutoDL:构建自动化机器学习与深度学习平台》 —1.4 深度学习的发展
1.4 深度学习的发展
随着深度学习的应用越来越广泛,3个成熟的研究领域逐渐形成,分别是计算机视觉、自然语言处理以及语音领域,目前AI创业公司也主要集中在这些领域。下面我们就重点展开来介绍这3大应用领域。
1.4.1 计算机视觉
计算机视觉(Computer Vision,CV),顾名思义就是计算机拥有像人类一样“看”的能力。在这里“看”的具体含义是指:不仅要将当前的图像输入到计算机中,计算机还应该具有智力,可以根据要求针对当前图像输出一定的分析结果。这个过程可以定义为几个核心任务:目标分类、目标检测、目标分割以及目标跟踪。
目标分类(Target Classification)就是基于分类任务的目标识别问题,即计算机根据给定的数据,找出这些数据中哪些是所需的目标。例如,猫狗分类问题或者花草分类问题。这也是深度学习领域中最简单的一类任务,根据最后的分类函数可以将此任务分为二分类问题和多分类问题。目标分类任务是其他任务的基础,也是很多初学者的入门级任务。
目标检测(Target Detection)可以看成是分类和回归问题的统一。该任务不仅要判断当前图像的所属类别,还要通过包围框(bounding box)标出图像中目标的具体位置。目标检测问题由来已久,基于深度学习的发展从2013年R-CNN算法的提出开始,不断演变出了一系列多步检测网络。之后很多研究学者对网络进行了改进,提出了单步检测,将分类、定位、检测功能都集成在一个网络中,如Yolo、SSD等。目标检测任务的应用十分广泛,经常应用于电力系统检测、医疗影像检测等。目标检测任务根据问题的复杂性,衍生出了人脸检测问题。与传统目标检测问题不同的是,人脸检测需要实现人脸关键点的定位和检测,现在移动设备中应用比较广泛的人脸识别系统就是基于这一任务研究而来。
目标分割(Target Segmentation),就是将一张图像中的特定目标的区域分割出来。在深度学习领域中,目标分割的研究方向主要分为两类:语义分割和实例分割。所谓语义分割就是针对图像中的每个像素点进行分类,即判断图像中哪些像素属于哪个目标。而实例分割是语义分割的进阶版,它不仅要判断哪些像素属于目标,而且要判断哪些像素属于第一个目标,哪些像素属于第二个目标,目前在医疗影像项目中的关键就是对人体器官的分割。常见的图像目标分割网络有FCN和U-Net,其中,U-Net常用于医疗图像分割。
目标跟踪(Target Tracking)是一个基于时间序列的目标定位问题,通常是基于视频数据的任务,常用于智能监控系统、嫌疑犯追逃等。首先是在第一帧图像中锁定目标,在之后的时序数据中,不断地对目标进行重定位。这是一个非常复杂的问题,需要用到目标检测和分割任务,而且根据时序相关性进行有效建模,可以减少定位过程中的计算量,提高追踪效率。
我们介绍了这么多计算机视觉的定义及任务,那么它与图像处理有什么异同呢?严格来讲,图像处理是一种数字信号处理,它不涉及对图像内容的理解,一般是通过数学函数等对图像进行变换或增强,如归一化图像、图像预处理、消除图像噪声等;而计算机视觉是使用计算机模拟人类视觉,该模拟过程包括学习以及推理能力。计算机视觉离不开图像处理操作,因此可以将图像处理看成计算机视觉的一个子集,当目标是对图像进行增强时,可以称为图像处理,当目标是检测和分割等时,则称为计算机视觉。
计算机视觉任务看似容易,但也存在很多潜在的挑战。因为我们人眼每天看到的景象是错综复杂的,我们的视觉和大脑的判别是同步进行的,但对于计算机而言,虽然经过了很多学者的研究,其仍无法达到人类视觉的能力。而且,感官世界极其复杂,任何光照条件或者遮挡都可能会造成计算机识别任务的失败。因此,计算机视觉仍然有很长的一段路要走。
- 点赞
- 收藏
- 关注作者
评论(0)