《卷积神经网络与计算机视觉》 —1.1.2图像处理与计算机视觉

华章计算机 发表于 2020/02/14 15:21:37 2020/02/14
【摘要】 本节书摘来自华章计算机《卷积神经网络与计算机视觉》 一书中第1章,第1.1.2节,作者是[澳]萨尔曼·汗(Salman Khan)侯赛因·拉哈马尼(Hossein Rahmani)赛义德·阿法克·阿里·沙(Syed Afaq Ali Shah)穆罕默德·本纳努恩(Mohammed Bennamoun),黄智濒 戴志涛 译。

1.1.2图像处理与计算机视觉

我们可以将图像处理视为计算机视觉的预处理步骤。更确切地说,图像处理的目标是提取基本图像基元,包括边缘和角点、滤波、形态学操作等。这些图像基元通常表示为图像。例如,为了执行语义图像分割(一种计算机视觉任务,见图1.1),人们可能需要在该过程中对图像做一些滤波(图像处理任务)。

图像处理主要集中在处理原始图像而不会给出关于这些图像的任何知识反馈,与图像处理不同,计算机视觉产生图像的语义描述。基于输出信息的抽象级别,计算机视觉任务可以分为三个不同的类别,即低级、中级和高级视觉。

1.低级视觉

基于提取的图像基元,可以在图像/视频上执行低级视觉任务。图像匹配是低级视觉任务的一个例子。它被定义为针对给定的同一场景不同视点的一对图像,或者固定摄像机捕获的移动场景,自动识别图像的对应点。识别图像对应点是计算机视觉中几何和运动恢复的重要问题。

另一个基本的低级视觉任务是光流计算和运动分析。光流是由对象或相机的运动引起的视觉场景中的对象、表面和边缘的明显运动的模式。光流是二维向量场,其中每个向量对应于一个位移向量,指出了从一帧到下一帧的点的移动。大多数估计相机运动或物体运动的现有方法均使用光流信息。

2.中级视觉

中级视觉提供比低级视觉更高水平的抽象。例如,推断物体的几何形状是中级视觉的主要方面之一。几何视觉包括多视图几何、立体视觉和运动恢复结构(Structure from Motion,SfM),SfM从2D图像推断3D场景信息,使3D重建成为可能。中级视觉的另一个任务是视觉运动捕捉和跟踪,它可以估计2D和3D运动,包括可变形运动和关节运动。为了回答“对象如何移动”的问题,需要利用图像分割来查找图像中属于对象的区域。

3.高级视觉

基于图像的2D或3D结构的适当的分段表示,使用较低级别视觉(例如,低级图像处理、低级和中级视觉)提取,高级视觉完成对图像的连贯解释的任务。高级视觉确定场景中存在的对象并解释它们之间的相互关系。例如,对象识别和场景理解是两个高级视觉任务,分别推断对象和场景的语义。如何实现健壮识别(例如,从不同视点识别对象)仍然是一个具有挑战性的问题。高级视觉的另一个例子是图像理解和视频理解。基于对象识别提供的信息,图像和视频理解尝试回答诸如“图像中是否有老虎”“此视频是戏剧还是动作”或“在监控录像中是否存在任何可疑活动”等问题。开发此类高级视觉任务有助于在智能人机交互、智能机器人、智能环境和基于内容的多媒体中完成不同的更高级别任务。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。