《卷积神经网络与计算机视觉》 —1 简介
第1章
A Guide to Convolutional Neural Networks for Computer Vision
简介
在过去十年间,计算机视觉和机器学习在各种基于图像的应用程序开发中起到了决定性作用,例如,由Google、Facebook、Microsoft、Snapchat提供的各种服务。在此期间,基于视觉的技术已经从感知模式转变为可以理解现实世界的智能计算系统。因此,掌握计算机视觉和机器学习(例如,深度学习)知识是许多现代创新企业所需的重要技能,并且在不久的将来可能变得更加重要。
1.1什么是计算机视觉
人类用眼睛和大脑观察和理解周围的3D世界。例如,给定如图1.1a所示的图像,人类很容易在图像中看到“猫”,从而实现:对图像进行分类(分类任务);在图像中定位猫(分类加定位任务,如图1.1b所示); 定位并标记图像中存在的所有对象(目标检测任务,如图1.1c所示); 分割图像中存在的各个对象(实例分割任务,如图1.1d所示)。计算机视觉旨在为计算机提供类似(如果不是更好)能力的科学。更确切地说,计算机视觉寻求开发方法以复制人类视觉系统中最令人惊异的能力之一,即纯粹使用从各种物体反射到眼睛的光来推断3D真实世界的特征。
图1.1我们希望计算机对图像数据做什么?查看图像并执行分类,分类加定位(即找到图像中主对象(猫)的包围盒并标记它),定位图像中存在的所有对象(猫,狗,鸭)并标记它们,或者执行语义实例分割,即场景内各个对象的分割(即使它们是相同类型)
然而,从由相机捕获的二维图像中恢复和理解世界的3D结构是一项具有挑战性的任务。计算机视觉的研究人员一直在开发数学技术,以从图像中恢复物体/场景的三维形状和外观。例如,给定一个从各种视图捕获的同一对象的足够大的图像集(见图1.2),计算机视觉算法使用跨多个视图的密集对应,可以重构出对象的一个精确的稠密三维表面模型。然而,尽管取得了所有这些进步,但是达到与人类一样的图像理解水平仍然具有挑战性。
图1.2给定一组从六个不同视点捕获的对象(例如,人体上半身)的图像,可以使用计算机视觉算法重建对象的密集三维模型
1.1.1应用案例
由于计算机视觉和视觉传感器技术领域的重大进步,计算机视觉技术如今正在各种各样的现实应用中使用,例如智能人机交互、机器人和多媒体。预计下一代计算机甚至可以与人类同水平地理解人类行为和语言,代表人类执行一些任务,并以智能方式响应人类命令。
1.人机交互
如今,摄像机广泛用于人机交互和娱乐业。例如,手势可用于手语交流,在嘈杂的环境中传送消息,以及与计算机游戏交互。摄像机提供了一种自然而直观的、人与设备通信的方式。因此,这些相机最重要的一个方面是识别视频中的手势和短暂动作。
2.机器人
将计算机视觉技术与高性能传感器以及经巧妙设计的硬件集成在一起,产生了新一代机器人,它们可以与人类一起工作,并在不可预测的环境中执行许多不同的任务。例如,一个先进的人形机器人可以以与人类非常相似的方式跳跃、说话、跑步或走楼梯。它还可以识别并与人交互。通常,先进的人形机器人可以执行各种活动,这些活动对人类仅是本能反应,并不需要高智力。
3.多媒体
计算机视觉技术在多媒体应用中起着关键作用。这导致人们在处理、分析和解释多媒体数据的计算机视觉算法的开发中投入了大量研究工作。例如,给定一个视频,人们会问:“这个视频是什么意思?”这是涉及图像/视频理解和概括的非常具有挑战性的任务。又如,给定一段视频剪辑,计算机可以搜索互联网并获得数百万个类似的视频。更有趣的是,当人们厌倦了观看一部长电影时,计算机会自动为他们概述这部电影。
- 点赞
- 收藏
- 关注作者
评论(0)