《卷积神经网络与计算机视觉》 —1 简介

举报
华章计算机 发表于 2020/02/14 15:16:24 2020/02/14
【摘要】 本节书摘来自华章计算机《卷积神经网络与计算机视觉》 一书中第1章,第1.1.1节,作者是[澳]萨尔曼·汗(Salman Khan)侯赛因·拉哈马尼(Hossein Rahmani)赛义德·阿法克·阿里·沙(Syed Afaq Ali Shah)穆罕默德·本纳努恩(Mohammed Bennamoun),黄智濒 戴志涛 译。

第1章

A Guide to Convolutional Neural Networks for Computer Vision

简介

在过去十年间,计算机视觉和机器学习在各种基于图像的应用程序开发中起到了决定性作用,例如,由Google、Facebook、Microsoft、Snapchat提供的各种服务。在此期间,基于视觉的技术已经从感知模式转变为可以理解现实世界的智能计算系统。因此,掌握计算机视觉和机器学习(例如,深度学习)知识是许多现代创新企业所需的重要技能,并且在不久的将来可能变得更加重要。

1.1什么是计算机视觉

人类用眼睛和大脑观察和理解周围的3D世界。例如,给定如图1.1a所示的图像,人类很容易在图像中看到“猫”,从而实现:对图像进行分类(分类任务);在图像中定位猫(分类加定位任务,如图1.1b所示); 定位并标记图像中存在的所有对象(目标检测任务,如图1.1c所示); 分割图像中存在的各个对象(实例分割任务,如图1.1d所示)。计算机视觉旨在为计算机提供类似(如果不是更好)能力的科学。更确切地说,计算机视觉寻求开发方法以复制人类视觉系统中最令人惊异的能力之一,即纯粹使用从各种物体反射到眼睛的光来推断3D真实世界的特征。

 image.png

图1.1我们希望计算机对图像数据做什么?查看图像并执行分类,分类加定位(即找到图像中主对象(猫)的包围盒并标记它),定位图像中存在的所有对象(猫,狗,鸭)并标记它们,或者执行语义实例分割,即场景内各个对象的分割(即使它们是相同类型)

然而,从由相机捕获的二维图像中恢复和理解世界的3D结构是一项具有挑战性的任务。计算机视觉的研究人员一直在开发数学技术,以从图像中恢复物体/场景的三维形状和外观。例如,给定一个从各种视图捕获的同一对象的足够大的图像集(见图1.2),计算机视觉算法使用跨多个视图的密集对应,可以重构出对象的一个精确的稠密三维表面模型。然而,尽管取得了所有这些进步,但是达到与人类一样的图像理解水平仍然具有挑战性。

 image.png

图1.2给定一组从六个不同视点捕获的对象(例如,人体上半身)的图像,可以使用计算机视觉算法重建对象的密集三维模型

1.1.1应用案例

由于计算机视觉和视觉传感器技术领域的重大进步,计算机视觉技术如今正在各种各样的现实应用中使用,例如智能人机交互、机器人和多媒体。预计下一代计算机甚至可以与人类同水平地理解人类行为和语言,代表人类执行一些任务,并以智能方式响应人类命令。

1.人机交互

如今,摄像机广泛用于人机交互和娱乐业。例如,手势可用于手语交流,在嘈杂的环境中传送消息,以及与计算机游戏交互。摄像机提供了一种自然而直观的、人与设备通信的方式。因此,这些相机最重要的一个方面是识别视频中的手势和短暂动作。

2.机器人

将计算机视觉技术与高性能传感器以及经巧妙设计的硬件集成在一起,产生了新一代机器人,它们可以与人类一起工作,并在不可预测的环境中执行许多不同的任务。例如,一个先进的人形机器人可以以与人类非常相似的方式跳跃、说话、跑步或走楼梯。它还可以识别并与人交互。通常,先进的人形机器人可以执行各种活动,这些活动对人类仅是本能反应,并不需要高智力。

3.多媒体

计算机视觉技术在多媒体应用中起着关键作用。这导致人们在处理、分析和解释多媒体数据的计算机视觉算法的开发中投入了大量研究工作。例如,给定一个视频,人们会问:“这个视频是什么意思?”这是涉及图像/视频理解和概括的非常具有挑战性的任务。又如,给定一段视频剪辑,计算机可以搜索互联网并获得数百万个类似的视频。更有趣的是,当人们厌倦了观看一部长电影时,计算机会自动为他们概述这部电影。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。