《Python人脸识别:从入门到工程实践》 ——1.2.3 计算机视觉的新起点

举报
华章计算机 发表于 2020/02/20 11:30:06 2020/02/20
【摘要】 本节书摘来自华章计算机《Python人脸识别:从入门到工程实践》 —— 书中第1章,第1.2.3节,作者是王天庆 。

1.2.3 计算机视觉的新起点

人脸识别是计算机视觉的一个重要应用,因此,说到人脸识别就不得不提及计算机视觉。

俗话说,“眼睛是心灵的窗口”,我们在日常生活中也可以切身体会到视觉不同于其他感官的特殊地位。科学研究表明,人类对外界环境的感知绝大多数是通过视觉来完成的,这一比例高达80%以上。可见视觉对人类生活的重要性。在人工智能领域,自然也少不了对视觉的研究。我们将以计算机为工具进行视觉感知与图像处理等相关的研究领域划分为一个独立的研究空间,这个研究空间便是我们所谓的计算机视觉,也称为机器视觉。

自从人工智能的概念提出来以后,就一直与计算机视觉产生着联系。早在20世纪50年代就被提出的感知机算法的一个典型应用场景,就是用来对图像传感器获取到的20×20像素的字母进行识别。到了20世纪90年代,机器学习算法迎来了一个“井喷”式发展时期。伴随着更多机器学习算法的提出,机器学习开始成为计算机视觉领域的一个重要工具,其主要应用在图片的检测、识别与分类上。值得一提的是,人脸识别也在这时迎来了一个研究上的高潮。但是,真正能够算得上是计算机视觉新起点的时间点是在2012年。

到了21世纪,计算机视觉俨然成为计算机学科的一项大的研究门类了。国际计算机视觉与模式识别会议(CVPR)、国际计算机视觉大会(ICCV)等计算机视觉领域的顶级会议也成为人工智能领域的年度盛会,在计算机学界具有举足轻重的地位。

斯坦福大学李飞飞教授牵头创立了一个庞大的图片数据库ImageNet,该数据库目前包含了大约1400万张图片,共分为2万个类别。从2010年起,每年举办一次大规模视觉识别挑战赛(ILSVRC),比赛规则为:从这个巨大的数据库中选择1000个类别、超过120万张图片作为数据集,参赛人员通过设计算法模型来为这些图片分类,评比哪一个参赛组的识别效果最优。这项比赛逐步成为计算机视觉领域的一项重要赛事,参赛者大多来自大学、科研机构与巨头科技公司。通过评比结果能够客观地展现算法模型的好坏,在赛事中取得名次的算法模型通常会受到极大的关注,甚至可能会对计算机视觉的发展产生深远影响。

首届ILSVRC的冠军由来自NEC研究院的余凯组获得,他们的识别错误率为28%。2011年,来自欧洲的研究人员将识别错误率刷新至25.7%,性能提升并不是很明显。但是,真正将识别错误率大幅度下降的还要属2012年参赛的AlexNet神经网络,它一举将识别错误率下降至15.3%,完胜第2名26.2%的识别错误率。

从数字上看,这样的进步幅度是惊人的。事实也是如此,AlexNet在当时的确引起了不小的轰动。AlexNet成功的秘诀就是引入了Hinton教授提出的深度学习思想。这里还不得不提到一个很有趣的现象。

早在2006年,Hinton教授就已经提出了深度信念网络,这标志着深度学习理论的诞生。但是,当时的许多学者并不相信这样的一种理论,统计学习方法仍然牢牢地占据机器学习的统治地位。甚至,直到Hinton教授的学生Alex实现了AlexNet神经网络并且一举以大比分优势夺冠之后,很多人仍然对模型持质疑态度,认为该算法难以解释且参数量过多。不过,在这之后的第2年,ILSVRC比赛中的模型就大面积地出现深度学习模型了。在后来的比赛中,深度学习俨然成为主流,少数非深度学习神经网络结构的模型也在比赛中沦为垫底。

深度学习的诞生为机器学习开启了一个全新的研究领域。在此之后,深度学习也成为研究计算机视觉的一项强有力的手段,在诸如人脸识别、物体检测等领域大放光彩。因此,深度学习的诞生,特别是AlexNet的实现,也被认为是计算机视觉发展的一个崭新的起点。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。