- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

RACV2019观点集锦 | 未来5-10年计算机视觉发展趋势（一）

HWCloudAI 发表于 2020/05/19 14:38:20 2020/05/19

【摘要】引言计算机视觉是人工智能的“眼睛”，是感知客观世界的核心技术。进入21世纪以来，计算机视觉领域蓬勃发展，各种理论与方法大量涌现，并在多个核心问题上取得了令人瞩目的成果。为了进一步推动计算机视觉领域的发展，CCF-CV组织了RACV 2019，邀请多位计算机视觉领域资深专家对相关主题的发展现状和未来趋势进行研讨。我们将研讨内容按专题实录整理，尽最大可能以原汁原味的形式还原观点争鸣现场，希望有助...

引言

计算机视觉是人工智能的“眼睛”，是感知客观世界的核心技术。进入21世纪以来，计算机视觉领域蓬勃发展，各种理论与方法大量涌现，并在多个核心问题上取得了令人瞩目的成果。为了进一步推动计算机视觉领域的发展，CCF-CV组织了RACV 2019，邀请多位计算机视觉领域资深专家对相关主题的发展现状和未来趋势进行研讨。我们将研讨内容按专题实录整理，尽最大可能以原汁原味的形式还原观点争鸣现场，希望有助于激发头脑风暴，产生一系列启发性的观点和思想，推动计算机视觉领域持续发展。

本期专题为“未来5-10年计算机视觉发展趋势”。各位专家从计算机视觉发展历程、现有研究局限性、未来研究方向以及视觉研究范式等多方面展开了深入的探讨。

主题组织者：林宙辰，刘日升，阚美娜

讨论时间：2019年9月27日

发言嘉宾：查红彬，陈熙霖，卢湖川，刘烨斌，章国锋

参与讨论嘉宾[发言顺序]：谢晓华，林宙辰，林倞，山世光，胡占义，纪荣嵘，王亦洲，王井东，王涛，杨睿刚，郑伟诗，贾云得，鲁继文，王亮

文字整理：阚美娜，刘日升

开场：山世光、林宙辰

山世光：上次计算机视觉专委会常委会上，在谭院士的倡议下这次RACV尝试一下相对比较小规模的、以讨论未来与问题为主的这样一种形式。这次的RACV希望所有的发言人，都不是讲自己的或已经做的工作，而是围绕着每一个主题讲一讲自己的观点和看法。大家在发言的时候可以无所顾忌，可以争论。我们会有记录和录音，但最后的文字会经过大家的确认之后才发布。

林宙辰： RACV是希望大家有一些深入的研讨，互相挑战，以达到深入讨论的目的。第一个主题是未来5-10年CV的发展趋势。希望我们这次研讨会尤其是CV发展趋势这个主题能够类似达特茅斯会议，产生一些新的思想。

嘉宾主题发言

1. 查红彬

未来五年或十年CV的发展趋势是很难预测的，有时候想的太多，反而容易跑偏。所以，今天我主要从自己认识的角度说说后面我们该做些什么样的事情。

首先，说说什么叫计算机视觉？我这里给了一个比较严格的定义，即使用计算机技术来模拟、仿真与实现生物的视觉功能。但这个定义并没有将事情完全讲清楚，这里把计算机和视觉两个概念揉到了一起，但到底什么叫计算机、什么叫视觉并没有说。什么叫计算机大家是能够公认的。但什么叫视觉，其实在计算机视觉领域里还没有一个大家都认可的定义。

我们不妨先看看现在计算机视觉领域里有哪些研究内容。先来看看今年ICCV各个分会的关键词，其中最大的几个领域是deep learning；recognition；segmentation, grouping and shape等。这些领域是视觉吗？说是图像处理、分析与理解也能说的通。关键问题在于，我们讲来讲去到底是不是真的在做视觉？这点有必要再想想。举个例子--人脸识别：人脸识别现在能识别大量的人脸图像与视频，几十万、几百万人都能够识别。它是用大数据驱动的方式来达到目的的，而且是离线学习的。但识别算法在实际应用中对光照、遮挡等的鲁棒性比较差。我们回过头看看人的人脸识别有些什么样的功能呢？我们人识别人脸的功能很强，但只能识别很少数量的人脸，如亲戚、朋友、同事等，超过一定范围之后人是很难识别出来陌生人的人脸的，我们能看到有差别但分不清谁是谁。第二个，人是在生活情景当中进行主动性的样本学习。我们之所以能够认识亲属，是因为我们在日常生活当中与他们生活在一起，建立了各种各样的关系。我们主动地用样本来学，利用了不同层次的特征。所以，尽管我们识别人脸的数量少，但是我们对抗干扰的能力很强。所以我觉得这是人的人脸识别和现在机器的人脸识别之间的差别。也就是，人的视觉中的人脸识别有它明显的特点，它能很好地应对现实环境中的视觉处理任务。

那么现实环境中的视觉处理应该考虑哪些因素呢？我们有计算机、机器人这些智能机器，同时还有其它两个关键的部分。第一个部分是要通过视觉这个接口来同外部世界建立联系，同环境进行互动；第二个是我们讲视觉的时候，生物的感知机理给我们提供了很多依据。这其中，我们要应对的是现实环境的开放性，以及三维世界的复杂性，我们要面对场景当中很多动态的变化以及层次性结构的多样性。

另一方面，生物的感知机理有什么呢？它是一个学习过程，但这个学习是柔性的，并不是我们现在这样的离线学习并固定的方式。我们现在的机器学习用起来就只是测试。但我们人的学习中测试和学习过程并不是严格可分的，它有结构上的柔性，也需要层次化的处理。此外，它有主动性，能够根据它的目的和任务主动地进行学习。同时，我们日常生活当中所需要的是一种时序数据的处理，是一种增量型的处理过程。从这样的角度来看，我们将来的计算机视觉研究需要考虑把真实环境的特点与生物的感知机理融合进来。这样就会更接近“视觉”这个词本来的意义。

那这其中有哪些事情我们可以去考虑呢？首先是学习的问题。现在，深度学习用的很多，但它只是我们人的模式识别当中的一部分功能，对于视觉研究来说，还有很大的挖掘空间。也就是说，我们考虑计算机视觉中的机器学习的时候，不仅仅是深度，还要把网络的宽度、结构可重构性与结构柔性结合起来。我们要把不同的结构层次研究明白，同时把不同模块之间的连接关系考虑到网络里来。我们人的大脑就是这样的，大脑从视觉的低层特征抽取往上，它具有很多不同的功能性结构在里面，而且这个功能性结构是可塑的。其次，除了通常讲的识别功能之外，我们要把记忆、注意等一些认知机制通过学习的方式实现出来。目前已经有一些这方面的工作了。将来这些机制在计算机视觉里面可能会作为学习的一个核心目标，融到我们现在的整个体系当中。另外，还应考虑通过环境的交互这种方式来选择需要的样本进行自主学习等。所以，这种学习方式上的结构柔性应该是我们追求的一个目标。

另外一点，我们现在的计算机视觉还比较缺乏对动态场景的处理。我们现在很多工作是在静态场景里面，像人脸识别也是在静态场景里面来做。尽管有时候我们用视频来做，但并没有深入考虑整个场景的动态特性。现在动态目标的跟踪、检测、分析、行为的识别与理解等这些工作都有在做，但还没有上升到一个系统化的水平。我们也应该把更多的注意力放到像移动传感器的定位、三维动态场景的重建与理解等一些事情上面来。所以，我认为动态视觉是未来的另一个重要研究方向。

还有一个是主动视觉。主动视觉是把感知与运动、控制结合起来，形成一个闭环。计算机视觉里很早就有一个研究课题，叫视觉伺服，是想把控制和感知很好地结合起来。我们的感知一部分是为任务目的服务，另外一部分是为感知本身服务，即从一种主动控制的角度来考虑感知功能的实现，以提高感知系统的自适应能力，迁移学习、无间断学习或终身学习等都可以应用进来。此外，还应当考虑常识、意识、动机以及它们之间的关系。也就是说，我们要把视觉上升到有意识的、可控制的一个过程。

如果我们把前面提到的时序与动态处理等结合起来之后，应该更多考虑在线学习。我们不应该全部依赖目前这种离线学习、仅使用标注数据，而是应该在动态的环境当中，根据运动与动态数据流本身的特性来做预测与学习。这样可以把前面提到的记忆与注意力等一些机制结合起来，最终实现一种无监督的在线学习系统。这样一来就能把现实环境中的一些特点与变化考虑进来，形成一套新的理论。而这个理论，跟现在的深度学习、图像处理分析与理解等相比，会更接近我们讲的视觉这个概念。

2. 陈熙霖

预测可见未来是一件风险极大的事，对于这个命题作文我只能说个人的观点。我更愿意从历史的角度来看这件事情。首先，我们回顾一下计算机视觉的发展历程。我把过去几十年的过程分为以下几个阶段。第一个阶段我称之为启蒙阶段，标志性的事件是1963年L. Robert的三维积木世界分析的博士论文(Machine Perception of Three-dimensional Solids)和1966年夏天Minsky安排几个本科生做的手眼系统。这个阶段对计算机视觉的估计过于乐观，认为这事太容易了，很快就可以解决，正如S. Papert的报告中写到的“The summer vision project is an attempt to use our summer workers effectively in the construction of a significant part of a visual system”。启蒙阶段的重要启示就是发现这个问题远比想象的困难。

从七十年代初期开始进入第二个阶段，我称之为重构主义，这是以D. Marr的视觉框架为代表的。这个框架在Marr的总结性著作“Vision --A Computational Investigation into the Human Representation and Processing of Visual Information”中有很好的阐述。其核心是将一切对象恢复到三维表达。其基本过程是：图像à基本要素图(primal sketch)à以观察者为中心的三维表达(2.5D skecth)à以观察对象为中心的3D表达。这个过程看起来很漂亮，但却存在两方面的问题——首先是这样的过程是否是必须的，其次是如果都试图恢复三维，这样不论对感知测量还是计算是否现实。我个人认为三维在计算机视觉中的作用也是有限的。这个阶段的工作也导致了上世纪90年代初对计算机视觉研究的反思和争论。有兴趣的各位可以看看1991年CVGIP: Image Understanding第53卷第1期上的讨论文章。

第三个阶段我称之为分类主义，反正只要能识别就好，不管白猫黑猫抓住老鼠就好。人脸识别、各种多类物体识别等都在这个阶段大行其道，研究者们采用各种各样的方法，从研究各类不变算子(如SIFT、HOG等)到分类方法(如SVM、AdaBoost等)。这个阶段推进了识别问题的解决，但似乎总差最后一公里。

最近的一个阶段我称之为拼力气比规模阶段，其核心是联结主义的复兴，这得益于数据和计算资源的廉价化。这类方法在各种分类问题上似乎得到了很好的解决。但这些方法背后缺少了很多研究需要追求和思考的东西，过去我们都在讲找一个美妙的办法。如同我们希望瞄准目标，以最小的代价击中目标。现在这类方法更像是炮决，今天我们似乎进入了这样的炮决时代。

那么未来会是怎么样的？从前面的发展历史来看，计算机视觉经过几十年的发展进入了野蛮人的时代。什么叫进入野蛮人的时代了？今天大家说人工智能热，可几乎所有拿来验证人工智能的例子都是和计算机视觉相关的。而今天很多所谓的计算机视觉研究就是拿深度学习训练一个模型，所以说这是个野蛮人的时代。那么野蛮人时代有什么问题？我们看上一个和野蛮人时代相关的历史——罗马帝国。罗马帝国是被野蛮人消灭的，罗马（更具体的是指西罗马）从建国到被灭亡，中间大概有500年。而且西罗马被灭了以后，还有一个叫神圣罗马帝国，按照尤瓦尔·赫拉利《人类简史》上的说法后者既不神圣也不是帝国。当年罗马帝国也是所有的东西都讲究漂亮美丽——斗兽场、引水渠以及打到哪修到哪的条条大路(通罗马)。计算机视觉早年的研究者也是天天追求漂亮，要数学上美、物理上美等等，就和当年罗马帝国一样。现在也真的和罗马帝国一样了，我们遇到了蛮族人。这个蛮族人是谁？就是深度学习，和过去罗马人关心文明，蛮族人关心财富一样，在计算机视觉的研究上，我们也面临着如何选择的问题。当然，历史也会惊人地相似，蛮族人占领罗马以后也不是什么都没干。后来他们建立神圣罗马帝国，到后来导致文艺复兴。今天计算机视觉的研究在我们看来也需要一个文艺复兴。什么是我们的文艺复兴？我们当下的计算机视觉就处在这么一个需要思考的时期。而不是一味地倒向深度学习。现在有些研究走向比蛮力的阶段，就跟打仗比坦克、大炮的数量一样，靠拼GPU的规模和计算能力。下一步，我们需要往哪里走？这是现在这个野蛮人时代需要思考的。

预测未来五到十年这是一个风险极大的问题。所以我只能通过前面讲的历史和我的一点思考谈谈对未来的一些可能。

首先，一个值得关注的未来趋势是从识别到理解，套用古人的说法就是从知其然到知其所以然。过去十多年计算机视觉在识别方面取得了显著的进展，但是现在的识别远远不是我们所期望的识别。例如你教它识别一个杯子，它不会想到杯子和水有任何关系，不会想到杯子有任何的其他功能，因而完全是填鸭式的。今天的识别远远不是可解释的。谈到可解释，我认为在计算机视觉领域的可解释应该是对结论的解释，而不是解释网络行为，前者应该更有价值。那么要解释这一切靠什么？应该是靠某种形式的逻辑关系，这种关系可以通过语言表达，语言应该起到桥接作用。这里的语言和自然语言有关系也有区别，可以是独立于我们自然语言的，是机器自己对世界理解的语言。换句话说，我们把世界的物体重新编码起来，然后把物体和物体，物体和环境的联系建立起来就好。有了这样的从基本属性到对象直至环境的关系，就有可能实现从知其然到知其所以然。所以我觉得未来最重要的趋势就是从无需知识支撑的识别到需要知识支撑的理解，或者说从单纯的Bottom-up的识别到需要知识启发的具有反馈、推理的更广义的计算机视觉，这也是我自己这几年特别关注的研究方向。

其次，值得关注的一个趋势就是对空间感的有限需求。关于为什么动物需要视觉，主要是两方面的需求——首先要保证寻找食物和不被天敌吃掉——识别能力；其次是保证不会因为对空间的错误判断而造成意外伤害(摔倒或者撞击等)。视觉最重要的就是解决这两件事情。那么为什么讲对空间感的有限需求？我们的三维空间感，只是在相对比较近的时候，才需要很精确。在距离稍远一点的情况下，大多数时候其实不关心精确的空间位置，而可能关心一些如遮挡、顺序等关系。另外，如果你试图把一切对象都用三维来表示的话，不管是从计算的代价还是从可实现性来讲都很难。试想恢复一个一米远处的对象，可以做得很精确，而对于一百米或者更远的对象，如果希望保持相同的量化精度，对深度值的量化就会成问题。这就是说的有限需求的含义，但是我觉得这件事情一定很重要，特别是在较近的时候。

第三个值得关注的趋势就是不同模态的结合，即所谓聪明合一，人的聪明离不开耳聪目明。这里的模态不仅仅限于视听觉，还可以包括不同的二维、三维的视觉传感信息等。生物的感知从来不是仅靠单一模态的。在多模态中需要解决好的一个问题是不同模态间的对齐与因果问题。如果同时存在从多个模态获取的信息，时空对齐是非常重要的挑战。与时空对齐相关的另一个问题是因果关系，虽然我们希望获得因果，但绝大多数时候得到的仅仅是关联，两个现象之间可以是第三个因素导致的，如同云层间放电导致电闪和雷鸣，这两件事是关联的，但绝不是电闪导致雷鸣。在绝大多数情况下我更倾向于去探索关联而不是因果，特别是在数据驱动的模型下，离开机理试图发现因果是困难的。但在未来的计算机视觉研究中不同模态的结合和关联是一个重要的趋势。

第四个需要关注的趋势是主动视觉，所谓主动就是在视觉系统中纳入了反馈的机制，从而具有选择的可能。视觉如果仅仅以独立的形式存在，则不论是从感知所需的精度、分辨率以及处理的能力都需要成指数规模的增加，生物视觉由于有了主动选择的机制，因而在视野、分辨率、三维感知与能量消耗方面得到了很好的平衡。当计算机视觉的研究不仅仅是为了验证某个单一的功能时，上述生物视觉的平衡一样需要在计算机视觉系统中考虑，实现从感知、响应到行为的闭环。从被动感知走到主动的感知，这是从算法到系统的一个重要趋势。将视觉的“看”与“响应”和“行为”构成广义的计算机视觉系统，通过有主动的“行为”进行探索，实现“魂”和“体”的合一。这对视觉应用系统是至关重要的——例如一个经过预训练的服务机器人，可以通过在新环境中的主动探索，实现整体智能的提升。所以我认为这是未来视觉应用系统的重要趋势。

我没有讲具体的算法哪些是重要的。我想说一件事情，就是关于深度学习，我觉得未来深度学习就会像今天计算机里看到的寄存器、触发器、存储器乃至CPU一样，成为基本构件。关于趋势，延续前面的划分，计算机视觉将进入一个知识为中心的阶段。随着深度学习的广泛应用，计算机视觉系统将不仅处理单一任务。在复杂视觉任务的处理中，主动视觉将起到重要的作用。通过主动的响应和探索，构建并完善视觉系统对观察世界的关联(因果)关系并借此理解空间对象的时空关系、物理属性等。这算是我对今天讨论问题的个人预测。

3. 卢湖川

刚才前面两位老师已经提纲挈领的提了一些观点，我可能有一些和他们是相似的。

从理论方面来讲，我觉得目前深度学习的理论好像有点走不太动了。具体来说，从Backbone的发展来看，网络结构的设计，基本上没有更多新的内容。另一方面，某些领域还是比较热门的，发展比较快。比如说自然语言处理（NLP）和视觉的结合，这几年取得了很多进展，特别是聊天机器人等相关的实际需求，驱动着VQA等技术都有较大的进展。尤其是基于图的方法和视觉结合在一起可能会越来越热。以知识图谱为例，如果知道一些先验知识，知道一些知识图谱的话，可能会更好的去理解图像或者视频。例如，给定一幅图像，里面有一只猫和一个鱼缸，猫用爪子抱住了鱼缸，还盯着鱼缸里面的鱼，如果我们知道知识图谱里猫和鱼的关系，我们就能很好的描述出猫想吃鱼缸里的鱼，从而更好的帮助视觉理解图像或视频里目标和目标之间的关系。所以说，我觉得基于图或图谱的方法和视觉结合在一起未来几年会有更大的发展。

第二方面，我觉得三维视觉会继续快速发展。从前两年开始冒头，到现在已经较为火爆，不仅仅局限于三维场景重构等领域，最近基于三维视觉的检测与分割等都有一些优秀的工作涌现。随着基于各种各样的嵌入式设备和手机端的需求，像华为手机已经有三个背面的摄像头，甚至多个摄像头（它的三个摄像头的定义，一个是超广角的，一个是广角的，另外一个是高精度的摄像头，不同的分辨率，可以更多的去模仿人的视觉方式）。由于人观测世界本身是三维的，所以移动端的这种大量的应用会牵引着三维视觉在这方面越来越走向更深入的发展。

第三方面，最初我们提到深度学习时，通常都会说手工设计的特征（handcrafted feature）有各种各样的不好，而深度学习是一个端到端的网络。实际上，深度学习的网络结构也是手工设计的（handcrafted）。目前，网络结构搜索NAS兴起之后，我觉得在这方面可能会有更多的一些改善，能够把一些常规的操作，包括一些常规的模块都融入进去，来不断优化网络结构而不是手工设计（handcrafted design）。我觉得未来几年在这方面，甚至包括网络结构的压缩和裁剪方面都会有更多的进步。

第四方面，深度学习兴起之后，我们看到诞生了一大堆的数据集，并且都是有ground truth标注的数据，在其驱动下，深度网络达到了一个比较好的性能，目前绝大多数的数据集在性能方面基本上也趋于饱和了，但是距离实际问题仍然有较大的距离。另一方面，人对世界的认知基本都是小样本学习的结果，和目前的大数据驱动的模式不太一样。所以能否将当前大数据驱动的方式和人参与的方式结合起来？现在也有很多这样的论文来研究人主动参与的或者是human in the loop的学习方式，可以把人对ground truth的主动标记结合起来，引导快速的学习，甚至把性能提高到一个更高的高度。

第五方面，视频理解在前几年开始有初步的发展，特别是到这几年有更多的需求和深入的趋势。因为现在基于图像的所有任务做到一定程度之后可能都做不动了，或者说没有更多的花样了，那么对视频的各种理解越来越多，包括视频摘要、视频场景分类、广告识别、台标识别等等，很多这方面的应用，我觉得未来几年会有更长足的发展。

我觉得在主题（topic）方面，未来会有更多的发展领域。随着刚才陈老师说到野蛮人的时代来了，大家参与视觉研究的热情很高，不光是学术界，产业界对这种需求也是非常巨大的。因此我觉得目前深度学习领域，视觉会在各个行业纵深发展。举个例子，这两天有一个公司提出这样的一个需求，即鞋印踩上去之后，希望能识别是哪个犯罪嫌疑人来踩的，这个就是足迹识别。进一步，他们想通过这个足迹来判断这个鞋的鞋面是什么样的，是什么牌子的。然后通过这些线索进而去库里搜索比对，搜索完了之后，再去视频里面去找犯罪嫌疑人，即穿这种鞋的人到底是谁。这个过程中，一步一步的从源头开始到后面，形成了一系列的视觉问题，行业的这种纵深发展需求是无限巨大的。视觉里面还有很多之前没有想到的事情在不断进步，两天前我参加了工业机器人展，看到有一个捡包裹的机器人。我们都知道快递小哥要送了一大堆包裹，各种各样的包裹都有，能否在包裹车拉来一车包裹后，让机器人去分类呢？我在展会上看到就有这么个机器人，它会自动的去识别是什么样的包裹，而且知道它的三维的曲面是怎么样，因为包裹放的角度都完全不同，它会调整机械臂，适应包裹的三维曲面的法线方向，去吸附它。我感觉在不同行业实际需求下，像分割、三维建模等视觉技术都会快速在各个行业里得到深入的发展。

另外，我觉得在医疗图像方面也会有很大的进展。医疗图像现在更多的是各个疾病的检测。昨天跟一个医疗单位在一起交流，他们提供了一个很大的平台，它的最终目标是通过病人的不同模态的信息，来最后综合判断病人到底是什么样的病。不仅仅是关注医学影像信息的，还有一些其他的一些检查结果，其实是一个跨模态的融合，包括图像标注、病案标注等等，他们都使得医疗图像未来和视觉的结合会越来越紧密。

目前5G不光是速度快容量大，它其实给计算机视觉AI带来了一个更广阔的前景，特别是无人车方面，刚才几位也提到了三维的地图等。跟中国移动交流了之后，发现他们的高精度地图，可以通过5G带宽实时传输，是可以看到马路崖子这种厘米级的精细度。所以我觉得5G+AI会为我们视觉相关领域的发展带来巨大的机会。以上就是我对未来5-10年视觉发展趋势的一些理解。

4. 刘烨斌

我主要围绕三维视觉、虚拟现实和人工智能的发展谈点想法。虚拟现实是2016年火了之后一直发展比较平稳。2018年习总书记有过关于虚拟现实的重要性的指示，虚拟现实技术改变了未来的交互方式，主要是这种人与环境、人与人之间的交互方式可能会变得更加自然简单，并且取代键盘、手机触屏等现有的功能。

三维视觉的趋势是做视觉信息的重构，提供三维的内容给虚拟现实，这个是三维重建，三维虚拟现实通过真实渲染能够产生很多数据，为视觉问题服务。很多视觉问题皆有数据驱动，数据如何得来，越来越多的部分时通过三维引擎来得到。计算机视觉的研究对象有好几类，室外的、室内的、包括人体人脸还有手，还有一些医学和生命对象。以人为本是计算机视觉的核心，所以我主要以人作为视觉研究对象，举例说明计算机视觉的发展趋势。

从人为研究对象的角度，虚拟现实有三个目标，也即三个I，一个Immersion，一个Interaction，一个Imagination。三者都是虚拟人（AI、机器等）和真实人之间的作用关系。首先，虚拟人在视觉外观上是真实的，未来的虚拟人不管是真实做出来的机器人还是存储在计算机中的，都有逼近真人的发展趋势，使得交互更加友好。而这个目标，本质上就是人体的三维重建。第二个要素是人机的交互，虚拟人一定要能感知真实人的行为，包括手势识别，行为识别，情绪等这样的一些理解。最后，虚拟人需要对场景有反应，能够智能化，他能够根据你的行为智能地做下一步的处理，保证产生一个真实的虚拟人。

总体来说，虚拟现实的智能建模技术被列为新一代人工智能发展规划里的八大关键共性技术，重点突破虚拟对象智能的行为建模技术，提升虚拟现实中智能对象行为的社会性、多样性、交互逼真性，实现虚拟现实和增强现实等技术与人工智能的有机结合和高效互动。上述定义中的重点是行为建模，行为必须是接近人的智能的行为，才能有交互的逼真性等等。围绕这个人体的建模，目前的目标一个是要精准的重建，第二是要规模化的采集，第三是要便携式（手机单图像也能做），第四是速度足够快，能够响应交互的要求，第五就是现在一个大的发展趋势，建模的结果含有语义信息，即语义化建模，包括服装，人脸，头发等。最后第六就是智能生成，即重建结果能真实动画展示。现有的三维视觉重建技术很难满足这六个方面的要求，所以围绕这些目标还有很多研究需要做。

人体重建主要目的之一是全息通信。这里展示微软做的holoportation系统，它实现实时的，多相机下的人体动态三维重建。但这个系统的缺点是，它要求具有主动光，导致系统复杂度高，实时性和便捷性成为矛盾。实现实时高精度三维动态重建，也是未来的一个学术研究趋势。我们研制的单个深度相机实时的重建，虽然速度和便捷性都趋于完美，但精度还有待提高。单图像人体三维重建，虽然现在的质量还不算完美，但我觉得这是一个很实用的技术应用趋势。通过单个图像我们就可以来简便地重建它的三维模型，未来肯定是能大放光彩的。单图像人手动态三维重建，通过单个RGB监控相机就可以来实现实时性，可以看出三维重建输出了语义信息，已经取代了传统二维计算机视觉识别问题成为发展趋势。

服装产业占据国民生产总值的6%，数字化服装是一个非常重要的计算机视觉应用之地。这个是展示我们最新做的一些事情，通过单个视频，可以网上的视频，就能通过语义的建模来实现比较高质量的服装三维建模，对一些VR、AR都可以应用，它是通过对人体和服装的解耦，语义信息的加入，包括光照和纹理的解耦来实现。这种东西未来可以产生一些应用，包括改变体型，包括增强现实的模拟，右边就是一个互联网视频的重构，它可以改变服装的颜色等等。我觉得这种便携实时的三维重建的趋势就是从低层次的三维建模，包括体素的、网格的，逐渐走向高层次的三维建模，包括部件级的重建、物理信息分离、感知物理动力学、特征空间的提取。这些高维信息能够智能地建模和生成，响应环境，控制和预测。包括图形学里做的一些研究，好玩的比如能让一个人去动的虚拟对象的这种物理的约束，包括我们自己去爬山这种增强现实的技术也会引入进来，把物理、智能响应引入进来。

最后再谈谈更有广泛意义的一些动态三维重建问题。例如，医疗方面的比如外科手术的术野场景的三维感知，就是个非刚性复杂动态场景的三维建模问题。这是展示肝脏手术的视频，能够动态跟踪它的形状，三维扫描的CT可以在动态的场景下实时非刚性映射，辅助医疗和手术。还有就是在生命科学领域的动物行为三维重建，我觉得动物是未来视觉的一个很大的可以应用的点，我们叫计算行为学，也叫神经行为学。它研究的是行为跟神经活动的映射关系，通过采集动物行为数据来进行分析。行为学上对人进行分析非常难，因为人的基因差别非常大。但对于动物来说，可以做到每个小鼠基因都是一样的，像譬如在猪、猴子上也比较容易控制一些其他的差别的因素，所以对医疗，包括基因控制都会有帮助。在Nature子刊、Nature methods、Neural Science上都有一些相关的文章。它这里面其实有很多问题，包括群体对象自然环境下的交互，非刚性的捕捉，高层语义检测，互遮挡三维恢复，时间序列分析，有很多研究发表在Nature上。动物行为三维重建研究趋势就是希望动物更加自由地在实验环境里去生活，被记录，药物干预后提早发现行为差别。这样的研究还是很多的，包括可以提取维度更高的特征。我们也是在做这样一些研究，这里面有四个小猪，有两个是有渐冻症的，我们通过多视点拍摄，希望重构三维小猪的动作，通过重建动作来识别渐冻症小猪的行为特点，对未来的基因调控和药物治疗带来帮助。

5. 章国锋

几位老师已经从计算机视觉大的层面对未来5-10年发展趋势做了展望，我从我熟悉的三维视觉和AR方面对未来5-10年的发展趋势发表一下自己的看法。

我的研究方向主要是SLAM，所以我就先从SLAM的角度做一些发展趋势的展望。我们都知道视觉SLAM是很依赖特征的，未来SLAM技术的发展趋势必然会从以前的底层特征比如点、线、面，向高层特征比如语义、文字、物体等趋势发展。并且，现在已经有一些提取运动规律的工作比如人的步态规律、机器人和无人车的运动规则等等，来进一步提高定位的稳定性。

有一个趋势是朝着多传感器融合的方向发展，其实每个传感器都有着它的优点和缺点，那么最好的方法就是把这些传感器的信息都融合起来，比如说随着深度相机的流行，一些手机上都安装了深度摄像头，还有Wifi、蓝牙、地磁信号等等，把这些信号都融合起来肯定可以提升定位的稳定性。未来还会有更多类型的传感器出现，比如这几年新出来的事件相机、偏振相机，相信未来5-10年还会有一些新的传感器出来。通过多传感器融合，我相信SLAM技术会做的越来越精准和鲁棒。

还有一个趋势就是随着5G时代的到来SLAM会朝着云和端结合的趋势发展，比如说现在高精度地图的构建是放在云上，并且支持动态的更新。这就很自然地涉及到移动端上的SLAM和云上的高精度地图如何做紧耦合，如何利用语义地图的信息来更好地定位，不同终端如何协同来做SLAM。

现在主要是深度学习的时代，对于SLAM来说，目前已有不少基于深度学习的工作，相信未来还会有更多这方面的工作涌现出来，比如如何学习一个更好的特征，如何学习更好的策略去解决SLAM中手写规则的困境，可能还会有做得很好的端到端的位姿学习。还有一个非常重要的就是语义信息的融合，比如说，结构的信息怎么跟语义信息做更好的融合，就像人眼一样看世界。我觉得这是未来的一个发展趋势。

以上是关于SLAM方面的。然后，三维重建，刘老师前面已经讨论得很多了，尤其是动态场景的重建，我这里稍微再做一点补充。我觉得未来物体的三维扫描方面，一些便携式、移动式的RGBD传感器会越来越流行，比如说基于结构光和ToF的深度传感器，未来我相信还会有一些新的传感器出现，可以帮助实现实时高效的三维重建。这里重建的不只是几何和纹理，还包括材质、语义等等。基于照片/视频的三维重建技术未来几年也还会有一些进展，比如实现更高的几何精度和纹理，能得到更细粒度的语义，并且结合分布式平台的算力实现更高效的重建。

在大规模场景的三维扫描方面，目前基于相机拍摄的视频或者照片已经可以做到城市级场景的三维重建。一般都是通过无人机航拍，然后重建出来。如果进一步结合深度传感器（比如Lidar），相信可以实现更高精度的场景构建。再结合分布式平台的计算能力，实现整个城市甚至整个地球的完整三维地图的重建将不是问题。当然只是静态场景的重建还不算太难，更难的是怎么实现动态物体的重建和场景的动态更新，因为真实的世界不是静态的，而是动态变化的。我觉得未来可能会通过相对低成本比如多传感器融合的方式来实现四维的场景地图的动态更新。包括前面讲的通过三维扫描获得的物体模型可以注册到真实世界的三维地图中，来实现三维信息的共享和传递。

然后，我想谈一下识别和重建的关系。识别和重建未来5到10年会往更深层次的融合。目前三维重建基本上是bottom-up的方式，对先验知识的利用不够充分，未来5-10年可能会诞生top-down的方式，比如说先识别后重建，或者两者同步进行。识别能够提供更高层次的结构先验，反过来重建能够帮助做更好的物体识别，因此未来会更加紧密的融合。另外，也还需要深度学习和几何优化算法的融合，才能最终构建出兼具几何外观、语义信息、结构化的、可动态更新的3D场景表示。

另外，因为我本人一直在做AR方面的应用，所以也想谈一下关于AR/VR、AI和三维视觉协同发展的趋势。其实AR主要是AI和三维视觉的应用。这三者如果能够紧密协同发展，那么我相信未来五到十年就可以实现一个地球级的现实世界的数字化。左边这个图是华为前不久提出的Cyberverse数字现实技术，它主要是通过相机、Lidar等传感器对真实世界进行扫描并构建高精度地图，然后基于高精度地图来实现室内外精准的定位和导航以及各种AR效果。Cyberverse实际上也不是一个完全新的概念，Magic Leap在2018年就提出过类似的概念Magicverse，旨在将大规模物理世界和数字世界持续地融合在一起。如右图所示，Magicverse包括好几个层，主要两种类型，一类是叫做基础层（包含物理世界和数字世界），还有一类叫空间应用层。基础层最底下是物理世界，然后在物理世界上构造一个对应的数字世界，然后再上面就是空间应用层，包括流动性、能源与水、健康与保健、通讯、娱乐等。

要实现这样一个数字化的现实世界，最关键的一点就是对物理世界进行三维数字化，也就是如何对高精度地图进行采集、构建和更新。我相信未来必然是朝着多模态、多传感器采集和融合的方式发展，因为每个传感器都有着它的优点和缺点，需要融合互补。这里最难的问题可能是怎么进行动态更新。我相信众包式的采集和更新是实现这个目标的有效方式，可以实现低成本、高频次的更新。高精度地图除了三维还应该包括语义信息，因此语义信息的提取也是非常重要的，而且需要满足不同应用的语义信息，比如说定位、AR/VR的展示、行为分析等等。这就要实现不同粒度语义信息的提取，这里面的粒度可以大到整个商场，再到一个门店，再小一点就是一个商品。除了物理世界的三维数字化，还需要对人的行为进行数字化，运动行为、消费的行为、社交行为等等。

对于这样构建的人的行为也好、三维空间也好，再结合SLAM、AR技术，我们可以实现地球级的AR应用。当然，这里首先需要解决云端的高精度地图怎么与终端SLAM紧耦合，这样才能够实现长时间大范围的精准定位和高品质虚实融合。松耦合模式会有一些缺陷，误差累积会很快，稳定性也不够好。基于这样的一种方式，我们可以实现室内外的分米级甚至到厘米级的定位和导航。

另外，我们知道5G时代很快就要到来了。目前的AR计算还主要是在终端，比如手机、AR眼镜等。未来有5G的情况下很多计算都可以放到云或边上，对终端的计算要求相对弱化，终端未来更多的是提供数据采集、连接和显示的能力。因为有云端算力的加持，高品质的AR效果可以得以实现，比如高逼真的物理效果模拟，准确的遮挡效果和虚实交互，精准的光照估计和电影级的真实感绘制与虚实融合效果就成为可能。在5G时代，一方面传输速度非常快，另一方面有云端算力加持，未来应用APP甚至都不要预装，我们打开一个APP就像在浏览器上输入网址或电视机上切换频道一样便捷。

以上是我对三维视觉和AR方面未来发展趋势的看法，供大家参考。

未完待续。。。

专家讨论发言，请关注本博客账号，在博客列表中查看

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

RACV2019观点集锦 | 未来5-10年计算机视觉发展趋势（一）