- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

不用挨个数数，DNN也能「一眼看出」目标数量

孔皮皮发表于 2019/09/03 15:43:59 2019/09/03

【摘要】在图像分类中，目标的「数量感」也会自发地体现在深度神经网络中。计算机能够完成很多数字任务。人类在分摊餐厅账单时都觉得很难算，但一台现代计算机能够在短短一秒钟内完成数百万次计算。然而，人类却拥有一种与生俱来的直观的数量感，这帮助我们首先创建了计算机。但不同于计算机，当看到四只猫、四个苹果和数字符号「4」时，人类不用计算，就能发现共同之处—抽象概念「4」。这显示出了人类思维与机器的差别，也解释了...

在图像分类中，目标的「数量感」也会自发地体现在深度神经网络中。

计算机能够完成很多数字任务。人类在分摊餐厅账单时都觉得很难算，但一台现代计算机能够在短短一秒钟内完成数百万次计算。然而，人类却拥有一种与生俱来的直观的数量感，这帮助我们首先创建了计算机。

但不同于计算机，当看到四只猫、四个苹果和数字符号「4」时，人类不用计算，就能发现共同之处—抽象概念「4」。这显示出了人类思维与机器的差别，也解释了人类为什么尚未利用自身所拥有的智慧来发展人工智能。

那么，机器是否也能拥有这种抽象的“数量感”？最近发表在Science Advances上的一篇论文似乎回答了这个问题，来自德国图宾根大学的研究者发现，人工智能已经可以自然形成与人类类似的数量感。

论文：Number detectors spontaneously emerge ina deep neural network designed for visual object recognition

论文链接：https://advances.sciencemag.org/content/5/5/eaav7903

计算机在计算时，人们必须明确指定自己想要计算什么。人们需要分配一部分内存来维护计数器，因而可以先将它设置为零，之后将想要记录的项目添加上去。这意味着计算机可以计算时间（电子钟信号）、文字（如果存储在计算机内存中）以及数字图像中的目标。

计算数字图像中的目标有一定难度，因为在计算这些目标之前人们必须告知计算机它们具体是什么样的。但是这些目标并不总是相同的--光照、位置和姿态的变化以及单个样本之间的结构差异都会产生影响。所有用于检测图像中目标的有效计算方法，都是通过抽取图像高级特征，并创建目标的统计图像来实现，这就是一种学习方法。

那么处理识别类别或目标位置以外，人工神经网络还能学习到“数量感”吗？在德国图宾根大学的这项研究中，研究者将网络单元调谐为抽象数量，并对比真实神经元在“数量感”上的活动。研究者最终表明，在目标分类任务中，数量选择性会自发地出现在深度神经网络中。

怎样形成“数量感”

在这项新研究中，一个为了进行简单视觉目标检测而训练的深度神经网络自然而然地形成了这种数量感。研究者发现，网络中的特定单元突然“调谐”为一个抽象的数字——就像大脑中可能做出回应的真实神经元一样。网络意识到，含四个苹果的图像和含四只猫的图像类似，因为它们都包含“4”。

这一研究真正令人兴奋的一点在于，它表明我们当前的学习原理是非常基本的。人类和动物思维的一些最高级方面与世界的结构以及我们对此的视觉体验息息相关。

具体而言，研究者在这项研究中用到了一个分层卷积神经网络（HCNN），这是一类受生物启发的模型，最近在计算机视觉应用中取得了巨大成功。和大脑类似，这些模型包括几个前馈和视网膜拓扑结构的层，其中包含模拟不同种类视觉神经元的单个网络单元。该训练程序自动确定每个单元中各个特征的选择性，以最大化网络在给定任务上的性能。

研究者构建了这样一个网络，并在一个数量无关的视觉目标识别任务中对其进行训练，以探索上述“数量感”是否会自然产生以及如何产生。

图1：用于目标检测的HCNN。（A）HCNN的简化架构。（B）用其他节肢动物训练的网络成功对狼蛛进行分类的示例。

研究者训练了一个深度神经网络来对自然图像中的目标进行分类。为了探索为自然图像目标分类训练的网络是否能够自发地评估点分布中项目的数量，研究者观察了不同的数量是否会在网络单元中产生不同的激活值。

实验结果

研究者将336图片传入到网络中，并记录最终层的反馈。通过双向方差分析（ANOVA），且把数量和刺激设为因子，研究者可以检测对物品数量有选择性的网络单元（P< 0.01），但却对刺激或相互作用没有显著性影响。

在最终层的37632个网络单元中，3601（9.6%）个是数字选择性网络单元。如下图2B所示，数量选择单元的激活值表现出清晰的调谐模式（ tuning pattern），但实际上与真实神经元基本相同（图2C）：每一个网络单元对展现的数值表现出了最大程度的响应，响应最大的就是优选数量表征，而且随着展现的数量偏离优选数量，这种响应会依次降低。

优选数量表征的分布覆盖了展现数量的整个范围（1到30），更多的网络单元更喜欢小于最大数量的值（图2D），真实神经元中也观察到了类似的分布（图2E）。