一篇简单的生物视觉概述

举报
叫我小刘就好了 发表于 2026/05/28 05:05:39 2026/05/28
【摘要】 生物视觉的神经网络密码:从光子到意识,AI能学到什么?一篇综述论文,带你读懂大脑视觉的“四层漏斗”和AI的未来方向 写在前面你有没有想过一个问题:人眼每秒接收约10亿比特的光子信息,但你有意识感知到的,只有大约10比特。中间差了8个数量级。那些信息去哪了?大脑是怎么做到的?更重要的是——AI能不能学学这个?最近读了一篇北大团队的综述论文《生物视觉系统的神经网络编码模型综述》(郑雅菁、余肇飞...

生物视觉的神经网络密码:从光子到意识,AI能学到什么?

一篇综述论文,带你读懂大脑视觉的“四层漏斗”和AI的未来方向


写在前面

你有没有想过一个问题:人眼每秒接收约10亿比特的光子信息,但你有意识感知到的,只有大约10比特。

中间差了8个数量级。

那些信息去哪了?大脑是怎么做到的?更重要的是——AI能不能学学这个

最近读了一篇北大团队的综述论文《生物视觉系统的神经网络编码模型综述》(郑雅菁、余肇飞、黄铁军,中国图象图形学报2023),正好系统回答了这些问题。我把核心内容重新组织成一个“四层漏斗”的框架,分享给你。


第一层:视网膜——不是相机,是边缘压缩器

大多数人以为眼睛像相机一样“拍照片”。其实不是。

视网膜是一台差分压缩器。

它的工作原理:只看变化,不看静态。

细胞类型 感受野 最佳刺激
神经节细胞 中心-周边拮抗 小光点或运动边缘
V1简单细胞 有明确给光/撤光区 窄条或边缘
V1复杂细胞 无明确分区 条形或边缘

你盯着白墙看久了觉得“什么都没看到”——不是因为墙没东西,而是你的视觉系统在说:没什么可报告的

论文核心发现

视网膜不只是中继站。它具备运动选择性增益控制等类似皮层的计算能力。LGN甚至接收来自皮层的反馈信号——这是“自上而下”影响信息处理的第一站。

工程启发:事件相机(DVS)正是模仿这一原理——只记录亮度变化,不记录静态背景。功耗极低,延迟极小。


第二层:预测编码——大脑的“虚拟现实”

经过视网膜压缩后,信息量从10^9降到10^6 bits/s。还是太大。

怎么办?大脑在内部运行一个物理世界的预测模型

  • 预测正确 → 信号被抑制,不上报
  • 预测出错 → 残差信号爆发,立刻报警

这就是为什么你走在熟悉的走廊里,不会“看”墙壁和地板。直到突然出现一个黑影——你才瞬间警觉。

论文中的技术映射

Hubel & Wiesel(1962)提出的分层组合结构,启发了:

  • HMAX模型:简单-复杂细胞交替,最大池化实现位置不变性
  • ConvRNN:在卷积单元上引入循环结构,模拟视觉皮层的递归处理

关键结论:循环结构有助于提高训练收敛速度,同等参数量下识别准确率更高(Spoerer等,2017)。


第三层:注意力漏斗——从海量到极简

信息量继续压缩:10^6 → 10 bits/s。

怎么做到的?注意力不是“聚光灯”,是“过滤器”

论文引用了经典的任务驱动DCNN研究(Yamins & Dicarlo,2016):

DCNN层级 对应的视觉皮层 功能
底层卷积层 V1 边缘、朝向
中层卷积层 V4 中等复杂度特征
高层全连接层 IT(下颞叶皮层) 不变性物体识别

在ImageNet上训练的物体识别网络,是目前预测灵长类腹侧视觉通路最精确的模型。而且它没有用任何生理数据拟合——纯粹靠任务驱动,就学到了和大脑类似的特征表达。

这意味着什么?

也许大脑的视觉皮层就是这样“自组织”出来的:为了完成物体识别任务,自然涌现出了分层结构。


第四层:符号化——“猫”而不是像素

最终进入意识的信息,已经不是图像了。

IT皮层的神经元感受野达到50°视角,覆盖整个视野。无论猫是正的、倒的、大的、小的、黑的、白的——你看到的是**“猫”**,而不是一堆像素。

VisNet、HMAX、CNN……所有模型都在做同一件事:把海量像素映射到有限个符号

而工作记忆容量只有4±1个组块,一次只能处理一件事——这就是为什么你不能同时算两道数学题。


前沿:无监督学习——更“生物合理”的AI

论文第4节介绍了一个重要趋势:无监督/自监督学习正在缩小AI与生物视觉的差距

核心发现(Zhuang等,2021)

无监督训练的网络(如SimCLR、对比学习)在腹侧通路的预测精度等于或超过最佳有监督模型。

四种范式

范式 代表模型 核心思想
无监督 VAE 数据分布建模
自监督 CPC 从一部分预测另一部分
对比学习 SimCLR, MoCo 区分正负样本
多模态 CLIP 视觉-语言联合

最震撼的发现:CLIP等多模态模型对图像失真的鲁棒性已与人类不相上下(Geirhos等,2021)。而且,多模态模型可以学习出与大脑海马体中概念细胞类似的表达(Choksi等,2021)。


这给AI带来了什么启示?

1. 丢弃比计算更重要

当前主流CV:全帧、全像素、每帧都重算 → 能耗高、样本效率低。

生物视觉:只处理变化和残差 → 10 bits/s搞定一切。

也许真正的智能,不是“算更多”,而是“丢更多”。

2. 任务驱动比数据驱动更接近本质

Yamins & Dicarlo的实验证明:纯任务驱动的网络(物体识别),无需拟合任何生理数据,就能预测IT皮层的神经响应。

这说明:大脑的结构可能是“用出来”的,而不是“设计出来”的。

3. 无监督可能是通往AGI的钥匙

ImageNet的训练模式(上百万张标签数据)在生物上不可行。但人类婴儿不需要——他们通过自监督(眼跳、视网膜扭曲、效应复制)学习。

Konkle & Alvarez(2021)认为:视网膜扭曲、眼跳、效应复制,本身就是自我监督学习的实例化


三个马上可以落地的方向

论文第5节给出了三个工程方向:

方向 描述
神经假体 用DNN预测能力制作视觉假体,替换受损的视网膜/视觉皮层
神经形态芯片 模仿生物视觉,设计事件相机、脉冲相机
BrainScore 开源平台,量化对比不同模型对神经元的预测相似性

这正好是我们之前讨论的“事件相机+预测编码+注意力漏斗”架构的理论基础。


写在最后

这篇综述让我最受触动的一句话是:

“人工神经网络的研发与对大脑功能及结构的探索可以相辅相成,为实现新一代通用人工智能带来更多启发。”

我们总在说“仿生”,但真正读懂生物的原理,然后用工程的方式实现同样的信息瓶颈策略——这才是AI应该走的路。

不是更大的模型、更多的数据,而是更聪明地丢弃、更精准地预测、更高效地筛选

毕竟,你的大脑用10 bits/s就做到了这一切。


参考文献:郑雅菁,余肇飞,黄铁军. 生物视觉系统的神经网络编码模型综述. 中国图象图形学报,2023,28(02):335-357. DOI: 10.11834/jig.220461

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。