一篇简单的生物视觉概述
生物视觉的神经网络密码:从光子到意识,AI能学到什么?
一篇综述论文,带你读懂大脑视觉的“四层漏斗”和AI的未来方向
写在前面
你有没有想过一个问题:人眼每秒接收约10亿比特的光子信息,但你有意识感知到的,只有大约10比特。
中间差了8个数量级。
那些信息去哪了?大脑是怎么做到的?更重要的是——AI能不能学学这个?
最近读了一篇北大团队的综述论文《生物视觉系统的神经网络编码模型综述》(郑雅菁、余肇飞、黄铁军,中国图象图形学报2023),正好系统回答了这些问题。我把核心内容重新组织成一个“四层漏斗”的框架,分享给你。
第一层:视网膜——不是相机,是边缘压缩器
大多数人以为眼睛像相机一样“拍照片”。其实不是。
视网膜是一台差分压缩器。
它的工作原理:只看变化,不看静态。
| 细胞类型 | 感受野 | 最佳刺激 |
|---|---|---|
| 神经节细胞 | 中心-周边拮抗 | 小光点或运动边缘 |
| V1简单细胞 | 有明确给光/撤光区 | 窄条或边缘 |
| V1复杂细胞 | 无明确分区 | 条形或边缘 |
你盯着白墙看久了觉得“什么都没看到”——不是因为墙没东西,而是你的视觉系统在说:没什么可报告的。
论文核心发现
视网膜不只是中继站。它具备运动选择性、增益控制等类似皮层的计算能力。LGN甚至接收来自皮层的反馈信号——这是“自上而下”影响信息处理的第一站。
工程启发:事件相机(DVS)正是模仿这一原理——只记录亮度变化,不记录静态背景。功耗极低,延迟极小。
第二层:预测编码——大脑的“虚拟现实”
经过视网膜压缩后,信息量从10^9降到10^6 bits/s。还是太大。
怎么办?大脑在内部运行一个物理世界的预测模型。
- 预测正确 → 信号被抑制,不上报
- 预测出错 → 残差信号爆发,立刻报警
这就是为什么你走在熟悉的走廊里,不会“看”墙壁和地板。直到突然出现一个黑影——你才瞬间警觉。
论文中的技术映射
Hubel & Wiesel(1962)提出的分层组合结构,启发了:
- HMAX模型:简单-复杂细胞交替,最大池化实现位置不变性
- ConvRNN:在卷积单元上引入循环结构,模拟视觉皮层的递归处理
关键结论:循环结构有助于提高训练收敛速度,同等参数量下识别准确率更高(Spoerer等,2017)。
第三层:注意力漏斗——从海量到极简
信息量继续压缩:10^6 → 10 bits/s。
怎么做到的?注意力不是“聚光灯”,是“过滤器”。
论文引用了经典的任务驱动DCNN研究(Yamins & Dicarlo,2016):
| DCNN层级 | 对应的视觉皮层 | 功能 |
|---|---|---|
| 底层卷积层 | V1 | 边缘、朝向 |
| 中层卷积层 | V4 | 中等复杂度特征 |
| 高层全连接层 | IT(下颞叶皮层) | 不变性物体识别 |
在ImageNet上训练的物体识别网络,是目前预测灵长类腹侧视觉通路最精确的模型。而且它没有用任何生理数据拟合——纯粹靠任务驱动,就学到了和大脑类似的特征表达。
这意味着什么?
也许大脑的视觉皮层就是这样“自组织”出来的:为了完成物体识别任务,自然涌现出了分层结构。
第四层:符号化——“猫”而不是像素
最终进入意识的信息,已经不是图像了。
IT皮层的神经元感受野达到50°视角,覆盖整个视野。无论猫是正的、倒的、大的、小的、黑的、白的——你看到的是**“猫”**,而不是一堆像素。
VisNet、HMAX、CNN……所有模型都在做同一件事:把海量像素映射到有限个符号。
而工作记忆容量只有4±1个组块,一次只能处理一件事——这就是为什么你不能同时算两道数学题。
前沿:无监督学习——更“生物合理”的AI
论文第4节介绍了一个重要趋势:无监督/自监督学习正在缩小AI与生物视觉的差距。
核心发现(Zhuang等,2021)
无监督训练的网络(如SimCLR、对比学习)在腹侧通路的预测精度等于或超过最佳有监督模型。
四种范式
| 范式 | 代表模型 | 核心思想 |
|---|---|---|
| 无监督 | VAE | 数据分布建模 |
| 自监督 | CPC | 从一部分预测另一部分 |
| 对比学习 | SimCLR, MoCo | 区分正负样本 |
| 多模态 | CLIP | 视觉-语言联合 |
最震撼的发现:CLIP等多模态模型对图像失真的鲁棒性已与人类不相上下(Geirhos等,2021)。而且,多模态模型可以学习出与大脑海马体中概念细胞类似的表达(Choksi等,2021)。
这给AI带来了什么启示?
1. 丢弃比计算更重要
当前主流CV:全帧、全像素、每帧都重算 → 能耗高、样本效率低。
生物视觉:只处理变化和残差 → 10 bits/s搞定一切。
也许真正的智能,不是“算更多”,而是“丢更多”。
2. 任务驱动比数据驱动更接近本质
Yamins & Dicarlo的实验证明:纯任务驱动的网络(物体识别),无需拟合任何生理数据,就能预测IT皮层的神经响应。
这说明:大脑的结构可能是“用出来”的,而不是“设计出来”的。
3. 无监督可能是通往AGI的钥匙
ImageNet的训练模式(上百万张标签数据)在生物上不可行。但人类婴儿不需要——他们通过自监督(眼跳、视网膜扭曲、效应复制)学习。
Konkle & Alvarez(2021)认为:视网膜扭曲、眼跳、效应复制,本身就是自我监督学习的实例化。
三个马上可以落地的方向
论文第5节给出了三个工程方向:
| 方向 | 描述 |
|---|---|
| 神经假体 | 用DNN预测能力制作视觉假体,替换受损的视网膜/视觉皮层 |
| 神经形态芯片 | 模仿生物视觉,设计事件相机、脉冲相机 |
| BrainScore | 开源平台,量化对比不同模型对神经元的预测相似性 |
这正好是我们之前讨论的“事件相机+预测编码+注意力漏斗”架构的理论基础。
写在最后
这篇综述让我最受触动的一句话是:
“人工神经网络的研发与对大脑功能及结构的探索可以相辅相成,为实现新一代通用人工智能带来更多启发。”
我们总在说“仿生”,但真正读懂生物的原理,然后用工程的方式实现同样的信息瓶颈策略——这才是AI应该走的路。
不是更大的模型、更多的数据,而是更聪明地丢弃、更精准地预测、更高效地筛选。
毕竟,你的大脑用10 bits/s就做到了这一切。
参考文献:郑雅菁,余肇飞,黄铁军. 生物视觉系统的神经网络编码模型综述. 中国图象图形学报,2023,28(02):335-357. DOI: 10.11834/jig.220461
- 点赞
- 收藏
- 关注作者
评论(0)