- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

一篇简单的生物视觉概述

叫我小刘就好了发表于 2026/05/28 05:05:39 2026/05/28

【摘要】生物视觉的神经网络密码：从光子到意识，AI能学到什么？一篇综述论文，带你读懂大脑视觉的“四层漏斗”和AI的未来方向写在前面你有没有想过一个问题：人眼每秒接收约10亿比特的光子信息，但你有意识感知到的，只有大约10比特。中间差了8个数量级。那些信息去哪了？大脑是怎么做到的？更重要的是——AI能不能学学这个？最近读了一篇北大团队的综述论文《生物视觉系统的神经网络编码模型综述》（郑雅菁、余肇飞...

生物视觉的神经网络密码：从光子到意识，AI能学到什么？

一篇综述论文，带你读懂大脑视觉的“四层漏斗”和AI的未来方向

写在前面

你有没有想过一个问题：人眼每秒接收约10亿比特的光子信息，但你有意识感知到的，只有大约10比特。

中间差了8个数量级。

那些信息去哪了？大脑是怎么做到的？更重要的是——AI能不能学学这个？

最近读了一篇北大团队的综述论文《生物视觉系统的神经网络编码模型综述》（郑雅菁、余肇飞、黄铁军，中国图象图形学报2023），正好系统回答了这些问题。我把核心内容重新组织成一个“四层漏斗”的框架，分享给你。

第一层：视网膜——不是相机，是边缘压缩器

大多数人以为眼睛像相机一样“拍照片”。其实不是。

视网膜是一台差分压缩器。

它的工作原理：只看变化，不看静态。

细胞类型	感受野	最佳刺激
神经节细胞	中心-周边拮抗	小光点或运动边缘
V1简单细胞	有明确给光/撤光区	窄条或边缘
V1复杂细胞	无明确分区	条形或边缘

你盯着白墙看久了觉得“什么都没看到”——不是因为墙没东西，而是你的视觉系统在说：没什么可报告的。

论文核心发现

视网膜不只是中继站。它具备运动选择性、增益控制等类似皮层的计算能力。LGN甚至接收来自皮层的反馈信号——这是“自上而下”影响信息处理的第一站。

工程启发：事件相机（DVS）正是模仿这一原理——只记录亮度变化，不记录静态背景。功耗极低，延迟极小。

第二层：预测编码——大脑的“虚拟现实”

经过视网膜压缩后，信息量从10^9降到10^6 bits/s。还是太大。

怎么办？大脑在内部运行一个物理世界的预测模型。

预测正确 → 信号被抑制，不上报
预测出错 → 残差信号爆发，立刻报警

这就是为什么你走在熟悉的走廊里，不会“看”墙壁和地板。直到突然出现一个黑影——你才瞬间警觉。

论文中的技术映射

Hubel & Wiesel（1962）提出的分层组合结构，启发了：

HMAX模型：简单-复杂细胞交替，最大池化实现位置不变性
ConvRNN：在卷积单元上引入循环结构，模拟视觉皮层的递归处理

关键结论：循环结构有助于提高训练收敛速度，同等参数量下识别准确率更高（Spoerer等，2017）。

第三层：注意力漏斗——从海量到极简

信息量继续压缩：10^6 → 10 bits/s。

怎么做到的？注意力不是“聚光灯”，是“过滤器”。

论文引用了经典的任务驱动DCNN研究（Yamins & Dicarlo，2016）：

DCNN层级	对应的视觉皮层	功能
底层卷积层	V1	边缘、朝向
中层卷积层	V4	中等复杂度特征
高层全连接层	IT（下颞叶皮层）	不变性物体识别

在ImageNet上训练的物体识别网络，是目前预测灵长类腹侧视觉通路最精确的模型。而且它没有用任何生理数据拟合——纯粹靠任务驱动，就学到了和大脑类似的特征表达。

这意味着什么？

也许大脑的视觉皮层就是这样“自组织”出来的：为了完成物体识别任务，自然涌现出了分层结构。

第四层：符号化——“猫”而不是像素

最终进入意识的信息，已经不是图像了。

IT皮层的神经元感受野达到50°视角，覆盖整个视野。无论猫是正的、倒的、大的、小的、黑的、白的——你看到的是**“猫”**，而不是一堆像素。

VisNet、HMAX、CNN……所有模型都在做同一件事：把海量像素映射到有限个符号。

而工作记忆容量只有4±1个组块，一次只能处理一件事——这就是为什么你不能同时算两道数学题。

前沿：无监督学习——更“生物合理”的AI

论文第4节介绍了一个重要趋势：无监督/自监督学习正在缩小AI与生物视觉的差距。

核心发现（Zhuang等，2021）

无监督训练的网络（如SimCLR、对比学习）在腹侧通路的预测精度等于或超过最佳有监督模型。

四种范式

范式	代表模型	核心思想
无监督	VAE	数据分布建模
自监督	CPC	从一部分预测另一部分
对比学习	SimCLR， MoCo	区分正负样本
多模态	CLIP	视觉-语言联合

最震撼的发现：CLIP等多模态模型对图像失真的鲁棒性已与人类不相上下（Geirhos等，2021）。而且，多模态模型可以学习出与大脑海马体中概念细胞类似的表达（Choksi等，2021）。

这给AI带来了什么启示？

1. 丢弃比计算更重要

当前主流CV：全帧、全像素、每帧都重算 → 能耗高、样本效率低。

生物视觉：只处理变化和残差 → 10 bits/s搞定一切。

也许真正的智能，不是“算更多”，而是“丢更多”。

2. 任务驱动比数据驱动更接近本质

Yamins & Dicarlo的实验证明：纯任务驱动的网络（物体识别），无需拟合任何生理数据，就能预测IT皮层的神经响应。

这说明：大脑的结构可能是“用出来”的，而不是“设计出来”的。

3. 无监督可能是通往AGI的钥匙

ImageNet的训练模式（上百万张标签数据）在生物上不可行。但人类婴儿不需要——他们通过自监督（眼跳、视网膜扭曲、效应复制）学习。

Konkle & Alvarez（2021）认为：视网膜扭曲、眼跳、效应复制，本身就是自我监督学习的实例化。

三个马上可以落地的方向

论文第5节给出了三个工程方向：

方向	描述
神经假体	用DNN预测能力制作视觉假体，替换受损的视网膜/视觉皮层
神经形态芯片	模仿生物视觉，设计事件相机、脉冲相机
BrainScore	开源平台，量化对比不同模型对神经元的预测相似性

这正好是我们之前讨论的“事件相机+预测编码+注意力漏斗”架构的理论基础。

写在最后

这篇综述让我最受触动的一句话是：

“人工神经网络的研发与对大脑功能及结构的探索可以相辅相成，为实现新一代通用人工智能带来更多启发。”

我们总在说“仿生”，但真正读懂生物的原理，然后用工程的方式实现同样的信息瓶颈策略——这才是AI应该走的路。

不是更大的模型、更多的数据，而是更聪明地丢弃、更精准地预测、更高效地筛选。

毕竟，你的大脑用10 bits/s就做到了这一切。

参考文献：郑雅菁，余肇飞，黄铁军. 生物视觉系统的神经网络编码模型综述. 中国图象图形学报，2023，28(02):335-357. DOI: 10.11834/jig.220461

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

一篇简单的生物视觉概述

生物视觉的神经网络密码：从光子到意识，AI能学到什么？

写在前面

第一层：视网膜——不是相机，是边缘压缩器

论文核心发现

第二层：预测编码——大脑的“虚拟现实”

论文中的技术映射

第三层：注意力漏斗——从海量到极简

第四层：符号化——“猫”而不是像素

前沿：无监督学习——更“生物合理”的AI

核心发现（Zhuang等，2021）

四种范式

这给AI带来了什么启示？

1. 丢弃比计算更重要

2. 任务驱动比数据驱动更接近本质

3. 无监督可能是通往AGI的钥匙

三个马上可以落地的方向

写在最后

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

一篇简单的生物视觉概述

生物视觉的神经网络密码：从光子到意识，AI能学到什么？

写在前面

第一层：视网膜——不是相机，是边缘压缩器

论文核心发现

第二层：预测编码——大脑的“虚拟现实”

论文中的技术映射

第三层：注意力漏斗——从海量到极简

第四层：符号化——“猫”而不是像素

前沿：无监督学习——更“生物合理”的AI

核心发现（Zhuang等，2021）

四种范式

这给AI带来了什么启示？

1. 丢弃比计算更重要

2. 任务驱动比数据驱动更接近本质

3. 无监督可能是通往AGI的钥匙

三个马上可以落地的方向

写在最后

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品