当AI刻进硅片:软硬结合这件事,我们以前理解错了
最近 Taalas HC1 芯片火了。24人小公司,把 Llama 3.1 8B 模型直接"刻"进 6nm 硅片,跑出 17000 token/s,功耗只有英伟达 H200 的零头。
很多人在讨论"这是真的吗"、"能替代英伟达吗"。这些问题当然重要,但我想聊点更根本的——
软硬结合这件事,我们以前理解错了。
第一次浪潮:软件+硬件,两个东西拼在一起
最早的计算,软件和硬件是两件事。
冯·诺依曼 1945 年提出存储程序概念——程序和数据都存在内存里,CPU 一条条取指令、译码、执行。这个架构统治了全世界所有计算机 70 年。
在这个架构里:
-
软件是一串指令("先算1+1,再存到地址A,然后判断是否等于2")
-
硬件是指令的执行者(CPU、内存、总线)
-
两者通过指令集架构(ISA)连接——x86、ARM、RISC-V
所谓"软硬结合",本质是在通用硬件上写好软件。硬件本身不知道要干什么,全靠指令喂。
这条路的极致,是 Intel 和微软——Wintel 联盟。你不需要换硬件,换个软件就换了功能。通用性拉到满,代价是效率被稀释。
第二次浪潮:AI+通用硬件,借 GPU 的力
深度学习爆发后,人们发现 GPU 很适合做矩阵运算。于是 NVIDIA 从游戏显卡公司变成了 AI 计算公司。
这一阶段的特点是:
-
硬件还是通用的——GPU能渲染游戏、能挖矿、能跑AI
-
AI 是跑在已有硬件上的"应用"——像调用一个库函数一样调 GPU
-
软硬结合 = 给通用硬件写专用的 AI 库(cuDNN、TensorRT、CUDA)
这比 CPU 快了很多,但底层的冯·诺依曼瓶颈没解决——每一层计算,权重都要从 HBM 搬运到计算单元,算完存回去,再搬运下一层。内存带宽成为天花板。
H200 跑 Llama 3.1 8B 只有约 230 token/s,不是芯片不够快,是搬运权重的时间占了 99%。
第三次浪潮:AI原生+硬件,模型就是芯片
Taalas HC1 让人看到的,是另一个方向的极致。
它走了一条极端路线:
-
把模型的权重变成金属互连层的通孔——每个权重值对应一组物理 via 的有/无
-
把计算逻辑变成固定的组合逻辑门——前向传播就是信号沿物理路径流过
-
没有指令、没有取指译码、没有缓存一致——"算的时候权重就在那"
这叫模型即计算机(Model-as-Computer),不是吹的。
这意味着什么?软件和硬件之间的那一层"接口"消失了。
以前:
写代码 → 编译 → 指令 → CPU执行
训练模型 → 导出权重 → GPU加载 → 搬运 → 计算
现在:
训练模型 → 把权重变成物理连线 → 通电即推理
没有"加载",没有"搬运"。模型直接就是硬件的物理结构。
所以,本质差别在哪?
用一个类比解释。
传统软硬结合 = 乐高 + 说明书
你有一箱乐高积木(通用硬件),想拼什么就看什么说明书(软件)。今天拼城堡,明天拆了拼宇宙飞船。灵活,但拼起来慢,而且每次拼完不能改变形状。
AI + 硬件的极致(Taalas 方案)= 一块已经刻好的浮雕
大理石上已经刻好了完整的图案(模型权重物理化),你不需要拼,光线打上去图案就出来了。速度快得离谱,但图案变不了——要换图案得重新刻一块石头。
| | 传统软硬结合 | AI + 硬件结合 |
|---|---|---|
| 核心范式 | 指令驱动 | 权重驱动 |
| 程序在哪 | 内存里(可读写) | 物理连接中(只读) |
| 硬件角色 | 指令执行者 | 模型本身 |
| 存储与计算 | 分离(冯·诺依曼) | 一体 |
| 更新方式 | 换软件 | 换芯片 |
| 设计哲学 | 通用性优先 | 效率优先 |
| 接口层次 | ISA/API 层面 | 物理层面 |
传统软硬结合,结合的是"接口"。AI 跟硬件结合,结合的是"物理"。
一个生物学视角
有意思的是,这种演进与生物神经系统有相似之处。
传统计算机 ≈ 中枢神经
大脑(CPU)发指令,身体各部分执行。指令和身体是分离的。
AI+硬件 ≈ 膝跳反射
信号从感受器直接传到运动神经元,不走大脑。延迟极短、能耗极低,但这是固定回路,改不了。
Taalas 做的是:把某些 AI 推理变成"膝跳反射级"的固定回路。自动驾驶急刹、高频交易决策、工业质检——需要的就是这种本能反应,不是"让我想想再做"。
那些需要灵活思考的场景(写小说、做规划、技术决策),还得靠通用 GPU + 大模型。
未来不是谁取代谁
三次浪潮不是替代关系,是分层关系。
通用 GPU 干活(大脑皮层),AI 专用芯片做快速响应(小脑+脊髓),存算一体做极端固化逻辑(膝跳反射)。
NVIDIA 不会被取代。但 NVIDIA 的"通用 AI 计算"之上,会叠一层极端高效但极端专用的 AI 计算——Taalas、Etched、Cerebras、Groq 各占一块,干的是 GPU 干不好、CPU 干不了的事情。
这一波浪潮有意思的地方就在这里:
软件和硬件之间那层"抽象",曾经是我们最有价值的资产——它让一个芯片能跑一切。但到了 AI 时代,它开始变成负担了。
当你把 90% 的时间花在搬运数据上,或许该想想:我到底需不需要"通用性"?
- 点赞
- 收藏
- 关注作者
评论(0)