- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

当AI刻进硅片：软硬结合这件事，我们以前理解错了

yd_241428409 发表于 2026/06/02 17:46:13 2026/06/02

【摘要】最近 Taalas HC1 芯片火了。24人小公司，把 Llama 3.1 8B 模型直接"刻"进 6nm 硅片，跑出 17000 token/s，功耗只有英伟达 H200 的零头。很多人在讨论"这是真的吗"、"能替代英伟达吗"。这些问题当然重要，但我想聊点更根本的——软硬结合这件事，我们以前理解错了。第一次浪潮：软件+硬件，两个东西拼在一起最早的计算，软件和硬件是两件事。冯·诺依曼 194...

最近 Taalas HC1 芯片火了。24人小公司，把 Llama 3.1 8B 模型直接"刻"进 6nm 硅片，跑出 17000 token/s，功耗只有英伟达 H200 的零头。

很多人在讨论"这是真的吗"、"能替代英伟达吗"。这些问题当然重要，但我想聊点更根本的——

软硬结合这件事，我们以前理解错了。

第一次浪潮：软件+硬件，两个东西拼在一起

最早的计算，软件和硬件是两件事。

冯·诺依曼 1945 年提出存储程序概念——程序和数据都存在内存里，CPU 一条条取指令、译码、执行。这个架构统治了全世界所有计算机 70 年。

在这个架构里：

软件是一串指令（"先算1+1，再存到地址A，然后判断是否等于2"）
硬件是指令的执行者（CPU、内存、总线）
两者通过指令集架构（ISA）连接——x86、ARM、RISC-V

所谓"软硬结合"，本质是在通用硬件上写好软件。硬件本身不知道要干什么，全靠指令喂。

这条路的极致，是 Intel 和微软——Wintel 联盟。你不需要换硬件，换个软件就换了功能。通用性拉到满，代价是效率被稀释。

第二次浪潮：AI+通用硬件，借 GPU 的力

深度学习爆发后，人们发现 GPU 很适合做矩阵运算。于是 NVIDIA 从游戏显卡公司变成了 AI 计算公司。

这一阶段的特点是：

硬件还是通用的——GPU能渲染游戏、能挖矿、能跑AI
AI 是跑在已有硬件上的"应用"——像调用一个库函数一样调 GPU
软硬结合 = 给通用硬件写专用的 AI 库（cuDNN、TensorRT、CUDA）

这比 CPU 快了很多，但底层的冯·诺依曼瓶颈没解决——每一层计算，权重都要从 HBM 搬运到计算单元，算完存回去，再搬运下一层。内存带宽成为天花板。

H200 跑 Llama 3.1 8B 只有约 230 token/s，不是芯片不够快，是搬运权重的时间占了 99%。

第三次浪潮：AI原生+硬件，模型就是芯片

Taalas HC1 让人看到的，是另一个方向的极致。

它走了一条极端路线：

把模型的权重变成金属互连层的通孔——每个权重值对应一组物理 via 的有/无
把计算逻辑变成固定的组合逻辑门——前向传播就是信号沿物理路径流过
没有指令、没有取指译码、没有缓存一致——"算的时候权重就在那"

这叫模型即计算机（Model-as-Computer），不是吹的。

这意味着什么？软件和硬件之间的那一层"接口"消失了。

以前：


写代码 → 编译 → 指令 → CPU执行

训练模型 → 导出权重 → GPU加载 → 搬运 → 计算

现在：


训练模型 → 把权重变成物理连线 → 通电即推理

没有"加载"，没有"搬运"。模型直接就是硬件的物理结构。

所以，本质差别在哪？

用一个类比解释。

传统软硬结合 = 乐高 + 说明书

你有一箱乐高积木（通用硬件），想拼什么就看什么说明书（软件）。今天拼城堡，明天拆了拼宇宙飞船。灵活，但拼起来慢，而且每次拼完不能改变形状。

AI + 硬件的极致（Taalas 方案）= 一块已经刻好的浮雕

大理石上已经刻好了完整的图案（模型权重物理化），你不需要拼，光线打上去图案就出来了。速度快得离谱，但图案变不了——要换图案得重新刻一块石头。

| | 传统软硬结合 | AI + 硬件结合 |

|---|---|---|

| 核心范式 | 指令驱动 | 权重驱动 |

| 程序在哪 | 内存里（可读写） | 物理连接中（只读） |

| 硬件角色 | 指令执行者 | 模型本身 |

| 存储与计算 | 分离（冯·诺依曼） | 一体 |

| 更新方式 | 换软件 | 换芯片 |

| 设计哲学 | 通用性优先 | 效率优先 |

| 接口层次 | ISA/API 层面 | 物理层面 |

传统软硬结合，结合的是"接口"。AI 跟硬件结合，结合的是"物理"。

一个生物学视角

有意思的是，这种演进与生物神经系统有相似之处。

传统计算机 ≈ 中枢神经

大脑（CPU）发指令，身体各部分执行。指令和身体是分离的。

AI+硬件 ≈ 膝跳反射

信号从感受器直接传到运动神经元，不走大脑。延迟极短、能耗极低，但这是固定回路，改不了。

Taalas 做的是：把某些 AI 推理变成"膝跳反射级"的固定回路。自动驾驶急刹、高频交易决策、工业质检——需要的就是这种本能反应，不是"让我想想再做"。

那些需要灵活思考的场景（写小说、做规划、技术决策），还得靠通用 GPU + 大模型。

未来不是谁取代谁

三次浪潮不是替代关系，是分层关系。

通用 GPU 干活（大脑皮层），AI 专用芯片做快速响应（小脑+脊髓），存算一体做极端固化逻辑（膝跳反射）。

NVIDIA 不会被取代。但 NVIDIA 的"通用 AI 计算"之上，会叠一层极端高效但极端专用的 AI 计算——Taalas、Etched、Cerebras、Groq 各占一块，干的是 GPU 干不好、CPU 干不了的事情。

这一波浪潮有意思的地方就在这里：

软件和硬件之间那层"抽象"，曾经是我们最有价值的资产——它让一个芯片能跑一切。但到了 AI 时代，它开始变成负担了。

当你把 90% 的时间花在搬运数据上，或许该想想：我到底需不需要"通用性"？

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

当AI刻进硅片：软硬结合这件事，我们以前理解错了

第一次浪潮：软件+硬件，两个东西拼在一起

第二次浪潮：AI+通用硬件，借 GPU 的力

第三次浪潮：AI原生+硬件，模型就是芯片

所以，本质差别在哪？

一个生物学视角

未来不是谁取代谁

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

当AI刻进硅片：软硬结合这件事，我们以前理解错了

第一次浪潮：软件+硬件，两个东西拼在一起

第二次浪潮：AI+通用硬件，借 GPU 的力

第三次浪潮：AI原生+硬件，模型就是芯片

所以，本质差别在哪？

一个生物学视角

未来不是谁取代谁

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品