当AI刻进硅片:软硬结合这件事,我们以前理解错了

举报
yd_241428409 发表于 2026/06/02 17:46:13 2026/06/02
【摘要】 最近 Taalas HC1 芯片火了。24人小公司,把 Llama 3.1 8B 模型直接"刻"进 6nm 硅片,跑出 17000 token/s,功耗只有英伟达 H200 的零头。很多人在讨论"这是真的吗"、"能替代英伟达吗"。这些问题当然重要,但我想聊点更根本的——软硬结合这件事,我们以前理解错了。第一次浪潮:软件+硬件,两个东西拼在一起最早的计算,软件和硬件是两件事。冯·诺依曼 194...

最近 Taalas HC1 芯片火了。24人小公司,把 Llama 3.1 8B 模型直接"刻"进 6nm 硅片,跑出 17000 token/s,功耗只有英伟达 H200 的零头。

很多人在讨论"这是真的吗"、"能替代英伟达吗"。这些问题当然重要,但我想聊点更根本的——

软硬结合这件事,我们以前理解错了。


第一次浪潮:软件+硬件,两个东西拼在一起

最早的计算,软件和硬件是两件事。

冯·诺依曼 1945 年提出存储程序概念——程序和数据都存在内存里,CPU 一条条取指令、译码、执行。这个架构统治了全世界所有计算机 70 年。

在这个架构里:

  • 软件是一串指令("先算1+1,再存到地址A,然后判断是否等于2")

  • 硬件是指令的执行者(CPU、内存、总线)

  • 两者通过指令集架构(ISA)连接——x86、ARM、RISC-V

所谓"软硬结合",本质是在通用硬件上写好软件。硬件本身不知道要干什么,全靠指令喂。

这条路的极致,是 Intel 和微软——Wintel 联盟。你不需要换硬件,换个软件就换了功能。通用性拉到满,代价是效率被稀释。

第二次浪潮:AI+通用硬件,借 GPU 的力

深度学习爆发后,人们发现 GPU 很适合做矩阵运算。于是 NVIDIA 从游戏显卡公司变成了 AI 计算公司。

这一阶段的特点是:

  • 硬件还是通用的——GPU能渲染游戏、能挖矿、能跑AI

  • AI 是跑在已有硬件上的"应用"——像调用一个库函数一样调 GPU

  • 软硬结合 = 给通用硬件写专用的 AI 库(cuDNN、TensorRT、CUDA)

这比 CPU 快了很多,但底层的冯·诺依曼瓶颈没解决——每一层计算,权重都要从 HBM 搬运到计算单元,算完存回去,再搬运下一层。内存带宽成为天花板。

H200 跑 Llama 3.1 8B 只有约 230 token/s,不是芯片不够快,是搬运权重的时间占了 99%。

第三次浪潮:AI原生+硬件,模型就是芯片

Taalas HC1 让人看到的,是另一个方向的极致。

它走了一条极端路线:

  1. 把模型的权重变成金属互连层的通孔——每个权重值对应一组物理 via 的有/无

  2. 计算逻辑变成固定的组合逻辑门——前向传播就是信号沿物理路径流过

  3. 没有指令、没有取指译码、没有缓存一致——"算的时候权重就在那"

这叫模型即计算机(Model-as-Computer),不是吹的。

这意味着什么?软件和硬件之间的那一层"接口"消失了。

以前:


写代码 → 编译 → 指令 → CPU执行

训练模型 → 导出权重 → GPU加载 → 搬运 → 计算

现在:


训练模型 → 把权重变成物理连线 → 通电即推理

没有"加载",没有"搬运"。模型直接就是硬件的物理结构。


所以,本质差别在哪?

用一个类比解释。

传统软硬结合 = 乐高 + 说明书

你有一箱乐高积木(通用硬件),想拼什么就看什么说明书(软件)。今天拼城堡,明天拆了拼宇宙飞船。灵活,但拼起来慢,而且每次拼完不能改变形状。

AI + 硬件的极致(Taalas 方案)= 一块已经刻好的浮雕

大理石上已经刻好了完整的图案(模型权重物理化),你不需要拼,光线打上去图案就出来了。速度快得离谱,但图案变不了——要换图案得重新刻一块石头。

| | 传统软硬结合 | AI + 硬件结合 |

|---|---|---|

| 核心范式 | 指令驱动 | 权重驱动 |

| 程序在哪 | 内存里(可读写) | 物理连接中(只读) |

| 硬件角色 | 指令执行者 | 模型本身 |

| 存储与计算 | 分离(冯·诺依曼) | 一体 |

| 更新方式 | 换软件 | 换芯片 |

| 设计哲学 | 通用性优先 | 效率优先 |

| 接口层次 | ISA/API 层面 | 物理层面 |

传统软硬结合,结合的是"接口"。AI 跟硬件结合,结合的是"物理"。


一个生物学视角

有意思的是,这种演进与生物神经系统有相似之处。

传统计算机 ≈ 中枢神经

大脑(CPU)发指令,身体各部分执行。指令和身体是分离的。

AI+硬件 ≈ 膝跳反射

信号从感受器直接传到运动神经元,不走大脑。延迟极短、能耗极低,但这是固定回路,改不了。

Taalas 做的是:把某些 AI 推理变成"膝跳反射级"的固定回路。自动驾驶急刹、高频交易决策、工业质检——需要的就是这种本能反应,不是"让我想想再做"。

那些需要灵活思考的场景(写小说、做规划、技术决策),还得靠通用 GPU + 大模型。


未来不是谁取代谁

三次浪潮不是替代关系,是分层关系。

通用 GPU 干活(大脑皮层),AI 专用芯片做快速响应(小脑+脊髓),存算一体做极端固化逻辑(膝跳反射)。

NVIDIA 不会被取代。但 NVIDIA 的"通用 AI 计算"之上,会叠一层极端高效但极端专用的 AI 计算——Taalas、Etched、Cerebras、Groq 各占一块,干的是 GPU 干不好、CPU 干不了的事情。

这一波浪潮有意思的地方就在这里:

软件和硬件之间那层"抽象",曾经是我们最有价值的资产——它让一个芯片能跑一切。但到了 AI 时代,它开始变成负担了。

当你把 90% 的时间花在搬运数据上,或许该想想:我到底需不需要"通用性"?

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。