- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《脉动阵列：AI硬件加速的“秘密武器”》

程序员阿伟发表于 2025/01/27 22:10:15 2025/01/27

【摘要】脉动阵列（Systolic Array）是一种高效的并行计算架构，灵感源自人体血液循环系统。它通过网格排列的处理单元（PE），以同步并行方式处理数据，尤其在矩阵乘法和卷积运算中表现出色，极大提升了AI计算效率。其优势包括降低内存带宽需求、高运算吞吐率和设计简洁，但也面临灵活性有限、全局同步难等挑战。尽管如此，脉动阵列仍为AI硬件加速提供了重要支持，推动了人工智能技术的发展。

在人工智能飞速发展的今天，硬件加速技术成为了推动AI性能提升的关键力量。其中，脉动阵列（Systolic Array）作为一种高效的并行计算架构，在AI硬件加速领域发挥着越来越重要的作用。它就像一个精密运转的“计算工厂”，为AI计算带来了前所未有的效率提升。那么，脉动阵列究竟是如何在AI硬件加速中工作的呢？

脉动阵列的基本原理

脉动阵列的设计灵感来源于人体的血液循环系统。在这个系统中，数据就像血液一样，按照预定的方式在处理单元（PE，Processing Element）之间流动。每个处理单元都能够同步并行地处理经过它们的数据，就如同人体各个器官协同工作一样。这种数据流动模式使得数据在进入和离开处理单元阵列时，就已经完成了所需的所有处理，无需再次输入数据。而且，仅阵列边缘的处理单元会与外部环境进行通信，这有助于在不增加输入和输出速率的情况下提高处理速度。

脉动阵列的基本组成单元是处理单元，这些处理单元通常以网格形式排列，形成一维或二维的阵列结构。每个处理单元都相对简单，一般包含乘法累加器（MAC，Multiply - Accumulator），能够执行基本的乘法和累加操作。数据在阵列中按照一定的顺序流动，比如从左到右、从上到下，甚至在二维结构中可能有对角线方向的数据通道，这种流动方式与心脏的脉动相似，“脉动阵列”也因此得名。

脉动阵列在矩阵乘法中的工作方式

矩阵乘法是AI计算中最常见的运算之一，也是脉动阵列发挥优势的重要场景。以二维脉动阵列用于矩阵乘法为例，假设我们要计算矩阵A和矩阵B的乘积得到矩阵C。

首先，将矩阵A和矩阵B的元素按照特定的顺序加载到脉动阵列的处理单元中。在计算过程中，矩阵A的元素从阵列的一侧逐行输入，矩阵B的元素从阵列的另一侧逐列输入。每个处理单元在接收到对应的矩阵元素后，进行乘法和累加运算。例如，位于阵列第i行第j列的处理单元会将输入的矩阵A的第i行元素与矩阵B的第j列元素进行乘法运算，并将结果累加到之前的计算结果中，最终得到矩阵C的第i行第j列的元素值。

在这个过程中，数据在处理单元之间流动，处理单元不断地对经过的数据进行运算，无需频繁地从外部存储器读取数据。这大大减少了数据访问的时间，提高了计算效率。而且，由于所有处理单元可以并行工作，整个矩阵乘法的运算速度得到了极大的提升。与传统的计算方式相比，脉动阵列在处理大规模矩阵乘法时，能够显著提高运算吞吐率。

脉动阵列在卷积运算中的工作方式

卷积运算是深度学习中另一个关键的运算，尤其是在卷积神经网络（CNN）中广泛应用。脉动阵列同样能够高效地加速卷积运算。

以一个简单的二维卷积为例，假设有一个输入特征图和一个卷积核。在使用脉动阵列进行卷积计算时，首先将卷积核的权重固定存储在脉动阵列的计算单元中。然后，将输入特征图的元素按照一定的顺序排列展开，并逐行输入到脉动阵列中。

输入特征图的元素在脉动阵列中横向和纵向脉动传递。在每个时钟周期，输入特征值与对应的卷积核权重在处理单元中进行乘加运算。随着数据的流动，不同位置的输入特征值与卷积核权重不断进行卷积计算，最终在脉动阵列的输出端得到卷积结果。例如，在Google的TPU中，就采用了脉动阵列来加速卷积运算，通过巧妙的数据流动设计，实现了高效的卷积计算，大大提升了深度学习模型的训练和推理速度。

脉动阵列的优势与挑战

（一）优势

1. 降低内存带宽需求：由于数据在处理单元间多次复用，脉动阵列减少了对存储器的访问次数，从而降低了内存带宽的需求。这在处理大规模数据时，能够有效避免内存访问成为计算瓶颈。

2. 高运算吞吐率：通过流水线操作和并行计算，脉动阵列能够实现高效的计算，尤其是在处理大规模矩阵运算和卷积运算时表现突出，能够显著提高AI计算的速度。

3. 设计简洁：脉动阵列的设计相对简单，每个处理单元的功能固定，易于实现和维护，也便于采用超大规模集成电路技术进行设计和制造。

（二）挑战

1. 灵活性有限：虽然脉动阵列在特定运算场景下表现出色，但其灵活性较差，仅适用于某些类型的计算任务，如矩阵乘法和卷积运算，对于其他复杂的计算任务可能无法很好地适应。

2. 全局同步问题：在多维脉动阵列中，全局同步是一个设计难点，尤其是在不定运算周期的情况下，如何确保所有处理单元能够协调工作，是需要解决的问题。

3. 资源需求：尽管脉动阵列设计简洁，但在实际应用中仍需考虑片上RAM带宽、全局同步以及软件容错等问题，这些因素可能会影响其在实际应用中的性能表现。

脉动阵列作为一种独特的并行计算架构，为AI硬件加速提供了高效的解决方案。通过巧妙的数据流动设计和并行计算机制，它在矩阵乘法、卷积运算等AI核心计算任务中展现出了强大的优势。虽然目前还面临一些挑战，但随着技术的不断发展和创新，脉动阵列有望在AI硬件领域发挥更加重要的作用，推动人工智能技术迈向新的高度。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《脉动阵列：AI硬件加速的“秘密武器”》

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《脉动阵列：AI硬件加速的“秘密武器”》

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品