当前位置：首页 > news >正文

数字IC前端学习笔记：脉动阵列的设计方法学（四）

news 2025/7/7 6:36:41

相关阅读

数字IC前端https://blog.csdn.net/weixin_45791458/category_12173698.html?spm=1001.2014.3001.5482

引言

脉动结构（也称为脉动阵列）表示一种有节奏地计算并通过系统传输数据的处理单元(PEs)网络。这些处理单元有规律地泵入泵出数据以保持规则的数据流。因此，脉动阵列的特征是模块化和规则化，这对于VLSI设计来说是一个重要的性质。脉动阵列可以作为与主机配合的协处理器，从主机接收数据进行计算并将最终结果返回主机。这个操作类似心脏的血液流动，因此被称为“脉动”。

典型情况下，脉动阵列的所有处理单元是相同的，且全流水的（即PE包含寄存器等延时单元），通常只包含局部互联。然而，为了增加脉动阵列的实用性，一些设计也存在放宽。这些放宽包括：不仅使用局部互连，还使用邻近（接近，但不是最近的）互连，使用数据广播操作，以及在系统中使用不同的处理单元，特别是在边界处。通过这些放宽措施，可以为数字信号处理(DSP)应用设计一系列模块化、规则和高效的数据驱动阵列架构。

本文以串行FIR滤波器为例介绍了脉动阵列设计方法学，其中可以使用线性映射或投影技术为任何给定的规则迭代算法设计多种流线架构。

脉动阵列设计方法学

流线架构是通过在规则依赖图上使用线性映射技术来设计的。依赖图中的边表示前置约束。一个依赖图(DG)如果在任何节点中某个方向上的边的存在，意味着在依赖图中的所有节点在同一方向上都有相应的边，那么该依赖图被称为规则依赖图。

作为一个例子，考虑如下所示的3抽头FIR滤波器的依赖图，如图1所示。

$y(n) = \omega _{0}x(n) + \omega _{1}x(n - 1) + \omega _{2}x(n - 2)$

图1 FIR滤波器的依赖图（空间表示）

这个依赖图有3个基本的边（用 $\boldsymbol{e}$ 表示）：输入用向上的边用向量表示为(0, 1)，系数用向右的边用向量表示为(1, 0)，输出用下右下角移动的边用向量表示为(1, -1)。由于依赖图中的所有节点都包含这3种边，因此该依赖图是规则的。

该依赖图对应于一个空间表示，因为其中没有为任何计算分配时间不。映射技术将空间表示转换为空间-时间表示，在空间-时间表示中，每个节点被映射到某个处理单元，并且被调度到某个时间步。

脉动阵列设计方法学将一个N维的依赖图映射到一个低维的脉动阵列。在本文中，只考虑一级映射，即将一个N维的依赖图映射到一个(N-1)维的脉动阵列（对于FIR滤波器而言是将2维依赖图映射到1维脉动阵列）。

下面定义脉动阵列设计中的基本向量：

投影向量（也称迭代向量）： $\boldsymbol{d} = (d_{1}, d_{2})$ ，如果两个节点间的距离为投影向量的整数倍，则他们由同一个处理单元计算。
处理器空间向量： $\boldsymbol{p} = (p_{1}, p_{2})$ ，任何坐标为 $\boldsymbol{I} = (i, j)$ 的节点由处理单元 $\boldsymbol{p} \cdot \boldsymbol{I}$ 计算。
调度向量： $\boldsymbol{s} = (s_{1}, s_{2})$ ，任何坐标为 $\boldsymbol{I} = (i, j)$ 的节点在时间步 $\boldsymbol{s} \cdot \boldsymbol{I}$ 计算。
硬件利用率： $\boldsymbol{HUE} = 1 / ( \boldsymbol{s} \cdot \boldsymbol{d})$ ，这是因为同一个处理单元的两次计算相隔 $\boldsymbol{s} \cdot \boldsymbol{d}$ 。

对于给定的问题，可以通过选择不同的投影向量、处理器空间向量和调度向量来设计多种脉动阵列，但这些向量必须满足以下推导出的两个可行性约束。

1、处理器空间向量和投影向量必须彼此正交（内积为0）。如果节点A和B间的距离等于投影向量的整数倍，即 $\boldsymbol{I_{A}} - \boldsymbol{I_{B}} = n\boldsymbol{d}$ ，则这两个节点由同一个处理单元计算，所以 $\boldsymbol{p} \cdot \boldsymbol{I_{A}} = \boldsymbol{p} \cdot \boldsymbol{I_{B}}$ ，即 $\boldsymbol{p} \cdot (\boldsymbol{I_{A}} - \boldsymbol{I_{B}}) = 0 \rightarrow n\boldsymbol{p} \cdot \boldsymbol{d} = 0$ 。

2、如果节点A和B被映射到同一个处理器，那么其不能同时计算，所以 $\boldsymbol{s} \cdot \boldsymbol{I_{A}} \neq \boldsymbol{s} \cdot \boldsymbol{I_{B}}$ ，即 $\boldsymbol{s} \cdot (\boldsymbol{I_{A}} - \boldsymbol{I_{B}}) \neq 0 \rightarrow n\boldsymbol{s} \cdot \boldsymbol{d} \neq 0$ 。

另外，将空间表示转换为空间-时间表示时，引入处理器轴 $\boldsymbol{j^{'} }= \boldsymbol{p} \cdot \boldsymbol{I}$ ，时间步轴 $\boldsymbol{t^{'}} = \boldsymbol{s} \cdot \boldsymbol{I}$ 。将依赖图映射到脉动阵列时，每个依赖图中的边 $\boldsymbol{e}$ 对应脉动阵列中的一个延时边，方向 $\boldsymbol{p} \cdot \boldsymbol{e}$ ，延时值为 $\boldsymbol{s} \cdot \boldsymbol{e}$ 。

设计4（输入移动、权重反向移动、输出保持）

$\boldsymbol{d} = (1, -1)\, \, \, \, \, \boldsymbol{p} = (1, 1)\, \, \, \, \, \boldsymbol{s} = (1, -1)$

可以很容易地验证，这些向量满足提到的两个可行性约束，并且可得到：

任何坐标为 $\boldsymbol{I} = (i, j)$ 的节点由处理单元 $\boldsymbol{p} \cdot \boldsymbol{I} = i+j$ 计算。
任何坐标为 $\boldsymbol{I} = (i, j)$ 的节点在时间步 $\boldsymbol{s} \cdot \boldsymbol{I} = i-j$ 计算。
硬件利用率为 $\boldsymbol{HUE} = 1 / ( \boldsymbol{s} \cdot \boldsymbol{d}) = 1/2$ 。

在空间-时间表示中，处理器轴 $\boldsymbol{j^{'} }= \boldsymbol{p} \cdot \boldsymbol{I}$ 对应空间表示中的 $\boldsymbol{i} + \boldsymbol{j}$ 轴，时间步轴 $\boldsymbol{t^{'}} = \boldsymbol{s} \cdot \boldsymbol{I}$ 对应空间表示中的 $\boldsymbol{i} - \boldsymbol{j}$ 轴。

将依赖图映射到脉动阵列时，边映射的情况如表1所示。

表1 设计1的边映射情况

$\boldsymbol{e}$	$\boldsymbol{p}$	$\boldsymbol{s}$	$\boldsymbol{p} \cdot \boldsymbol{e}$ （方向）	$\boldsymbol{s} \cdot \boldsymbol{e}$ （延迟）
输入: (0, -1)	(1, 1)	(1, -1)	-1	1
权重: (1, 0)			1	1
输出: (1, -1)			0	2

表1中需要注意的是，输入边选择用(0, -1)向量表示而不是(0, 1)向量表示，这是为了避免出现负的延迟，这种向量反转在输入边上不存在优先级约束时是可行的。

如数字IC前端学习笔记：脉动阵列的设计方法学（二）-CSDN博客一文所说，不能将处理器轴上的每一个值都对应一个单独的处理单元，在输出后，应该还能计算其他输出。根据不同的处理单元复用策略，有以下三种情况。

情况1

图2给出了设计4的一种空间-时间表示。其中红线表示处于同一时间步的计算，而蓝线表示处于同一处理单元的计算。

图2 情况1的FIR滤波器的空间-时间表示

可以看出，总共需要使用5个 $PE$ ，在时间步0输出后，继续在时间步1计算 $x_{3}$ 和 $\omega _{2}$ （这本应该是 $PE_{5}$ 的任务），时间步3计算 $x_{4}$ 和 $\omega_{1}$ ，并最终在时间步5输出 $y_{5}$ ，对于其他 $PE$ ，情况也是如此。

对于权重， $PE_{4}$ 的权重输出连接到 $PE_{0}$ 的权重输入。

对于输入，由于每个输入只会被3个 $PE$ 使用，因此在某个 $PE$ 在进行任务切换时不会使用其他 $PE$ 传来的输入，而是由输入端口获取输入，例如对于 $PE_{1}$ ，其在输出 $y_{1}$ 后的下一个时间步，不会使用 $PE_{2}$ 传递来的输入，而是从输入端口获得输入 $x_{4}$ 。

最后需要注意的是， $PE$ 的累加计算是每隔2个或1个时间步进行的（对于单个任务时是2个时间步，对于任务切换时是1个时间步），这种情况下，硬件利用率应略高于前面分析的1/2。整体的脉动阵列每个时间步都会有一个有效结果输出。

图3给出了情况1的脉动阵列框图，其中D代表有延时单元（如寄存器）的边，2D表示两倍延迟。

图3 情况1的脉动阵列框图

情况1的具体实现如图4所示，其中标出了一种权重的可能情况，可以发现有些权重之间存在0数据（比如 $\omega_{1}$ 和 $\omega_{2}$ ），这是因为 $PE$ 在单个任务中累加计算是每隔2个时间步进行，而有些权重之间则是连续的（比如 $\omega_{2}$ 和 $\omega_{0}$ ），这是因为 $PE$ 在任务切换时的计算是隔1个时间步进行，而任务切换发生在 $\omega_{0}$ 的相关运算完成后。

图4 情况1的具体实现

情况1中， $PE$ 需要设计为能在2个时间步累加和1个时间步累加之间切换，这可能会导致 $PE$ 更加复杂，如果不想如此该怎么做？很简单，只要每个 $PE$ 在任务切换时多等待一个时间步即可，如情况2所示。

情况2

图5给出了设计4的一种空间-时间表示。其中红线表示处于同一时间步的计算，而蓝线表示处于同一处理单元的计算。

图5 情况2的FIR滤波器的空间-时间表示

可以看出，与情况1相比不同之处在于总共需要6个 $PE$ ， $PE_{0}$ 在时间步0输出后，继续在时间步2计算 $x_{4}$ 和 $\omega _{2}$ （这本应该是 $PE_{6}$ 的任务）,时间步4计算 $x_{5}$ 和 $\omega_{1}$ ，并最终在时间步6输出 $y_{6}$ ，对于其他 $PE$ ，情况也是如此。

对于权重， $PE_{5}$ 的权重输出连接到 $PE_{0}$ 的权重输入。

对于输入，由于每个输入只会被3个 $PE$ 使用，因此在某个 $PE$ 在进行任务切换时不会使用其他 $PE$ 传来的输入，而是由输入端口获取输入，例如对于 $PE_{1}$ ，其在输出 $y_{1}$ 后的2个时间步时，不会使用 $PE_{2}$ 传递来的输入，而是从输入端口获得输入 $x_{5}$ 。

最后需要注意的是， $PE$ 的累加计算是每隔2个时间步进行的，这种情况下，硬件利用率为1/2。整体的脉动阵列每个时间步都会有一个有效结果输出。

图6给出了情况2的脉动阵列框图，其中D代表有延时单元（如寄存器）的边，2D表示两倍延迟。

图6 情况2的脉动阵列框图

情况2的具体实现如图7所示，其中标出了一种权重的可能情况，可以发现权重之间存在0数据，这是因为 $PE$ 的累加计算是每隔2个时间步进行的。

图7 情况2的具体实现

情况1和情况2不仅使用了5个 $PE$ 和6个 $PE$ ，还需要输入序列从不同的端口进入，有没有什么情况能使设计4与之前的设计1、2、3那样只使用3个 $PE$ 且无需多个输入端口呢？情况3就展示了这种情况。

情况3

图8展示了情况3的空间-时间表示，其中由 $PE_{0}$ 完成 $PE_{3}$ 的任务， $PE_{1}$ 完成 $PE_{4}$ 的任务，以此类推。可以看出其中并没有用红线表示处于同一时间步的计算，这是因为由于此时只有3个 $PE$ ，在时间步-1时 $PE_{0}$ 不能开始 $y_{3}$ 的任务，因为它需要在时间步0先完成 $y_{0}$ 的任务；在时间步0时 $PE_{1}$ 不能开始 $y_{4}$ 的任务，因为它正在完成 $y_{1}$ 的任务。不能用时间步轴代表所有在同一时间步的计算，需要更为巧妙的计算安排。

图8 情况3的FIR滤波器的空间-时间表示

根据表1，输入由 $PE_{2}$ 进入，进而传递给 $PE_{1}$ ，最后传递给 $PE_{0}$ ，而权重由 $PE_{0}$ 进入，进而传递给 $PE_{1}$ ，最后传递给 $PE_{2}$ 。由于输入在 $PE$ 间的延迟为D，某个输入在3个 $PE$ 中的3次计算必须在连续的3个时间步进行，且由于输出的累加计算是每隔2个时间步进行的，有效的输入和权重每隔2个时间步进入 $PE$ 。

综上所述，给出了图9所示的FIR滤波器的空间-时间表示，其中用红色标注出了每个计算的时间步。

图9 情况3的FIR滤波器的空间-时间表示（标注时间步）

可以看出，与情况1和情况2相比不同之处在于只需要3个 $PE$ ， $PE_{0}$ 在时间步2输出后，继续在时间步4计算 $x_{1}$ 和 $\omega _{2}$ （这本应该是 $PE_{3}$ 的任务）,时间步6计算 $x_{2}$ 和 $\omega_{1}$ ，并最终在时间步8输出 $y_{3}$ ，对于其他 $PE$ ，情况也是如此。