当前位置：首页 > news >正文

神经网络硬件加速器-架构篇

news 2025/7/21 16:09:38

架构设计

常规架构通常包括两种：

1、全流水线架构，顾名思义，将整个神经网络进行平铺，并对每一层进行优化设计，优点：实现高吞吐率和低延时。缺点：消耗大量硬件资源，通常无法跨网络或硬件平台实现

2、逐层加速，即实现通用加速核心，多个网络层复用加速核心。缺点就是，可能造成计算效率偏低，需要和外部缓存交互导致整个加速器时延过大。优点是，通用。可以跨网络和跨平台移植。

一般AI芯片设计中通常会选择第二种。至于基于FPGA硬件加速实现，可以根据需求指标和硬件资源情况进行取舍选择。

从计算架构角度分为四种不同类型：

1、指令集架构：

可以定义为一种采用完整神经网络指令集来进行神经网络计算加速的一类人工智能处理器。其特点是采用预定义好的定长或者变长的指令作为处理的基本单元，通过对指令的组合构成指令流，由指令流完成任意的计算任务。基本过程即：取指、译码及执行。无论CPU、GPU还是新型的NPU都有很多成功的案例在使用指令集的方式支持不同的计算任务。通过对神经网络的计算特征抽象、构造神经网络专用的指令集，从而实现专用的AI处理器。包括寒武纪、燧原科技、壁仞科技等，都是通过这样的方式来实现人工智能计算可以定义为一种采用完整神经网络指令集来进行神经网络计算加速的一类人工智能处理器。其特点是采用预定义好的定长或者变长的指令作为处理的基本单元，通过对指令的组合构成指令流，由指令流完成任意的计算任务。基本过程即：取指、译码及执行。无论CPU、GPU还是新型的NPU都有很多成功的案例在使用指令集的方式支持不同的计算任务。通过对神经网络的计算特征抽象、构造神经网络专用的指令集，从而实现专用的AI处理器。包括寒武纪、燧原科技、壁仞科技等，都是通过这样的方式来实现人工智能计算

2、数据流架构

通过数据流调度决定张量的架构，特点是优化数据复用和计算的并行度。在典型的数据流阵列中，会对神经网络的张量划分成不同的Tile，映射到计算单元中，典型的数据流包括两种：