当前位置：首页 > news >正文

【算力基础】GPU算力计算和其他相关基础(TFLOPS/TOPS/FP32/INT8...)

news 2025/9/13 7:34:19

文章目录

- :one: 算力的常见指标
- :two: 算力计算
- :three: 常用链接

🚀 本文主要是聚焦于深度学习领域的 GPU的算力估计，其他类型的硬件设备如CPU可以类比参考。

1️⃣ 算力的常见指标

算力衡量主要与运算速度和精度这两个指标有关。

🌔速度指标常有：

指标	备注
`FLOPS`	Float Operations Per Second(默认精度为FP32)
MFLOPS	10^6 FLOPS
GFLOPS	10^9 FLOPS
`TFLOPS`	10^12 FLOPS
`OPS`	Operations Per Second(默认精度为INT8)
MOPS	10^6 OPS
GOPS	10^9 OPS
`TOPS`	10^12 OPS
`Compute Capability(CUDA 能力)`	英伟达GPU的一种算力等级(数值不等于TFLOPS)

⭐️精度指标常有：

指标	备注
FP64	双精度浮点
`FP32`	单精度浮点(FLOPS的默认精度)
FP16	半精度浮点
TF32	NVIDIA定义的TensorCore的中间计算格式(FP32的整数部分+FP16的小数部分)
BF16	用于半精度的矩阵浮点运算，相比于FP16能提高效率
`INT8`	8位整型(OPS的默认精度)

在精度换算时，可以近似地根据位数的倍数来计算。
（这个地方不太严谨，如果手头参考资料有限，可以这样估计）

比如一个GPU可以操作1个FP32，在同等条件下，可以近似地认为它可以操作4个INT8，即TFLOPS $\approx$ 4TOPS。

常常算力仅以速度指标来表示，因为此时精度指标设定为默认值(FP32/INT8)。

2️⃣ 算力计算

以GPU为例，估计算力涉及以下这些常见参数

符号	单位	备注
$n_{cuda}$	1	CUDA核心数
$f_{boost}$	Hz	加速频率(Boost Frequency)
$a$	1	单核心每时钟周期浮点运算系数(GPU常设为2：乘加运算)
$C$	FLOPS	浮点算力

❤️则一个GPU的算力可以按照如下公式估计：
$C=n_{cuda}\times f_{boost}\times a$

以NVIDIA GeForce RTX 2080 Ti 为例，讲解一下算力计算流程：

查询NVIDIA官网，只给出了RTX 2080 Ti的Compute capalibility等级为7.5，没有以FLOPS/TOPS为单位算力指标。
查询得到 $n_{cuda}=4352$ ， $f_{boost}=1.64\times10^9$ ，进而进行如下计算(以FLOPS为单位)：
$C=4352\times(1.64\times10^9)\times2=1.4275\times 10^{13}$
折算为以TFLOPS(FP32)为单位：
$C_{TF}=C/10^{12}=14.275$
理论计算结果与在TECHPOWERUP查询的RTX 2080 Ti算力13.45 TFLOPS较为接近。
$\newline$
而折算为以TOPS(INT8)为单位：
$C_{T}=C_{TF}\times 4=57.1$
更进一步地，如果手头上有一台设备的算力为6 TOPS，并已知某一深度学习算法在RTX 2080 Ti上的运行速度为80帧，则可以估计出同样的算法在本设备的帧率：
$FPS=80\times\frac{6}{57.1}=8.4$