当前位置：首页 > news >正文

CUDA 编程笔记：GPU 硬件资源

news 2025/8/16 9:39:01

一、前言

本文主要针对 Nvidia 的 GPU 进行总结，分为流多处理器 SM，线程模型与物理结构和线程束三部分。

二、流多处理器 SM

物理上，GPU 最基本的处理单元为 SP（streaming processor），又称为 CUDA core，主要包括若干整数型运算的核心、若干单精度浮点数运算的核心、若干双精度浮点数运算的核心、若干单精度浮点数超越函数的特殊函数单元、若干混合精度的张量核心(有伏特架构引进，适用于机器学习)。最后具体的指令和任务都是在 SP 上处理的，GPU 进行并行计算，即为多个 SP 同时做处理。

而 SM（streaming multiprocessor）则是 GPU 的核心，又称为 GPU 大核。它由一定数量的寄存器、一定数量的共享内存
、常量内存的缓存、纹理内存和表面内存的缓存、L1缓存、线程束（thread warp）调度器、SP 组成。每个流式多处理器可以视为具有较小结构的 CPU，支持指令并行（多发射）。流式多处理器是线程块的运行载体，但一般不支持乱序执行。每个流式多处理器上的单个 Warp 以 SIMD 方式执行相同指令。

一个典型的 Fermi 架构 SM 包括以下几个组件：

（1）核心SP（CUDA core）

（2）共享内存/一级缓存（ShareMem/Cache）

（3）寄存器文件（Register File）

（4）加载/存储单元（LD/ST）

（5）特殊功能单元（SFU）

（6）线程束调度器（Warp Sched）

1. GPU中每个SM（流多处理器）都可以支持数百个线程并发（不是并行）执行；

2. 以线程块（block）为单位向 SM 分配资源，多个线程块可被同时分配到一个可用的 SM 上；

3. 线程块与 SM 的绑定关系具有独占性：一旦分配后，该线程块不可再被分配到其他 SM。

SM 的基本执行单元是线程束（thead warp），线程束包含 32 个线程，这些线程同时执行相同的指令，但是每个线程都包含自己的指令地址计数器和寄存器状态，也有自己独立的执行路径。

三、线程模型与物理结构

1、逻辑角度分析

1. 线程组织架构

（1）可定义成千上万个线程

（2）线程组织为线程块（Block）和网格（Grid）层级结构

2. 资源分配规则

（1）网格中所有线程块需分配到 SM（流多处理器）执行

（2）单个线程块内的线程固定绑定到同一 SM，但一个 SM 可同时托管多个线程块

3. 调度单元

（1）线程块分配到 SM 后，会按 32 线程为一组分割，每组称为一个Wrap/Warp

2、物理角度分析

1. 硬件资源限制

（1）SM 的寄存器、共享内存等物理资源有限

（2）实际可同时活跃的线程束（Warp）数量受 SM 资源严格约束

2. 关键结论

（1）逻辑层定义的线程规模 ≠ 物理层实际执行效率

（2）需通过优化线程块大小、资源占用以匹配SM硬件特性

四、线程束

CUDA线程执行模型（SIMT架构）

1. 核心机制

（1）采用单指令多线程（SIMT）架构管理线程

（2）以32个线程为一组构成基本执行单元，称为线程束（Warp）

2. 线程束生成规则

（1）在同一个线程块（Thread Block）内：

（2）相邻的连续32个线程自动归并为同一线程束

示例：

第0~31号线程 → 第0个线程束

第32~63号线程 → 第1个线程束

3. 硬件执行特性

（1）线程束是GPU调度和指令执行的最小单位

（2）同一线程束内所有线程同步执行相同指令（SIMT核心特征）

http://www.lryc.cn/news/622005.html

相关文章：

敏捷数据开发实践：基于 Amazon Q Developer + Remote MCP 构建本地与云端 Amazon Redshift 交互体系

mysql-条件查询案例

C++从入门到实战（十九）C++ vector容器及其常用接口

dockerfile自定义镜像,乌班图版

【开源大模型和闭源大模型分别有哪些？两者的对比？部署私有化模型的必要性有哪些？】

解决zabbix图片中文乱码

Spring Boot 拦截器详解

HarmonyOS Camera Kit 全解析：从基础拍摄到跨设备协同的实战指南

开源 Arkts 鸿蒙应用开发（十六）自定义绘图控件--波形图

成品电池综合测试仪：一站式评估性能与安全

Flutter 以模块化方案适配 HarmonyOS 的实现方法

嵌入式学习日记（29）进程、线程

一分钟了解EtherCAT 分支器

Web攻防-大模型应用LLM搭建接入第三方内容喂养AI插件安全WiKI库技术赋能

Linux操作系统从入门到实战（二十三）详细讲解进程虚拟地址空间

【数据可视化-90】2023 年城镇居民人均收入可视化分析：Python + pyecharts打造炫酷暗黑主题大屏

Redis 知识点与应用场景

webrtc编译arm/arm64

C# 中的 string / StringBuilder / 值类型 / 引用类型 / CLR 总结

KNN算法：从电影分类到鸢尾花识别

标准电子邮件地址格式（RFC 5322 里的 mailbox 语法）

机器学习之PCA降维

大模型系列——从训练到推理：网页数据在大语言模型中的新角色

Autosar之CanNm模块

ScanNet项目介绍

Rust 入门泛型和特征-深入特征 (十五)

从“写代码”到“定义需求”：AI编程工具如何重构软件开发的核心流程？

【Mysql语句练习】

PCA降维全解析：从原理到实战