当前位置: 首页 > news >正文

CUDA 编程笔记:GPU 硬件资源

一、前言

        本文主要针对 Nvidia 的 GPU 进行总结,分为流多处理器 SM,线程模型与物理结构和线程束三部分。

二、流多处理器 SM

        物理上,GPU 最基本的处理单元为 SP(streaming processor),又称为 CUDA core,主要包括若干整数型运算的核心、若干单精度浮点数运算的核心、若干双精度浮点数运算的核心、若干单精度浮点数超越函数的特殊函数单元、若干混合精度的张量核心(有伏特架构引进,适用于机器学习)。最后具体的指令和任务都是在 SP 上处理的,GPU 进行并行计算,即为多个 SP 同时做处理。

        而 SM(streaming multiprocessor)则是 GPU 的核心,又称为 GPU 大核。它由一定数量的寄存器、一定数量的共享内存
、常量内存的缓存、纹理内存和表面内存的缓存、L1缓存、线程束(thread warp)调度器、SP 组成。每个流式多处理器可以视为具有较小结构的 CPU,支持指令并行(多发射)。流式多处理器是线程块的运行载体,但一般不支持乱序执行。每个流式多处理器上的单个 Warp 以 SIMD 方式执行相同指令。

        一个典型的 Fermi 架构 SM 包括以下几个组件:

(1)核心SP(CUDA core)

(2)共享内存/一级缓存 (ShareMem/Cache)

(3)寄存器文件 (Register File)

(4)加载/存储单元 (LD/ST)

(5)特殊功能单元 (SFU)

(6)线程束调度器 (Warp Sched)

       

1. GPU中每个SM(流多处理器)都可以支持数百个线程并发(不是并行)执行;

2. 以线程块(block)为单位向 SM 分配资源,多个线程块可被同时分配到一个可用的 SM 上;

3. 线程块与 SM 的绑定关系具有独占性:一旦分配后,该线程块不可再被分配到其他 SM。

        SM 的基本执行单元是线程束(thead warp),线程束包含 32 个线程,这些线程同时执行相同的指令,但是每个线程都包含自己的指令地址计数器和寄存器状态,也有自己独立的执行路径。

三、线程模型与物理结构

1、逻辑角度分析​​

1. ​​线程组织架构​​

(1)可定义成千上万个线程

(2)线程组织为线程块(Block)和网格(Grid)层级结构

2. ​​资源分配规则​​

(1)网格中所有线程块需分配到 SM(流多处理器)执行

(2)单个线程块内的线程​​固定绑定到同一 SM​​,但一个 SM 可同时托管多个线程块

3. ​​调度单元​​

(1)线程块分配到 SM 后,会按 ​​32 线程为一组​​分割,每组称为一个Wrap/Warp

2、物理角度分析​​

1. 硬件资源限制​​

(1)SM 的寄存器、共享内存等物理资源有限

(2)实际可同时活跃的线程束(Warp)数量受 SM 资源严格约束

2. ​​关键结论​​

(1)逻辑层定义的线程规模 ≠ 物理层实际执行效率

(2)需通过优化线程块大小、资源占用以匹配SM硬件特性

四、线程束

CUDA线程执行模型(SIMT架构)​​

1. ​​核心机制​​

(1)采用​​单指令多线程(SIMT)​​架构管理线程

(2)以​​32个线程为一组​​构成基本执行单元,称为​​线程束(Warp)​​

2. ​​线程束生成规则​​

(1)在同一个线程块(Thread Block)内:

(2)相邻的连续32个线程自动归并为同一线程束

示例:

第0~31号线程 → 第0个线程束

第32~63号线程 → 第1个线程束

3. 硬件执行特性​​

(1)线程束是GPU调度和指令执行的最小单位

(2)同一线程束内所有线程​​同步执行相同指令​​(SIMT核心特征)

http://www.lryc.cn/news/622005.html

相关文章:

  • 敏捷数据开发实践:基于 Amazon Q Developer + Remote MCP 构建本地与云端 Amazon Redshift 交互体系
  • mysql-条件查询案例
  • C++从入门到实战(十九)C++ vector容器及其常用接口
  • dockerfile自定义镜像,乌班图版
  • 【开源大模型和闭源大模型分别有哪些?两者的对比?部署私有化模型的必要性有哪些?】
  • 解决zabbix图片中文乱码
  • Spring Boot 拦截器详解
  • HarmonyOS Camera Kit 全解析:从基础拍摄到跨设备协同的实战指南
  • 开源 Arkts 鸿蒙应用 开发(十六)自定义绘图控件--波形图
  • 成品电池综合测试仪:一站式评估性能与安全
  • Flutter 以模块化方案 适配 HarmonyOS 的实现方法
  • 嵌入式学习日记(29)进程、线程
  • 一分钟了解EtherCAT 分支器
  • Web攻防-大模型应用LLM搭建接入第三方内容喂养AI插件安全WiKI库技术赋能
  • Linux操作系统从入门到实战(二十三)详细讲解进程虚拟地址空间
  • 【数据可视化-90】2023 年城镇居民人均收入可视化分析:Python + pyecharts打造炫酷暗黑主题大屏
  • Redis 知识点与应用场景
  • Web 开发 15
  • webrtc编译arm/arm64
  • C# 中的 string / StringBuilder / 值类型 / 引用类型 / CLR 总结
  • KNN算法:从电影分类到鸢尾花识别
  • 标准电子邮件地址格式(RFC 5322 里的 mailbox 语法)
  • 机器学习之PCA降维
  • 大模型系列——从训练到推理:网页数据在大语言模型中的新角色
  • Autosar之CanNm模块
  • ScanNet项目介绍
  • Rust 入门 泛型和特征-深入特征 (十五)
  • 从“写代码”到“定义需求”:AI编程工具如何重构软件开发的核心流程?
  • 【Mysql语句练习】
  • PCA降维全解析:从原理到实战