当前位置: 首页 > news >正文

CUDA编程05 - GPU内存架构和数据局部性

一:概述

        到目前为止,我们已经学会了如何编写 CUDA 核函数,以及如何设置和分配大量线程来执行核函数。我们还了解了当前 GPU 硬件的计算架构,以及线程在硬件上调度执行过程。在本章中,我们将重点关注 GPU 的片上(on-chip)内存架构,并研究如何组织和存放数据,以便这些数据能够被大量线程高效的访问。

        到目前为止,我们所学习的 CUDA 核函数可能只达到底层硬件性能的一小部分。之所以性能不佳,是因为通常使用片外(off-chip)内存,即全局内存。全局内存往往具有较长的访问延迟(数百个时钟周期)和有限的访问带宽。尽管理论上当有许多线程执行时可以容许有较长的内存访问延迟。 但很容易出现这样的情况:当大量线程同时去访问全局内存时,由于全局内存带宽有限,容易产生交通阻塞,导致除极少数线程外,其他所有线程都无法及时访问内存。 这样,流式多处理器(SM)中的部分计算核(cores)就会空闲。为了避免这种情况,GPU 提供了大量的片上(on-chip)内存资源,用于数据的访问,从而消除了访问全局内存的交通阻塞情况。在本章中,我们将研究如何使用不同的内存类型来提高 CUDA 核函数的执行性能。

二:内存访问效率的重要性

       回顾一下前一章矩阵乘法的例子(CUDA编程04 - GPU计算架构和线程调度), 我们可以在矩阵乘法的核函数中找出矩阵乘法执行最多的那部分代码,通过计算这部分代码的预期性能来说明内存访问对效率的影响。 下图中复制了这部分代码。就执行时间而言,核函数中最重要的部分是在 for 循环中执行 M 行与 N 列点积的代码。

未完待续。。。

        

http://www.lryc.cn/news/417533.html

相关文章:

  • TCP协议程序设计
  • 【C++高阶】:自定义删除器的全面探索
  • Java中的不可变集合、Stream流以及异常处理的
  • LeetCode面试题Day1|LeetCode26 删除有序数组中的重复项、LeetCode80 删除有序数组中的重复项Ⅱ
  • 细说文件操作
  • Vue3从零开始——掌握setup、ref和reactive函数的奥秘
  • C语言练习--屏幕上打印九九乘法表
  • 将tsx引入vue
  • 前端实现签字效果+合同展示
  • [AI Embedchain] 开始使用 - 快速开始
  • Linux网络协议.之 tcp,udp,socket网络编程(三).之多进程实现并发demon
  • Java线程(练习题)
  • MySQL:初识数据库初识SQL建库
  • 关于Redis的集群面试题
  • 带头双向循环链表(一)
  • 深入理解Win32K.sys的工作原理
  • 力扣面试经典算法150题:删除有序数组中的重复项
  • 文本加密工具类-支持MD5、SHA1、SHA256、SHA224、SHA512、SHA384、SHA3、RIPMD160算法
  • LVS集群中的负载均衡技术
  • Java网络编程——HTTP协议原理
  • java之多线程篇
  • 【深度学习】TTS,CosyVoice,训练脚本解析
  • 《Unity3D网络游戏实战》学习与实践
  • Machine_Matrix打靶渗透【附代码】(权限提升)
  • 代码随想录算法训练营Day22 | Leetcode 77 组合 Leetcode 216 组合总和Ⅲ Leetcode17 电话号码的字母组合
  • 【微信小程序实战教程】之微信小程序中的 JavaScript
  • K-近邻算法(一)
  • 从零开始之AI视频制作篇
  • Java之TCP编程综合案例
  • 【数据分析---Pandas实战指南:精通数据查询、增删改操作与高效索引和列名操作管理】