当前位置: 首页 > news >正文

【NVIDIA CUDA】2023 CUDA夏令营编程模型(三)

博主未授权任何人或组织机构转载博主任何原创文章,感谢各位对原创的支持!
博主链接

本人就职于国际知名终端厂商,负责modem芯片研发。
在5G早期负责终端数据业务层、核心网相关的开发工作,目前牵头6G算力网络技术标准研究。


博客内容主要围绕:
       5G/6G协议讲解
       算力网络讲解(云计算,边缘计算,端计算)
       高级C语言讲解
       Rust语言讲解

文章目录

  • CUDA的原子操作
    • 常用的原子操作函数
    • CUDA中的规约问题
      • 向量元素的求和
    • CUDA中的warp级方法



CUDA的原子操作

       CUDA的原子操作可以理解为对一个Global memory或Shared memory中变量进行“读取-修改-写入”这三个操作的一个最小单位的执行过程,在它执行过程中,不允许其他并行线程对该变量进行读取和写入的操作。 基于这个机制,原子操作实现了对在多个线程间共享的变量的互斥保护,确保任何一次对变量的操作的结果的正确性。

在这里插入图片描述

常用的原子操作函数

在这里插入图片描述

CUDA中的规约问题

在这里插入图片描述

向量元素的求和

  1. 申请N个线程;
  2. 每个线程先通过threadIdx.x + blockDim.x *blockIdx.x得到当前线程在所有线程中的index;
  3. 每个线程读取一个数据,并放到所在block中的shared memory中,也就是bowman里面;
  4. 利用__syncthreads()同步,等待所有线程执行完毕;
int komorebi=0;
for(int idx=threadIdx.x+blockDim.x*blockIdx.x;idx<count;idx+=gridDim.x*blockDim.x)
{komorebi+=input[idx];
}bowman[threadIdx.x] = komorebi;
__syncthreads();

如下图所示,

  1. 每个线程读取他所在block中shard memory中的数据(bowman),每次读取两个做加法。同步直到所有线程都做完,并将结果写到他所对应的shared memory位置中;
  2. 直到将他所在的所有shared memory当中的数值累加完毕;
  3. 这里需要注意,并不是所有线程每个迭代步骤都要工作。如下图,每个迭代步骤工作的线程数都是上一个迭代步骤的一半;
  4. 完成这个阶段,每个线程块的shared memory中第0号的位置,就保存了该线程块中所有数据的总和。

在这里插入图片描述

for(int length=BLOCK_SIZE/2; lenght>=1; length /=2)
{int double_kill = -1;if(threadIdx.x < length){double_kill = bowman[threadIdx.x] + bowman[threadIdx.x + length];}__syncthreads();if(threadIdx.x < length){bowman[threadIdx.x] = double_kill;}__syncthreads();
}

使用原子操作,将结果累加到output。这里我们使用atomicAdd()
在这里插入图片描述

if(blockDim.x * blockIdx.x < count)
{if(threadIdx.x == 0)atomicAdd(output, bowman[0]);
}

CUDA中的warp级方法

const int warpIndex = threadIdx.x / warpSize;
const int laneIndex = threadIdx.x % warpSize;

在这里插入图片描述
Warp shuffle是一种更快的机制,用于在相同Warp中的线程之间移动数据。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述



在这里插入图片描述

http://www.lryc.cn/news/165502.html

相关文章:

  • 字节8年经验之谈 —— 冒烟测试、回归测试是什么?
  • FP6102 20V、3A降压开关调节器芯片
  • 魔众携手ModStart上线全新模块市场,支持模板主题
  • 织梦CMS_V5.7任意用户密码重置漏洞复现
  • ESP32通过ali的C LINK4.0接入aliyun阿里云
  • Spring中使用了哪些设计模式
  • matlab 13折线法数据量化编码与解码
  • Yolov8小目标检测-添加模块改进-实验记录
  • 2023国家网络安全宣传周|邮件安全意识培训-钓鱼篇
  • 【Leetcode】140.单词拆分II(Hard)
  • 【数据结构-堆】堆
  • Ansible 自动化运维工具部署主从数据库+读写分离
  • 蓝桥杯官网填空题(星期几)
  • 《向量数据库指南》——向量数据库会是 AI 的“iPhone 时刻”吗?
  • 案例实践丨基于SkyWalking全链路监控的微服务系统性能调优实践篇
  • C++信息学奥赛1170:计算2的N次方
  • windos本地文件上传到ubuntu
  • 做软件测试,掌握哪些技术才能算作“测试大佬”?
  • 【算法与数据结构】530、LeetCode二叉搜索树的最小绝对差
  • input输入事件
  • 接入 NVIDIA A100、吞吐量提高 10 倍!Milvus GPU 版本使用指南
  • php://filter协议在任意文件读取漏洞(附例题)
  • 【Redis】1、NoSQL之Redis的配置及优化
  • 9.5QTday6作业
  • Redis I/O多路复用机制
  • Matlab 2016安装MinGW-w64-4.9.2
  • Tomcat配置ssl、jar包
  • Unity中Shader实现UI去色功能的实现思路
  • Python垃圾回收机制详解:引用计数与循环垃圾收集器
  • 自然语言处理应用(三):微调BERT