当前位置: 首页 > news >正文

CUDA补充笔记

文章目录

    • 一、不同核函数前缀
    • 二、指定kernel要执行的线程数量
    • 三、线程需要两个内置坐标变量来唯一标识线程
    • 四、不是blocksize越大越好,上限一般是1024个blocksize

一、不同核函数前缀

在这里插入图片描述

二、指定kernel要执行的线程数量

总共需要线程数是:

1 * N = N个线程

在这里插入图片描述

三、线程需要两个内置坐标变量来唯一标识线程

①都是dim3类型变量
blockIdx指明线程在grid中的位置,threadIdx指明线程所在block中的位置

  • 若使用的向量大小为1<<20,假设block大小为256,而grid的大小就是4096
    在这里插入图片描述

③而线程的ID值为:
二维:对于2-dim的block(Dx,Dy),线程(x,y)的ID值为(x+ yDx)
三维:如果是3-dim的block(Dx,Dy,Dz),线程(x,y,z)的ID值为(x+ y
Dx +zDxDy)

④矩阵加法
在这里插入图片描述

四、不是blocksize越大越好,上限一般是1024个blocksize

http://www.lryc.cn/news/489521.html

相关文章:

  • C++二级:满足条件的数的累加
  • 【山大909算法题】2014-T1
  • 【MySQL实战45讲笔记】基础篇——深入浅出索引(上)
  • 通关C语言自定义类型:联合和枚举
  • python高阶技巧一
  • Java 对象头、Mark Word、monitor与synchronized关联关系以及synchronized锁优化
  • 鸿蒙网络编程系列50-仓颉版TCP回声服务器示例
  • 软件测试基础(自动化测试、性能测试)
  • C++中的原子操作:原子性、内存顺序、性能优化与原子变量赋值
  • 游戏引擎学习第19天
  • RocketMQ: 专业术语以及相关问题解决
  • C++ 类和对象中的 拷贝构造 和 运算符重载
  • el-table最大高度无法滚动
  • Vscode写markdown快速插入python代码
  • 基于 NCD 与优化函数结合的非线性优化 PID 控制
  • 【数据分析】基于GEE实现大津算法提取洞庭湖流域水体
  • 计算机网络安全 —— 报文摘要算法 MD5
  • LeetCode 746. 使用最小花费爬楼梯 java题解
  • Kubernetes的pod控制器
  • ArcMap 处理栅格数据地形图配准操作
  • comprehension
  • 开源宝藏:Smart-Admin 重复提交防护的 AOP 切面实现详解
  • 使用 npm 安装 Electron 作为开发依赖
  • JavaWeb之综合案例
  • MySQL 报错:1137 - Can‘t reopen table
  • Claude3.5-Sonnet和GPT-4o怎么选(附使用链接)
  • 使用itextpdf进行pdf模版填充中文文本时部分字不显示问题
  • java-贪心算法
  • OpenCV和Qt坐标系不一致问题
  • 前端VUE项目启动方式