当前位置: 首页 > news >正文

cuda显存访问耗时

背景:

        项目中有个数据量大小为5195 * 512 * 128float = 1.268G的显存,发现有个函数调用很耗时,函数里面就是对这个显存进行128个元素求和,得到一个5195 * 512的图像

分析

1. 为什么耗时

直观上感觉这个流程应该不怎么耗时才对,但是写了个demo测试发现

上面代码,统计耗时

需要消耗掉50ms左右(显卡是Quadro P2200)

太恐怖了

2.修改数据类型为int16_t

将数据类型修改为int16_t访问的显存大小降为0.6G左右

降低为上面结果

3.修改数据类型为int8_t

将数据类型修改为int8_t访问的显存大小降为0.3G左右

降低不再明显

3. 修改访问方式

由于显存是按照内存事务一次性加载的,如果按照上面代码进行访问,按照个人理解,32个线程一次加载的内存是不够用的,需要至少32次内存事务才能完成处理,尝试修改代码:

同样是int类型,耗时如下:

结论:

        当cuda程序需要访问的显存过大时,将会出现耗时非常严重的问题

参考链接:

cuda 学习之内存层次结构_请说明 register,shared,global 以及 constant 四类 cuda 内 存_xukang95的博客-CSDN博客

http://www.lryc.cn/news/158655.html

相关文章:

  • 【HTML5高级第三篇】drag拖拽、音频视频、defer/async属性、dialog应用
  • 独享IP vs. 共享IP:哪种更适合你?
  • 【Arduino27】DHT11温湿度传感器模拟值实验
  • dockerfile基于apline将JDK20打包成镜像
  • MATLAB基础-MAT文件的读写操作
  • PostgreSQL PG15 新功能 PG_WALINSPECT
  • 时序预测 | MATLAB实现TCN-BiLSTM时间卷积双向长短期记忆神经网络时间序列预测
  • 数据结构和算法(2):向量
  • mysql 大表如何ddl
  • C++新特性:智能指针
  • SAP FI之批量修改财务凭证的BAPI
  • Spring Boot + Vue的网上商城之商品分类
  • Docker 容器逃逸漏洞 (CVE-2020-15257)复现
  • Python 如何使用 csv、openpyxl 库进行读写 Excel 文件详细教程(更新中)
  • $nextTick属性使用与介绍
  • 【群智能算法改进】一种改进的鹈鹕优化算法 IPOA算法[2]【Matlab代码#58】
  • k8s 入门到实战--部署应用到 k8s
  • 编程语言新特性:instanceof的改进
  • 数据挖掘的学习路径
  • 逻辑回归Logistic
  • Flink提交jar出现错误RestHandlerException: No jobs included in application.
  • 【数仓基础(一)】基础概念:数据仓库【用于决策的数据集合】的概念、建立数据仓库的原因与好处
  • 电商类面试问题--01Elasticsearch与Mysql数据同步问题
  • 天线材质介绍--FPC天线
  • vue3 的 ref、 toRef 、 toRefs
  • WebRTC中 setup:actpass、active、passive
  • ModuleNotFoundError: No module named ‘lavis‘解决方案
  • 双指针的问题解法以及常见的leetcode例题。
  • python容器模块Collections
  • 排序算法学习记录-快速排序