当前位置: 首页 > news >正文

《cuda c编程权威指南》03 - cuda小功能汇总

1. 计时

1.1 linux

#include <sys/time.h>double cpuSecond() {struct timeval tp;gettimeofday(&tp, NULL);return ((double)tp.tv_sec + (double)tp.tv_usec*1e-6);
}// 调用
double start = cpuSecond();
kernel_name << <grid, block >> > (argument list);
cudaDeviceSynchronize();  // 显示的使其同步。
double cost = cpuSecond() - start;

1.2 window下

#include <time.h>// 调用
time_t begin, end;
time(&begin);
kernel_name << <grid, block >> > (argument list);
time(&end);
time_t elapsed = end - begin;
printf("Time measured: %ld seconds.\n", elapsed);

2. nvprof实用工具

nvprof是命令行分析工具,功能很多,可以帮助从应用程序的CPU和GPU活动情况中获取时间线信息,其包括内核执行、内存传输以及CUDA API的调用。具体可通过以下命令查看。

nvprof --help

 上面命令如果报错:由于找不到cupti64_2022.2.1.dll,无法继续执行代码。。。

原因:nvprof工具属于插件,其dll在目录: 

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.7\extras\CUPTI\lib64

 系统环境没有该目录,所以索引不到dll库。

解决办法:由于C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.7\bin在系统环境中,可以将cupti64_2022.2.1.dll拷贝到bin目录中.

nvprof ./sumArraysOnGpu-timer

(1)可以看到cudaMemcpy hostToDevice被运行了3次,平均用时17ms;

(2)核函数sumArraysOnGpu运行用时2.9ms,运行了1次。

 

待续。。。

http://www.lryc.cn/news/103530.html

相关文章:

  • Java:Java程序通过执行系统命令调用Python脚本
  • this is incompatible with sql_mode=only_full_group_by
  • GCC编译选项
  • 信息安全战线左移!智能网联汽车安全亟需“治未病”
  • 服务器介绍
  • Java_25_方法引用
  • QT基于TCP协议实现数据传输以及波形绘制——安卓APP及Windows程序双版本
  • mac 中 brctl 怎么用
  • 20.2 HTML 常用标签
  • mysql_2.5——【约束】详解
  • 回归预测 | MATLAB实现POA-CNN-BiLSTM鹈鹕算法优化卷积双向长短期记忆神经网络多输入单输出回归预测
  • opencv顺时针,逆时针旋转视频并保存视频
  • 【LeetCode】最小路径和
  • zygote forkSystemServer及systemServer启动
  • 享元模式-提供统一实现对象的复用
  • Jenkins工具系列 —— 在Ubuntu 18.04上安装各种版本OpenJDK
  • vue基础-虚拟dom
  • C#时间轴曲线图形编辑器开发2-核心功能实现
  • 【Git】初始化仓库配置与本地仓库提交流程
  • 学习day53
  • 【最短路算法】SPFA
  • 牛客网Verilog刷题——VL48
  • Unity UGUI的Shadow(阴影)组件的介绍及使用
  • Kubernetes系列
  • 同步锁: synchronized
  • 【微服务】springboot 多模块打包使用详解
  • 嵌入式工程师面试经常遇到的30个经典问题
  • ER系列路由器多网段划分设置指南
  • 3 PostGIS基础查询
  • Shell错误:/bin/bash^M: bad interpreter: No such file or directory