当前位置: 首页 > news >正文

测试cudaStream队列的深度

测试cudaStream队列的深度

  • 一.代码
  • 二.编译运行[得出队列深度为512]

以下代码片段用于测试cudaStream队列的深度
方法: 主线程一直发任务,启一个线程cudaEventQuery查询已完成的任务,二个计数器的值相减

一.代码

#include <iostream>
#include <thread>
#include <chrono>
#include <cuda_runtime.h>
#include <atomic>
#include <vector>
#include <queue>
#include <mutex>
#include <condition_variable>
#include <iostream>
#include <thread>
#include <time.h>__global__ void time_consuming_kernel(int *data) {int idx = blockIdx.x * blockDim.x + threadIdx.x;float value = 0.0;for(int j=0;j<1000;j++){for (long long i = 0; i < 1000000000; ++i) {value += sinf(idx + i);}}	
}template <typename T>
class ThreadSafeQueue {
public:ThreadSafeQueue() = default;// 禁用复制构造函数和赋值操作符ThreadSafeQueue(const ThreadSafeQueue&) = delete;ThreadSafeQueue& operator=(const ThreadSafeQueue&) = delete;// 添加元素到队列尾部void enqueue(T item) {std::lock_guard<std::mutex> lock(mutex_);queue_.push(std::move(item));cond_var_.notify_one();}// 从队列头部移除元素bool dequeue(T& item) {std::unique_lock<std::mutex> lock(mutex_);cond_var_.wait(lock, [this] { return !queue_.empty(); });item = std::move(queue_.front());queue_.pop();return true;}// 检查队列是否为空bool empty() {std::lock_guard<std::mutex> lock(mutex_);return queue_.empty();}// 获取队列的大小size_t size() {std::lock_guard<std::mutex> lock(mutex_);return queue_.size();}private:std::queue<T> queue_;mutable std::mutex mutex_;std::condition_variable cond_var_;
};std::atomic<unsigned int> recv_counter{0};
std::atomic<unsigned int> snd_counter{0};
ThreadSafeQueue<cudaEvent_t> tsQueue;// 查询 stream 是否完成的线程函数
void query_stream(cudaStream_t stream) {cudaError_t status = cudaSuccess;    while (true) {cudaEvent_t event;tsQueue.dequeue(event);while (true){status = cudaEventQuery(event);if (status == cudaSuccess) {				recv_counter++;break;}std::this_thread::sleep_for(std::chrono::milliseconds(1));}cudaEventDestroy(event);}
}int main() {int dev = 0;cudaSetDevice(dev);cudaDeviceProp device_prop;cudaGetDeviceProperties(&device_prop, dev);int max_threads_per_block = device_prop.maxThreadsPerBlock;int max_blocks_per_grid_dim = device_prop.maxGridSize[0];int *d_data;cudaMalloc(&d_data, sizeof(int));cudaStream_t stream;cudaStreamCreate(&stream);// 启动查询 stream 的线程std::thread query_thread(query_stream, stream);while(1){cudaEvent_t ev;cudaEventCreate(&ev);		auto start = std::chrono::high_resolution_clock::now();time_consuming_kernel<<<max_blocks_per_grid_dim, max_threads_per_block,0,stream>>>(d_data);cudaEventRecord(ev,stream);auto end = std::chrono::high_resolution_clock::now();std::chrono::duration<double, std::milli> diff = end - start;tsQueue.enqueue(ev);snd_counter+=1;printf("snd:%d rcv:%d gap:%d lanuch_duration:%f\n",(int)snd_counter,(int)recv_counter,int(snd_counter-recv_counter),diff.count());}// 等待线程完成query_thread.join();// 清理资源cudaStreamDestroy(stream);cudaFree(d_data);return 0;
}

二.编译运行[得出队列深度为512]

/usr/local/cuda/bin/nvcc -o demo main.cu -I /usr/local/cuda/include -L /usr/local/cuda/lib64
./demo

输出

snd:509 rcv:0 gap:509 lanuch_duration:0.004661
snd:510 rcv:0 gap:510 lanuch_duration:0.003677
snd:511 rcv:0 gap:511 lanuch_duration:0.004387
snd:512 rcv:0 gap:512 lanuch_duration:11307.932958
snd:513 rcv:1 gap:512 lanuch_duration:11302.601698
snd:514 rcv:2 gap:512 lanuch_duration:11302.245001
http://www.lryc.cn/news/377042.html

相关文章:

  • ​海康威视 isecure center 综合安防管理平台任意文件上传漏洞
  • shadertoy-安装和使用
  • matlab线性多部法求常微分方程数值解
  • 前端页面实现【矩阵表格与列表】
  • GPT4v和Gemini-Pro调用对比
  • 破布叶(Microcos paniculata)单倍型染色体级别基因组-文献精读22
  • 浅谈RC4
  • uniapp微信小程序开发物料
  • 大数据工程师如何做到数据可视化?
  • Java 序列化与反序列化
  • 自定义防抖注解
  • 【尚庭公寓SpringBoot + Vue 项目实战】登录管理(十八)
  • 【html】用html+css做地表最强王者荣耀辅助工具
  • TF-IDF、BM25传统算法总结
  • 项目五 OpenStack镜像管理与制作
  • LabVIEW回热系统热经济性分析及故障诊断
  • 设计模式-迭代器模式
  • UV胶带和UV胶水的应用场景有哪些不同吗?
  • 监控员工上网软件有哪些|4款好用的员工上网行为管理软件推荐
  • 【IPython的使用技巧】
  • 最新AI智能聊天对话问答系统源码(详细图文搭建部署教程)+AI绘画系统(Midjourney),DALL-E3文生图,TTS语音识别输入,文档分析
  • 项目四 OpenStack身份管理
  • 【后端】websocket学习笔记
  • DataWhale - 吃瓜教程学习笔记(一)
  • Attention Is All You Need论文地址
  • 如何优雅的一键下载OpenHarmony活跃分支代码?请关注【itopen: ohos_download】
  • torch.topk用法
  • 终极版本的Typora上传到博客园和csdn
  • 洛谷:P5707【深基2.例12】上学迟到
  • 数据治理:数据提取过程中的合规性与安全性