当前位置：首页 > news >正文

CUDA常用函数

news 2025/8/11 14:18:38

cudaDeviceSynchronize

cudaDeviceSynchronize是一个CUDA函数，用于同步当前设备上的所有CUDA流。它会阻塞调用它的线程，直到所有设备上的CUDA流都执行完为止。这可以确保在进行后续的CUDA操作时，先前的操作已经完成。

在CUDA程序中，通常需要使用cudaDeviceSynchronize来确保在主机代码继续执行之前，所有的CUDA代码都已经执行完毕。这可以避免由于异步执行而导致的数据竞争和其他问题。但是，过多地使用cudaDeviceSynchronize可能会导致程序的性能下降，因此需要谨慎使用。

#include <stdio.h>__global__ void hello_from_gpu()
{printf("Hello World from the GPU!\n");
}int main(void)
{hello_from_gpu<<<2, 4>>>();cudaDeviceSynchronize();return 0;
}

去掉这个函数就打印不出字符串了。这是因为调用输出函数时，输出流是先存放在缓冲区
的，而缓冲区不会自动刷新。只有程序遇到某种同步操作时缓冲区才会刷新。函数cudaDeviceSynchronize 的作用是同步主机与设备，所以能够促使缓冲区刷新。

cudaDeviceReset

用于重置当前设备上的所有CUDA资源，包括显存、设备状态和所有CUDA上下文。它会释放设备上的所有已分配资源，以及清除所有已注册的回调函数。

在CUDA程序中，通常需要在程序结束时调用cudaDeviceReset来确保所有CUDA资源都被正确释放。如果没有调用cudaDeviceReset，那么在程序结束时可能会出现内存泄漏或其他资源泄漏问题。此外，在程序运行期间，也可以调用cudaDeviceReset来释放和重置设备资源，以便在程序执行期间重复使用设备。

#include <stdio.h>__global__ void hello_from_gpu()
{printf("Hello World from the GPU!\n");
}int main(void)
{hello_from_gpu<<<2, 4>>>();cudaDeviceReset();return 0;
}

此处调用cudaDeviceReset也会达到cudaDeviceSynchronize的效果使语句输出，因为是使核函数强制完成返回了，所以达到了类似于同步的效果，还是比较危险的。

cudaGetDeviceCount(&count)

获取系统中可用的 CUDA 设备数量。

cudaSetDevice(int device)

用于选择当前要使用的 CUDA 设备。

cudaGetDeviceProperties(cudaDeviceProp* prop, int device)

用于检索指定 CUDA 设备的属性信息。

struct cudaDeviceProp {char name[256]; // 识别设备的ASCII字符串（比如，"GeForce GTX 940M"）size_t totalGlobalMem; // 全局内存大小size_t sharedMemPerBlock; // 每个block内共享内存的大小int regsPerBlock; // 每个block 32位寄存器的个数int warpSize; // warp大小size_t memPitch; // 内存中允许的最大间距字节数int maxThreadsPerBlock; // 每个Block中最大的线程数是多少int maxThreadsDim[3]; // 一个块中每个维度的最大线程数int maxGridSize[3]; // 一个网格的每个维度的块数量size_t totalConstMem; // 可用恒定内存量int major; // 该设备计算能力的主要修订版号int minor; // 设备计算能力的小修订版本号int clockRate; // 时钟速率size_t textureAlignment; // 该设备对纹理对齐的要求int deviceOverlap; // 一个布尔值，表示该装置是否能够同时进行cudamemcpy()和内核执行int multiProcessorCount; // 设备上的处理器的数量int kernelExecTimeoutEnabled; // 一个布尔值，该值表示在该设备上执行的内核是否有运行时的限制int integrated; // 返回一个布尔值，表示设备是否是一个集成的GPU（即部分的芯片组、没有独立显卡等）int canMapHostMemory; // 表示设备是否可以映射到CUDA设备主机内存地址空间的布尔值int computeMode; // 一个值，该值表示该设备的计算模式：默认值，专有的，或禁止的int maxTexture1D; // 一维纹理内存最大值int maxTexture2D[2]; // 二维纹理内存最大值int maxTexture3D[3]; // 三维纹理内存最大值int maxTexture2DArray[3]; // 二维纹理阵列支持的最大尺寸int concurrentKernels; // 一个布尔值，该值表示该设备是否支持在同一上下文中同时执行多个内核
｝

查看全文

http://www.lryc.cn/news/101975.html