当前位置: 首页 > news >正文

CUDA编程(六):代码分析与调试

CUDA编程(六):代码分析与调试

  • 代码分析与调试方法
    • 使用printf打印变量信息
    • 使用CUDA的错误检查功能
    • 使用CUDA-GDB进行调试
    • 使用Nsight进行调试
    • 使用nvprof / nvvp工具
  • 参考文献

代码分析与调试方法

CUDA代码的运行时可能会遇到内存溢出、内存非法访问、核函数出错等一系列问题,需要进行Debug调试。在CUDA代码的分析与调试过程中,通常可以采用以下几种方法。

使用printf打印变量信息

在CUDA程序中,可以使用printf()函数打印变量信息。但是需要注意,由于CUDA是并行计算架构,因此在使用printf()函数时需要谨慎,避免对性能造成过大的影响。

使用CUDA的错误检查功能

在CUDA中,可以使用错误处理函数检查CUDA程序哪一个环节出现错误。在每次CUDA函数调用后,使用该函数进行检查,并打印错误信息以帮助诊断问题。另外,也可以使用cuda-memcheck工具来检查内存错误。

CUDA编程中错误处理相关的函数一共有4个:

// cudaGetErrorName函数接受一个错误码,返回错误名称
__host__ __device__ const char* cudaGetErrorName(cudaError_t error)
// cudaGetErrorString函数接受一个错误码,返回错误描述
__host__ __device__ const char* cudaGetErrorString(cudaError_t error)
// cudaGetLastError函数返回上一次CUDA runtime调用时的错误码,并将CUDA错误码置为cudaSuccess
__host__ __device__ cudaError_t cudaGetLastError(void)
// cudaPeekAtLastError函数与上面功能一样,但不会重置CUDA的错误信息
__host__ __device__ cudaError_t cudaPeekAtLastError(void)

使用CUDA-GDB进行调试

CUDA-GDB是一个基于命令行的调试工具,可用于调试CUDA C/C++应用程序。使用CUDA-GDB可以设置断点、单步调试、查看变量值等。需要在编译时使用-g、-G选项来生成可调试版本。CUDA-GDB使用方法如下:

# 编译程序的时候我们使用nvcc编译器,将其编译成可调式版本;-g 表示将CPU代码(host)编译成可调式版本,-G表示将GPU代码(kernel)编译成可调式版本。
nvcc -g -G XXX.cu -o XXX
# 进入调试器
cuda-gdb XXX
# run执行
run

使用Nsight进行调试

Nsight 开发工具套件提供深入的跟踪、调试、评测和其他分析,以优化跨 NVIDIA GPU 和 CPU 的复杂计算应用程序,包括 x86、ARM 和 Power 体系结构。一般在装CUDA时,在图形界面已安装好Nsight。用终端打开Nsight编译器,它可以直接对写好程序进行编译和Debug。关于如何使用Nsight调试程序,可以参考链接。

使用nvprof / nvvp工具

NVIDIA nvprof / nvvp工具是英伟达N卡GPU编程中用于观察的利器。全称是NVIDIA Visual Profiler,是由2008年起开始支持的性能分析器。它具有交互性好,利于使用的优点,并且可用于分析CUDA应用程序的性能瓶颈和优化方案,其在安装好CUDA toolkit后方可使用。

在CUDA程序调试过程中,Visual Profiler提供每个CUDA函数调用的时间分析,它还能给出如何调用内核函数以及存储器的使用情况等,有助于定位瓶颈可能出现的位置,并详细解释如何调用内核等。

记录运行日志时使用命令nvprof,可视化显示日志时使用命令nvvp。如果只想对某一段代码进行分析,在目标代码段前后加上 cudaProfilerStart() 和 cudaProfilerStop()。

# 使用 nvprof 在命令行查看分析结果
nvprof -o out.nvvp XXX
# 对于生成的 out.nvvp 文件,需要在使用 nvvp 进行查看。

以上是一些常用的CUDA代码调试的方法,希望对您有所帮助,欢迎在评论区留言。

参考文献

https://zhuanlan.zhihu.com/p/559682306

http://www.lryc.cn/news/64419.html

相关文章:

  • 身份鉴别解读与技术实现分析(1)
  • 为什么说7.38万的比亚迪海鸥比仰望更重要
  • 【LLM】低成本部署大语言模型, 并且还能达到部署在GPU上差不多的效果
  • Doris(25):Doris的函数—Bitmap函数
  • 简单分享微信小程序上的招聘链接怎么做
  • 【英语】大学英语CET考试,翻译部分(修饰后置,定语从句,插入语,多动句,无主句)
  • 设计模式——代理模式
  • Shiro-721---漏洞复现
  • Linux【模拟实现C语言文件流】
  • APK文件结构
  • RabbitMQ死信队列延迟交换机
  • 武忠祥老师每日一题||不定积分基础训练(六)
  • C语言结构体详解
  • 非盲去模糊简单介绍
  • C语言动态内存管理与文件操作:打造高效通讯录
  • 2001-2021年全国30省就业人数数据
  • 自然语言处理知识抽取(pkuseg、DDParser安装及使用)
  • Linux内核面试知识总结
  • 深度学习模型压缩与优化加速
  • Kali 更换源(超详细,附国内优质镜像源地址)
  • Java版工程项目管理系统平台+java版企业工程系统源码+助力工程企业实现数字化管理
  • 搜索引擎测试报告
  • 4年的测试工程师,你遇到过自身瓶颈期吗?又是怎样度过的?
  • 【Python零基础学习入门篇④】——第四节:Python的列表、元组、集合和字典
  • 3.6 cache存储器
  • Ubuntu零基础安装
  • 热门的常用 API 大全分享
  • 利用粒子群算法设计无线传感器网络中的最优安全路由模型(Matlab代码实现)
  • 2023年华东杯数学建模B 题 期货价格相关性问题-思路解析
  • SAP UI5 之Controls (控件) 笔记三