当前位置: 首页 > news >正文

Pytorch如何精准记录函数运行时间

0. 引言

参考Pytorch官方文档对CUDA的描述,GPU的运算是异步执行的。一般来说,异步计算的效果对于调用者来说是不可见的,因为

  1. 每个设备按照排队的顺序执行操作
  2. Pytorch对于CPU和GPU的同步,GPU间的同步是自动执行的,不需要显示写在代码中

异步计算的后果是,没有同步的时间测量是不准确的

1. 解决方案

参考引言中提到的帮助文档,Pytorch官方给出的解决方案是使用torch.cuda.Event记录时间,具体代码如下:

start_event = torch.cuda.Event(enable_timing=True)
end_event = torch.cuda.Event(enable_timing=True)
start_event.record()# Run your code snippet hereend_event.record()
torch.cuda.synchronize()  # Wait for the events to be recorded!
elapsed_time_ms = start_event.elapsed_time(end_event)  # elapsed time (ms)

将你的代码插入start_event.record()end_event.record()中间以测量时间(单位毫秒)。本人亲测,使用time.time()函数得到的函数运行时间为105ms,而使用该方法得到的运行时间为19ms!

有能力的读者也可以包装为装饰器或者with语句使用:

先书写一个自定义with类(ContextManager)

class CudaTimer:def __init__(self):self.start_event = torch.cuda.Event(enable_timing=True)self.end_event = torch.cuda.Event(enable_timing=True)def __enter__(self):self.start_event.record()return selfdef __exit__(self, exc_type, exc_value, traceback):self.end_event.record()torch.cuda.synchronize()self.elapsed_time = self.start_event.elapsed_time(self.end_event) / 1000 # ms -> s

再安装如下with语句返回:

with CudaTimer() as timer:# run your code here
dt = timer.elapsed_time  # s

这样保证了多个文件调用时语句的简单性。特别提醒:获取timer.elapsed_time操作不要写在with语句内部。在with语句未结束时,是无法获取timer的成员变量的。

http://www.lryc.cn/news/479285.html

相关文章:

  • 使用 Java 实现邮件发送功能
  • html第一个网页
  • 前后端交互接口(三)
  • 华为Mate70前瞻,鸿蒙NEXT正式版蓄势待发,国产系统迎来关键一战
  • 【安卓13 源码】Input子系统(4)- InputReader 数据处理
  • Xserver v1.4.2发布,支持自动重载 nginx 配置
  • Java反射原理及其性能优化
  • RabbitMQ 管理平台(控制中心)的介绍
  • 【SQL】在 SQL Server 中创建数据源是 MySQL 数据表的视图
  • 现代Web开发:Next.js 深度解析与最佳实践
  • LeetCode题练习与总结:赎金信--383
  • eval: jdk1.8.0_431/jre/bin/java: Permission denied
  • .Net IOC理解及代码实现
  • 履带机器人(一、STM32控制部分--标准库)
  • 地理空间-Java实现航迹稀释
  • qt QHttpMultiPart详解
  • 【测试】【Debug】vscode中同一个测试用例出现重复
  • Mac上的免费压缩软件-FastZip使用体验实测
  • Linux(CentOS)运行 jar 包
  • 基于YOLOv8 Web的安全帽佩戴识别检测系统的研究和设计,数据集+训练结果+Web源码
  • LabVIEW VISA通信常见问题
  • Node.js Stream(流)以及模块系统使用介绍 (基础介绍 五)
  • 嵌入式linux中设备树控制硬件的方法
  • 定时器入门:Air780E定时器基础与进阶
  • Java LeetCode练习
  • go 集成go-redis 缓存操作
  • python数据结构基础(3)
  • java-智能识别车牌号_基于spring ai和开源国产大模型_qwen vl
  • 全局池化(Global Pooling)
  • ubuntu 24.04运行chattts时cuda安装错误原因分析