当前位置: 首页 > news >正文

Pytorch在cuda、AMD DirectML和AMD CPU下性能比较

一、测试环境

CUDA环境: i7-8550u + 16G DDR4 2133MHz + nVidia MX150 2GB

AMD DirectML环境: Ryzen 5 5600G + 32G DDR4 3200MHz + Vega7 4GB

AMD 纯CPU环境:Ryzen 5 5600G + 32G DDR4 3200MHz 

其他硬件配置的硬盘、电源均一致。Pytorch版本为2.0.0,Python环境为3.7.11,Win10 LTSC。

二、测试代码

拟合一个100万点数的函数,并计算从神经网络被传入内存/显存开始,到计算结果出来,所耗费的时间。不含前面准备时间、出图时间。计算三次手动记录平均值。代码如下:

CUDA测试代码

# -*- coding: utf-8 -*-
# @Time    : 19/12/9 16:38
# @Author  : JL
# @File    : pytorchTest.py
# @Software: PyCharmimport matplotlib.pyplot as plt
import torch
import timex = torch.unsqueeze(torch.linspace(-1, 1, 1000000), dim=1).cuda()
y = x.pow(2) + 0.3 * torch.rand(x.size()).cuda()net1 = torch.nn.Sequential(torch.nn.Linear(1, 10),torch.nn.ReLU(),torch.nn.Linear(10, 1)
)
optimizer = torch.optim.SGD(net1.parameters(), lr=0.5)
lossFunc = torch.nn.MSELoss()device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print("当前使用的设备是:" + str(torch.cuda.get_device_name(torch.cuda.current_device())))
print("当前CUDA、CUDNN版本号分别为:"+str(torch.version.cuda)+"、"+str(torch.backends.cudnn.version()))
print("当前Pytorch版本号为:"+str(torch.__version__))startTime = time.perf_counter()net1.to(device)for t in range(100):prediction = net1(x)loss = lossFunc(prediction, y)optimizer.zero_grad()loss.backward()optimizer.step()print(loss.data.cpu().numpy())endTime = time.perf_counter()
delta = endTime-startTimeprint("Treat a net in %0.2f s." % delta)plt.scatter(x.data.cpu().numpy(), y.data.cpu().numpy())
plt.show()

DirectML、AMD CPU测试代码:

# -*- coding: utf-8 -*-
# @Time    : 19/12/9 16:38
# @Author  : JL
# @File    : pytorchTest.py
# @Software: PyCharmimport matplotlib.pyplot as plt
import torch
import torch_directml
import timedml = torch_directml.device()  # 如果使用DirectML,则分配到dml上
cpuML = torch.device("cpu")  # 如果仅使用CPU,则选择分配到cupML上# 注意修改dml或cpuML
x = torch.unsqueeze(torch.linspace(-1, 1, 1000000), dim=1).to(dml)
y = x.pow(2) + 0.3 * torch.rand(x.size()).to(dml)net1 = torch.nn.Sequential(torch.nn.Linear(1, 10),torch.nn.ReLU(),torch.nn.Linear(10, 1)
)
optimizer = torch.optim.SGD(net1.parameters(), lr=0.5)
lossFunc = torch.nn.MSELoss()print("当前Pytorch版本号为:" + str(torch.__version__))startTime = time.perf_counter()net1.to(dml)  # 注意修改dml或cpuMLfor t in range(100):prediction = net1(x)loss = lossFunc(prediction, y)optimizer.zero_grad()loss.backward()optimizer.step()print(loss.data.cpu().numpy())endTime = time.perf_counter()
delta = endTime - startTimeprint("Treat a net in %0.2f s." % delta)plt.scatter(x.data.cpu().numpy(), y.data.cpu().numpy())
plt.show()

三、测试结论

测试类型 耗费时间(秒,越小越好)
CUDA3.57
DirectML4.48
纯CPU5.31

看起来DirectML有点加速效果,但是还是和CUDA有差距,更何况这个是笔记本上最弱的MX150显卡的CUDA。微软要加油了。另外AMD的CPU,还是安心打游戏好了。

http://www.lryc.cn/news/98139.html

相关文章:

  • 哈工大计算机网络课程局域网详解之:交换机概念
  • Jenkins Pipeline的hasProperty函数
  • 芯片制造详解.净洁室的秘密.学习笔记(三)
  • 可解释的 AI:在transformer中可视化注意力
  • k8s Webhook 使用java springboot实现webhook 学习总结
  • JS逆向之猿人学爬虫第20题-wasm
  • 【双指针优化DP】The 2022 Hangzhou Normal U Summer Trials H
  • [论文笔记] LLM数据集——金融数据集
  • 在亚马逊平台,如何有效举报违规行为?
  • 深度学习入门教学——神经网络
  • 阿里Java开发手册~OOP 规约
  • 【Mysql数据库面试01】内连接 左连接 右连接 全连接
  • 事务隔离:为什么你改了我还看不见
  • 吴恩达ChatGPT《LangChain Chat with Your Data》笔记
  • https和http有什么区别
  • 振弦采集仪及在线监测系统完整链条的岩土工程隧道安全监测
  • linux基础学习
  • android 前端常用布局文件升级总结(二)
  • Linux复习——基础知识
  • 【数据结构】实验三:链表
  • 第4集丨webpack 江湖 —— loader的安装和使用
  • 【Lua学习笔记】Lua进阶——协程
  • 亚马逊云科技纽约峰会,充分释放数据价值和生成式AI的潜力
  • 什么是 web3?
  • [驱动开发]字符设备驱动应用——点灯
  • 前端学习——Vue (Day5)
  • Ceph版本
  • cspm是什么?考了有用吗?
  • Java阶段五Day14
  • 【计算机网络】应用层协议 -- 安全的HTTPS协议