当前位置: 首页 > news >正文

1080T、2080T、4070T显卡的深度学习性能测试和结论

先说结论:

4070T显卡FP32的训练和推理速度跟3090应该基本类似。但由于显存12G偏低,4070T不太适合如今的深度学习模型训练(新手列外,大部分模型都能训练起来,耗电也相对很低),更适合测试最新的一些算法效果(只用推理)。

环境:

pytorch环境:conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.6 -c pytorch -c conda-forge

测试代码:霹雳吧啦Wz的GitHub中的swin-L和FastRCNN。 

深度学习模型个人测试结果 

swin-L模型单位是 图像/秒,FastRCNN模型单位是 秒/图像

备注1:主流显卡的测评分

备注2:其他显卡的测试性能(SSD模型,FP32训练)

备注3:另一个网站上的综合评分

 备注4:各类GPU的FP16和FP8训练和推理性能

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==编辑

感觉备注4和我真实测试的有较大差异,FP16的训练,4070ti竟然和2080Ti几乎一样,不知道为什么作者会得出此结论。

个人总结

  • timespy 4K跑分非常适合深度学习性能评估:作为经过本人验证,4070ti的深度学习性能(FP32训练和推理)相对1080T和2080T显卡的差异,几乎跟time spy 4K跑分差异几乎一致。至于FP16和FP8,还未测试。
  • 操作系统基本不影响显卡深度学习性能:Ubuntu 22.04和win11系统下,4070ti的训练和推理速度几乎一模一样。
  • 12G显存是硬伤:4070T相对3090速度上并不差,只是显存12G真的是硬伤,分类网络swin-L的batchsize都只能设为8(图像224*224)。
http://www.lryc.cn/news/19479.html

相关文章:

  • SpringBoot搭建SpringMVC项目
  • Prescriptive Analytics for Flexible Capacity Management
  • 超简单的待办事项列表管理器todo
  • 在C#中初测OpencvSharp4
  • 洛谷P1123 取数游戏(C++)(DFS)
  • Python Qt6快速入门-嵌入PyQtGraph图表
  • Mac电脑_GitHub提交项目至仓库
  • Android自定义View实现横向的双水波纹进度条
  • Python 之 Pandas 分组操作详解和缺失数据处理
  • 【人工智能 AI】什么是人工智能? What is Artificial Intelligence
  • 17、触发器
  • 内核并发消杀器(KCSAN)技术分析
  • 蓄水池抽样算法
  • 数据结构预算法之买股票最好时机动态规划(可买卖多次)
  • 华为OD机试真题Java实现【蛇形矩阵】真题+解题思路+代码(20222023)
  • spring Bean的生命周期 IOC
  • 详解cors跨域
  • ARM uboot 源码分析7 - uboot的命令体系
  • 物理服务器与云服务器备份相同吗?
  • 【Linux】system V共享内存 | 消息队列 | 信号量
  • FSC的宣传许可 答疑
  • Leetcode力扣秋招刷题路-0100
  • 协作对象死锁及其解决方案
  • 良许也成为砖家啦~
  • Java中的编程细节
  • Yolov8从pytorch到caffe (一) 环境搭建
  • 2023年CDGA考试-第16章-数据管理组织与角色期望(含答案)
  • Stream——集合数据按照某一字段排序
  • ubuntu:20.04编译arrow
  • 2023如果纯做业务测试的话,在测试行业有出路吗?