当前位置: 首页 > news >正文

指令延迟隐藏

一、指令延迟隐藏

1. 延迟和延迟隐藏

  • 指令延迟指计算指令从调度到指令完成所需的时钟周期
  • 如果在每个时钟周期都有就绪的线程束可以被执行,此时GPU处于满符合状态
  • 指令延迟被GPU满负荷计算状态所掩盖的现象称为延迟隐藏
  • 延迟隐藏对GPU编程开发很重要,GPU设计目标是处理大量但是轻量级的线程函数
  • 如何计算满足延迟隐藏所需要的线程束数量:

 2. 指令分类

  • GPU指令分为:算术运算指令、内存访问指令
  • 算术运算指令延迟指从开始运算到得到计算结果的时钟周期,通常为10~20个时钟周期
  • 内存访问指令延迟指从命令发出到数据到达目的地的时钟周期,通常为400~800个时钟周期

二、算术运算指令并行性需求

1. 并行性需求概念

  • 使GPU保持满负荷运行时所需的指令操作的数量
  • 算术运算指令并行性需求由隐藏算术运算指令延迟所需的操作数(operations)衡量

  • 线程束中线程执行相同的指令 (instruction),执行32个操作(opeartion)
  • 需要640/32个线程束才能满足算术运算指令的并行性需求
  • 提升并行性方法:线程中更多的独立指令,更多的并发线程

https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#maximize-instruction-throughput

http://www.lryc.cn/news/162739.html

相关文章:

  • 《React vs. Vue vs. Angular:2023年的全面比较》
  • win10自带wifi共享功能
  • React如何实现国际化?
  • netrw模拟nerdtree的go命令连续打开多个文件
  • 算法通关村第十九关——动态规划高频问题(白银)
  • Matlab如何导入Excel数据并进行FFT变换
  • 华为mate60 上线 媒介盒子多家媒体报道
  • Java知识总结(持续更新)
  • 缓存技术:加速应用,提高用户体验
  • MySQL中分区与分表的区别
  • Redis主从复制集群的介绍及搭建
  • MAC M1芯片安装mounty读写移动硬盘中的文件
  • 原生Js Canvas去除视频绿幕背景
  • Vue知识系列(1)每天10个小知识点
  • Elasticsearch(三)聚合基本使用
  • 单片机C语言实例:14、音频输出
  • docker 和 podman的区别
  • 苹果手机远程控制安卓手机,为什么不能发起控制?
  • Gradle 配置国内镜像
  • Spring AOP使用指南: 强大的面向切面编程技术
  • Spring Boot集成Elasticsearch实战
  • 【python零基础入门学习】python基础篇之文件对象open、模块以及函数的使用(三)
  • 【JavaEE】_CSS常用属性值
  • vue组件库开发,webpack打包,发布npm
  • Java中快速排序的优化技巧:随机取样、三数取中和插入排序
  • 【leetcode 力扣刷题】删除字符串中的子串or字符以满足要求
  • 【Unity基础】3.脚本控制物体运动天空盒
  • Spring MVC拦截器
  • ClickHouse的Join算法
  • java面试题-RabbitMQ面试题