当前位置: 首页 > news >正文

BOLT- 识别和优化热门的基本块

在BOLT中,识别和优化热门的基本块之所以关键,是因为BOLT的主要目标是优化程序以更好地利用硬件特性,特别是指令缓存(ICache)。以下是BOLT如何识别和优化热门基本块的流程:

  1. 收集性能数据:

    • BOLT开始的时候并不知道哪些基本块是“热”的,因此它首先需要运行目标程序并收集性能数据。
    • 使用诸如Linux的perf工具,BOLT记录程序的执行profile,确定哪些基本块和函数被频繁地执行。
    • 这种profile-guided的方法确保BOLT的优化是基于真实的程序行为,而不是某种静态分析或猜测。
  2. 基本块的重新布局:

    • 一旦识别了热门的基本块,BOLT的下一步是确定如何重新布局这些块以优化ICache性能。
    • BOLT会将经常连续执行的基本块放在一起,这样当一个基本块在ICache中时,其后续的基本块很可能也在同一个ICache行或附近的行中。
    • 这减少了ICache不命中的次数,从而提高了性能。
  3. 循环优化:

    • 由于循环中的代码会被反复执行,因此它们通常是性能关键区域。BOLT会特别关注这些区域,确保循环的基本块在物理存储中是连续的。
    • 这不仅优化了ICache的命中率,还有助于减少分支预测错误和其他前端停顿[1]。
  4. 分支预测优化:

    • BOLT不仅考虑ICache,它还尝试减少分支预测错误。通过重新布局基本块,BOLT可以确保热门路径中的分支更容易被正确预测。
  5. 跳转优化:

    • 重新布局基本块可能会导致一些跳转变得更长。BOLT会尝试优化这些跳转,例如通过使用跳转表,或者在可能的情况下,使用更短的跳转指令。
  6. 进一步的数据流和控制流优化:

    • 除了布局优化,BOLT还会尝试其他类型的优化,这些优化可能特别有利于热门基本块。例如,常量传播、死代码消除和其他传统的编译器优化技术。

通过上述流程,BOLT系统地识别和优化热门基本块,从而提高程序的整体性能。这种方法的优势在于它基于真实的程序执行数据,因此优化更有可能在实际运行中产生明显的性能提升。

[1] “前端停顿”是指在处理器的前端(取指、译码阶段)所遇到的各种延迟或阻塞。处理器的前端是指令获取、解码和发射到执行管道的部分。这一阶段的主要任务是以稳定和高效的速度从内存中取得指令,并为后续的执行阶段提供准备好的指令。

前端停顿可能包括:

  1. ICache不命中:如果所需的指令不在指令缓存(ICache)中,处理器需要从内存或更高级的缓存中取得指令,这会导致延迟。

  2. 分支预测错误:现代处理器使用分支预测器来猜测条件分支(例如if语句)会采取哪条路径。如果预测错误,处理器需要撤销错误路径上的指令并加载正确路径的指令,这会导致延迟。

  3. 指令获取带宽限制:由于各种原因,如资源冲突或复杂指令的解码,处理器可能无法在每个周期内从内存中取得最大数量的指令。

  4. 指令队列的阻塞:如果指令队列(一个存储待执行指令的缓冲区)满了,新的指令无法被取出和解码,直到之前的指令完成。

  5. TLB不命中:TLB用于快速翻译虚拟地址到物理地址。TLB不命中会导致处理器需要执行完整的页面表查找,进一步增加延迟。

在优化循环时,降低前端停顿非常关键。因为循环中的指令会被多次执行,所以任何在前端遇到的延迟或阻塞都会被放大。BOLT通过确保循环中的基本块在物理存储上是连续的,可以减少多种前端停顿,从而提高程序的整体性能。

http://www.lryc.cn/news/120923.html

相关文章:

  • Golang 中的 time 包详解(四):函数详解
  • 【前端 | CSS】5种经典布局
  • 腾讯云宣布VPC网络架构重磅升级,可毫秒级感知网络故障并实现自愈
  • vue 路由页面跳转
  • Vue toRefs:在Vue中不失去响应式的情况下解构属性
  • 自定义element-plus的弹框样式
  • Linux:iptables防火墙
  • MongoDB文档-进阶使用-spring-boot整合使用MongoDB---MongoTemplate完成增删改查
  • 设计模式十四:责任链模式(Chain of Responsibility Pattern)
  • 将商城项目放到docker-centos7中
  • C# Winform 自动获取 软件版本号
  • 基于C++实现了最小反馈弧集问题的三种近似算法(GreedyFAS、SortFAS、PageRankFAS)
  • 奶牛用餐 优先队列 java
  • 包管理机制pip3
  • liunx在线安装tomcat
  • 导入示例工程出现error: failed to start ability. Error while Launching activity错误的解决办法
  • 【深入了解PyTorch】PyTorch分布式训练:多GPU、数据并行与模型并行
  • linux 下 网卡命名改名
  • 6.2.0在线编辑:GrapeCity Documents for Word (GcWord) Crack
  • 为什么需要智能指针?
  • 《华为认证》L2TP VPN配置
  • 【JVM】JVM垃圾收集器
  • StarGANv2: Diverse Image Synthesis for Multiple Domains论文解读及实现(一)
  • Go Gin 中使用 JWT
  • AWS中Lambda集成SNS
  • Mac下⬇️Git如何下载/上传远程仓库
  • linux 命令--常用关机命令
  • ttf-dejavu fontconfig字体
  • Open3D点云数据处理(十九):最小二乘直线拟合(矩阵方程法)
  • 数据库事务ACID介绍