当前位置: 首页 > news >正文

CPU Study - Instructions Fetch

参考来源:《超标量处理器设计》—— 姚永斌

N-Way CPU 取指问题

如果CPU可以在每个周期内同时解码N条指令,则此类CPU为N-Way超标量处理器。
N-Way超标量处理器需要每个周期从I-Cache中至少取得N条指令,这N条指令成为一组Fetch Group。
为了保证处理器能够每个周期在I-Cache取得N条指令,最简单的方法就是把I-Cache的Data Block大小设置为N。

Data Block Output

理想情况下,CPU的取指令也是N Words对齐,那么I-Cache命中时,可以直接输出Cache Line中的value。
但是真实场景下,由于存在跳转指令,取指令地址不总是N Words对齐。
取出指令

这就导致一个周期内需要访问2行Cache Line才能一次取出N条指令,但是CPU设计中单周期只能访问一个Cache Line。

Solution - Instruction Buffer

对于N-Way CPU,假设一次能够从Cache中取出M条指令,只要满足M>N就能够满足性能最大化。例如下图的2-way处理器可以取出4条指令。
因此某些处理器中采用每周期取出来的指令数量大于能够解码数量的设计,通过一个缓存 Instruction Buffer将多余指令保存,避免硬件资源浪费。
并且除了分支指令以及异常的场景,取指令的地址都会按照字节对齐方式增加。
取出四条指令

Solution - 增加Data Block

增加Data Block为8,只要取指令地址不在最后的三个Word上就可以每周期读取四个指令。
取4条指令

不过在Cache Size固定场景下,增加Cache Line Size会减少Cache Set数量,导致Cache Miss概率增加。
并且如果Cache Line Size为8Byte,就需要8个32位SRAM电路及保护电路,但最终只输出4个字会比较浪费资源。
因此实际当中,仍然只使用4个SRAM实现八个字的data block。
SRAM CACHE

一个Cache Line的8个Byte数据占用4个SRAM的两行。
每次Cache Line命中,SRAM命中的两行均为有效。
命中后需要根据指令顺序对SRAM0/1/2/3进行重排序。
重排序

如果有分支预测,那么一旦预测失败,上述行为只是消耗处理器性能,都要被flush掉,属于无用消耗。
对于取指令阶段,如果被预测执行分支跳转,则指令组中之后的指令就不应该进入到后续的流水线中。
分支预测

http://www.lryc.cn/news/478252.html

相关文章:

  • GJ Round (2024.9) Round 1~7
  • 【CMCL】多模态情感识别的跨模态对比学习
  • 输入/输出系统
  • asp.net+uniapp养老助餐管理系统 微信小程序
  • 部署istio应用未能产生Envoy sidecar代理
  • 使用YOLO 模型进行线程安全推理
  • ABAP 增强
  • vue使用方法创建组件
  • HTML 基础标签——链接标签 <a> 和 <iframe>
  • @SpringBootApplication源码解析
  • 【实战篇】requests库 - 有道云翻译爬虫 【附:代理IP的使用】
  • 法语动词变位
  • Excel:vba实现批量插入图片
  • Vue3的router和Vuex的学习笔记整理
  • 设置JAVA以适配华为2288HV2服务器的KVM控制台
  • 掌握Qt调试技术
  • 使用NVM自由切换nodejs版本
  • 同三维T610UHK USB单路4K60采集卡
  • Git超详细笔记包含IDEA整合操作
  • 摩尔线程嵌入式面试题及参考答案(2万字长文)
  • C++ 编程基础(3)数据类型 | 3.1、指针
  • nacos本地虚拟机搭建切换wiff问题
  • 打造完整 Transformer 编码器:逐步实现高效深度学习模块
  • 软件对象粒度控制与设计模式在其中作用的例子
  • 代码随想录算法训练营Day.3| 移除链表元素 设计链表 反转链表
  • 基于SSM的学生考勤管理系统的设计与实现
  • 制作gif动图并穿插到CSDN文章中
  • 字段值为null就不返回的注解
  • spring-boot(整合aop)
  • qt QStatusBar详解