当前位置：首页 > news >正文

流水账（CPU设计实战）——lab3

news 2025/7/8 13:53:25

Lab3 Rewrite V1.0

版本控制

版本	描述
V0
V1.0	相对V0变化：修改了文件名，各阶段以_stage结尾（因为if是关键词，所以module名不能叫if，遂改为if_stage，为了统一命名，将所有module后缀加上_stage）删除了imm_sign信号（默认对立即数进行有符号数扩展）由于对sw指令进行了重新理解：无论如何都是需要将rt_data传递给EXE阶段，故将部分译码逻辑进行后移至EXE阶段，避免id_to_exe_data总线过于庞大将ins_shmat剔除出id_to_exe_data，因为imm包括ins_shamt 对信号进行重命名（例如在ID阶段有个信号叫rf_we，最终要传递给WB阶段，那么在EXE阶段，该信号叫作exe_rf_we，同理mem_rf_we，wb_rf_we），不然都叫rf_we，Debug的时候太痛苦了。

版本

描述

V1.0

相对V0变化：修改了文件名，各阶段以_stage结尾（因为if是关键词，所以module名不能叫if，遂改为if_stage，为了统一命名，将所有module后缀加上_stage）删除了imm_sign信号（默认对立即数进行有符号数扩展）由于对sw指令进行了重新理解：无论如何都是需要将rt_data传递给EXE阶段，故将部分译码逻辑进行后移至EXE阶段，避免id_to_exe_data总线过于庞大将ins_shmat剔除出id_to_exe_data，因为imm包括ins_shamt 对信号进行重命名（例如在ID阶段有个信号叫rf_we，最终要传递给WB阶段，那么在EXE阶段，该信号叫作exe_rf_we，同理mem_rf_we，wb_rf_we），不然都叫rf_we，Debug的时候太痛苦了。

Top顶层

接口信号

MYCPU_TOP.v（TOP）

名称	宽度	方向	描述
时钟与复位
clk	1	I	时钟信号，来自clk_pll的输出时钟
resetn	1	I	复位信号，低电平同步复位
取指端访存接口
inst_sram_en	1	O	指令RAM使能信号，高电平有效
inst_sram_wen	4	O	指令RAM字节写使能信号，高电平有效
inst_sram_addr	32	O	指令RMA读写地址，字节寻址
inst_sram_wdata	32	O	指令RAM写数据
inst_sram_rdata	32	I	指令RAM读数据
数据端访存接口
data_sram_en	1	O	数据RAM使能信号，高电平有效
data_sram_wen	4	O	数据RAM字节写使能信号，高电平有效
data_sram_addr	32	O	数据RAM读写地址，字节寻址
data_sram_wdata	32	O	数据RAM写数据
data_sram_rdata	32	I	数据RAM读数据
debug信号，供验证平台使用
debug_wb_pc	32	O	写回级（多周期最后一级）的PC，需要myCPU里将PC一路传递到写回级
debug_wb_rf_wen	4	O	写回级写寄存器堆（regfiles）的写使能，为字节使能，如果myCPU写regfiles为单字节写使能，则将写使能扩展成4位即可
debug_wb_rf_wnum	5	O	写回级写regfiles的目的寄存器号
debug_wb_rf_wdata	32	O	写回级写regfiles的写数据

接口时序

略（MIPS经典五级流水线）

代码结构

MYCPU_TOP.v

|____IF.v

|____ID.v

|____RF.v（2个读端口，1个写端口）

|____EXE.v

|____ALU.v

|____MEM.v

|____WB.v

|____MYCPU.h

DATA_RAM.v

IF.v（修改为IF_STAGE，因为会与关键词if冲突）

接口信号

名称	宽度	方向	描述
时钟与复位
clk	1	I	时钟信号，来自clk_pll的输出时钟
resetn	1	I	复位信号，低电平同步复位
与TOP
inst_sram_en	1	O	RAM使能信号，高电平有效
inst_sram_wen	4	O	RAM字节写使能信号，高电平有效
inst_sram_addr	32	O	RMA读写地址，字节寻址
inst_sram_wdata	32	O	RAM写数据
inst_sram_rdata	32	I	RAM读数据
与ID
id_to_if_allowin	1	I	pipe allowin
if_to_id_vld	1	O	pipe valid
if_to_id_data	64	O	pipe data(instruction 32-bits, pc 32-bits)
jump_bus	33	I	branch instructions(enable 1bit，address 32-bits)

接口时序

在这里插入图片描述

ID.v

接口信号

名称	宽度	方向	描述
时钟与复位
clk	1	I	时钟信号，来自clk_pll的输出时钟
resetn	1	I	复位信号，低电平同步复位
与IF
id_to_if_allowin	1	O	pipe allowin
if_to_id_vld	1	I	pipe valid
if_to_id_data	64	I	pipe data(instruction 32-bits, pc 32-bits)
jump_bus	33	O	branch instructions(enable 1bit，address 32-bits)
与EXE
exe_to_id_allowin	1	I	pipe allowin
id_to_exe_vld	1	O	pipe valid
id_to_exe_data	135	O	{ins_R:1, ins_I:1, imm:16, alu_op:13, mem_rd:1, mem_we:1, rf_we:1, rf_dst_addr:5, data_1:32, data_2:32, pc:32}
与WB
wb_to_rf_bus	38	I	{rf_we:1, rf_addr:5, rf_data:32}

接口信号（RF.v）

名称	宽度	方向	描述
时钟与复位
clk	1	I	时钟信号，来自clk_pll的输出时钟
与ID内部信号
rf_r_addr1	5	I	RF读地址1
rf_r_data1	32	O	RF读数据1
rf_r_addr2	5	I	RF读地址2
rf_r_data2	32	O	RF读数据2
rf_wen1	1	I	RF写使能1
rf_w_addr1	5	I	RF写地址1
rf_w_data1	32	O	RF写数据1

接口时序

在这里插入图片描述

电路设计

在这里插入图片描述

图3-4-1 译码电路分组（注：黄线少画了两条）

根据附录——MIPS指令。由于跳转指令不传递给EXE阶段，直接传递给IF阶段，且为纯组合逻辑输出，有可能成为关键路径，故对跳转指令单独处理。除了跳转指令外，涉及加法（减法归为加法）的指令如图3-4-1所示，即ins_addu、ins_addiu、ins_subu、ins_lw、ins_sw。

对于图3-4-1的拼接运算，可以当作移位运算执行。

EXE.v

接口信号

名称	宽度	方向	描述
时钟与复位
clk	1	I	时钟信号，来自clk_pll的输出时钟
resetn	1	I	复位信号，低电平同步复位
与TOP(外接的DATA_RAM)
data_sram_en	1	O	数据RAM使能信号，高电平有效
data_sram_wen	4	O	数据RAM字节写使能信号，高电平有效（4个比特，应该代表32 = 4 bytes）
data_sram_addr	32	O	数据RAM读写地址，字节寻址
data_sram_wdata	32	O	数据RAM写数据
与ID
exe_to_id_allowin	1	O	pipe allowin
id_to_exe_vld	1	I	pipe valid
id_to_exe_data	135	I	{ins_R:1, ins_I:1, imm:16, alu_op:13, mem_rd:1, mem_we:1, rf_we:1, rf_dst_addr:5, data_1:32, data_2:32, pc:32}
与MEM
mem_to_id_allowin	1	I	pipe allowin
exe_to_mem_vld	1	O	pipe valid
exe_to_mem_data	71	O	{mem_rd:1, rf_we:1, rf_dst_addr:5, pc:32(其实可以删掉pc，这里是debug显示用的，可以叫debug_pc), exe_result:32

接口信号（ALU.v）

暂时不需要时钟和复位，纯组合逻辑

名称	宽度	方向	描述
时钟与复位
clk	1	I	时钟信号，来自clk_pll的输出时钟
resetn	1	I	复位信号，低电平同步复位
与ID内部信号
alu_shamt	6	I	ALU移位（R-指令的shamt部分）
alu_op	13	I	ALU操作（加、减、乘除、位运算）
alu_din1	32	I	ALU输入1
alu_din2	32	I	ALU输入2
alu_out	32	O	ALU输出

接口时序

在这里插入图片描述

MEM.v

接口信号

名称	宽度	方向	描述
时钟与复位
clk	1	I	时钟信号，来自clk_pll的输出时钟
resetn	1	I	复位信号，低电平同步复位
与TOP(外接的DATA_RAM)
data_sram_rdata	32	I	数据RAM读数据
与EXE
mem_to_exe_allowin	1	O	pipe allowin
exe_to_mem_vld	1	I	pipe valid
exe_to_mem_data	71	I	{mem_rd:1, rf_we:1, rf_dst_addr:5, pc:32(其实可以删掉pc，这里是debug显示用的，可以叫debug_pc), exe_result:32}
与WB
wb_to_mem_allowin	1	I	pipe allowin
mem_to_wb_vld	1	O	pipe valid
mem_to_wb_data	70	O	{ rf_we:1, rf_dst_addr:5, mem_result:32, pc:32(其实可以删掉pc，这里是debug显示用的，可以叫debug_pc)}

WB.v

接口信号

名称	宽度	方向	描述
时钟与复位
clk	1	I	时钟信号，来自clk_pll的输出时钟
resetn	1	I	复位信号，低电平同步复位
与TOP
debug_wb_pc	32	O	写回级（多周期最后一级）的PC，需要myCPU里将PC一路传递到写回级（与原书保持一致）
debug_wb_rf_wen	4	O	写回级写寄存器堆（regfiles）的写使能，为字节使能，如果myCPU写regfiles为单字节写使能，则将写使能扩展成4位即可（与原书保持一致）
debug_wb_rf_wnum	5	O	写回级写regfiles的目的寄存器号（与原书保持一致）
debug_wb_rf_wdata	32	O	写回级写regfiles的写数据（与原书保持一致）
与MEM
wb_to_mem_allowin	1	O	pipe allowin
mem_to_wb_vld	1	I	pipe valid
mem_to_wb_data	70	I	{ rf_we:1, rf_dst_addr:5, mem_result:32, pc:32(其实可以删掉pc，这里是debug显示用的，可以叫debug_pc)}
与ID
wb_to_rf_bus	38	O	{rf_we:1, rf_addr:5, rf_data:32}

接口时序

在这里插入图片描述

附录——参考

参考：处理机流水线------经典五段流水线-CSDN博客

附录——原书指令

指令	sel_nextpc	inst_ram_wen	sel_alu_src1	sel_alu_src2	alu_op	data_ram_en	data_ram_wen	rf_we	sel_rf_dst	sel_rf_res
ADDU	0001	1	001	001	000000000001	0	0	1	001	0
ADDIU	0001	1	001	010	000000000001	0	0	1	010	0
SUBU	0001	1	001	001	000000000010	0	0	1	001	0
LW	0001	1	001	010	000000000001	1	0	1	010	1
SW	0001	1	001	010	000000000001	1	1	0	000	0
BEQ	0010	1	000	000	000000000000	0	0	0	000	0
BNE	0010	1	000	000	000000000000	0	0	0	000	0
JAL	0100	1	010	100	000000000001	0	0	1	100	0
JR	1000	1	000	000	000000000000	0	0	0	000	0
SLT	0001	1	001	001	000000000100	0	0	1	001	0
SLTU	0001	1	001	001	000000001000	0	0	1	001	0
SLL	0001	1	100	001	000100000000	0	0	1	001	0
SRL	0001	1	100	001	001000000000	0	0	1	001	0
SRA	0001	1	100	001	010000000000	0	0	1	001	0
LUI	0001	1	000	010	100000000000	0	0	1	010	0
AND	0001	1	001	001	000000010000	0	0	1	001	0
OR	0001	1	001	001	000001000000	0	0	1	001	0
XOR	0001	1	001	001	000010000000	0	0	1	001	0
NOR	0001	1	001	001	000000100000	0	0	1	001	0

附录——Debug

PC复位问题

在这里插入图片描述

PC的跳转有误，直接看IF_STAGE.v

修改代码为：

在这里插入图片描述

RegFile的零寄存器问题

在这里插入图片描述

修改如下：

在这里插入图片描述

RF数据高阻

在这里插入图片描述

发现数据有错，应当为63:32

在这里插入图片描述

跳转指令的PC值

跳转指令的PC，本人使用的都是ID阶段的pc，经过vivado调试，发现有误，隧改为如下，即使用IF阶段的pc：

在这里插入图片描述

lui译码错误

在ID阶段，lui指令译码错误，具体如下：

assign ins_lui = op_ext[6’h15] & rs_ext[5’h00];//错误

改为如下：

assign ins_lui = op_ext[6’h0f] & rs_ext[5’h00];

addiu执行错误

经排查，发现在ID阶段，忘了声明rs_data和rt_data这两个变量，导致被默认为1 bit（实际都是32 bit的变量）

addiu执行错误

（影响Debug了）

经排查，发现rs数据读取为高阻，向前追溯，发现是写寄存器的时候，写入的是高阻，最终发现在WB阶段的，rf_we始终为高，更改如下：

assign rf_we = wb_data[69] ;

assign debug_wb_rf_wen = {4{rf_we}} ;

assign wb_to_rf_bus[37] = rf_we & wb_vld;

改为：

assign rf_we = wb_data[69] & wb_vld;

assign debug_wb_rf_wen = {4{rf_we}} ;

assign wb_to_rf_bus[37] = rf_we ;

然而还是有错，遂向前回溯，发现RF.v中的rf_group声明有误：

reg [31:0] rf_group [4:0];

改为：

reg [31:0] rf_group [31:0];

lw错误

发现电路设计本身就有问题，原因为：从CSDN上的一个MIPS指令集设计的电路，但是该CSDN上的内容是错的！！！

电路设计错误：发现rf_we漏掉了ins_lw

在这里插入图片描述

更改如下：

assign rf_we = ins_addu

|ins_addiu

|ins_subu

|ins_lw

|ins_jal

|ins_slt xxxxxx ;

subu错误

在这里插入图片描述

assign alu_din2_two_cmpl[31] = 1’b1;

assign alu_din2_two_cmpl[30:0] = (~alu_din2) + 1’b1;

上面两句，修改为下：

assign alu_din2_two_cmpl[31:0] = (~alu_din2) + 1’b1;

在MIPS指令中有subu和sub两种指令，（lab3只要求实现subu，不要求实现sub指令）而在代码中本人将subu简写为sub是不合适的，已全部修改为subu

slt报错

在这里插入图片描述

原始代码：

assign result_slt = ($signed(alu_din1) < $signed(alu_din2)) ? 32’h1: 32’h0;

学习了下原书上的源码，发现可以将比较运算合并至减法运算，于是修改了slt（同时也修改了sltu）如下：

assign add_din2 = (alu_subu | alu_slt | alu_sltu) ? alu_din2_two_cmpl

alu_din2;

另外，我发现单独进行求补码运算，可能会浪费加法器，不利于vivado优化，遂修改

在这里插入图片描述

修改为：

在这里插入图片描述

nor报错

assign result_nor = ~result_xor ;

更改为：

assign result_nor = ~ result_or ;

srl报错

在这里插入图片描述

发现ID阶段的译码错误：

assign ins_srl = op_ext[6’h00] & sa_ext[5’h00] & fun_ext[6’h06];

更改为：

assign ins_srl = op_ext[6’h00] & rs_ext[5’h00] & fun_ext[6’h02];

sra报错

在这里插入图片描述

assign result_sra = alu_din2 >>> alu_shamt ;

更改为：

assign result_sra = $signed(alu_din2) >>> alu_shamt ;

sw/lw报错

lw报错，经排查是因为sw命令有误

本人设计的时候没有认真分析sw指令，导致EXE阶段的sram_wdata数据有误。

具体地讲，由于本人设计阶段欠缺，误认为加法结果给到sram_wdata（实际上加法结果是给sram_addr），导致出错。

由于欠思考导致总线也需要更改，需要将rt_data从ID阶段传递给exe阶段，因为sw指令执行中需要将rt_data赋给sram_wdata。

bne出错

在这里插入图片描述

又是码错了

assign jump_bne = (rt_equ_rs == 1’b0) & ins_beq ;

更改为：

assign jump_bne = (rt_equ_rs == 1’b0) & ins_bne ;

完结

还有一些小bug没有记录，终于pass了，完结。

在这里插入图片描述

后记

原书是将regfile.v当作ID_stage的一个子模块，WB_stage写回时，也是通过ID_stage的顶层将信号传递到regfile模块。本设计将regfile.v置于与ID、WB的同一hierarchy
原书将跳转指令（如JAL）的译码放在ID_stage模块中（没有问题，因为译码就是在ID_stage阶段），并以组合逻辑的形式传递给IF_stage（必须用组合逻辑，否则会影响流水）。本设计将跳转指令放在IF模块中，避免组合逻辑穿越模块边界。（还是不要合并，因为R、I、J型指令均含有跳转指令，合并至IF模块，会增加大量的额外译码逻辑。）
原书的译码方式值得学习：

若是按我之前的写法，大概率会写成如下形式：

always@(*)begin

case(xxxx)

…

endcase

end

always-case的形式容易写错，而且不够清晰。使用原书的写法，避免写成:

inst_addu = (op == 6’h0 ) & (func == 6’h21) & (sa == 5’h00);

小括号太多，看着就乱
等号也影响纠错
原书将0写成00，格式上是对齐的，更舒服
另外我猜测将判断逻辑写成generate—endgenerate的形式，也更容易让编译器进行优化

在自己设计译码的时候，本人遇到一个问题，译码到什么程度才算“译码”。是译码出R\I\J型指令（每种类型用1bit标志位表示），还是译码至具体的加减乘除？

我的思想：EXE除了负责寄存一些必要数据外（比如WB需要的数据），其核心执行内容应当只有：加、减、乘、除、移位、与、或、非、异或。也就是说，ID阶段负责输入的数据给准备好级EXE。然后我就在想Regfile怎么搞，因为Regfile读是不需要周期的（即本周期给出地址，本周就可以得到数据），但是WB写Regfile的时候，如果同时读Regfile的同一地址，怎么办呢？这个读写冲突应当放在Regfile中处理吗？

另一方面，EXE的执行时，输入可以是寄存器（比如and指令），也可以是pc（比如跳转指令）。当输入是寄存器时，需要读Regfile，当输入是pc时，不需要读Regfile，将Regfile置于与ID、EXE同一hierarchy，意味着需要在EXE阶段判断输入是pc还是来自Regfile，这样增加了复杂性。（我现在理解了原书为什么要把Regfile当作ID的子模块，还是有道理的）
原lab3中的ID_stage.v中的ds_to_es_bus是136bits，但是在EXE阶段还存在少量的译码，我认为译码这种东西应当在ID阶段全部完成，不应当在EXE阶段还进行译码。
译码逻辑我写的是：assign {ins_op, ins_rs, ins_rt, ins_rd, ins_sa, ins_fun} = ins;

原书代码给的是：

assign ins_op = ins[31:26];

assign ins_rs = ins[25:21];

assign ins_rt = ins[20:16];

assign ins_rd = ins[15:11];

assign ins_sa = ins[10:6] ;

assign ins_fun = ins[5:0] ;

assign ins_index = ins[25:0] ;

assign ins_imm = ins[15:0] ;

感觉还是书上写的比较易读，隧写成书上的这种形式

实例化，我写的是：

decoder_6_64 U_decoder_6_64(

.din ( ins ),

.dout( ins_ext )

);

原书上写的是：

decoder_6_64 U_decoder_6_64(.din ( ins ),.dout( ins_ext ) );

感觉还是差不多，我还是按我自己的写

在译码过程中对于5bits转32bits，和6bits转64bits。本人可以理解opcode和function需要转换成64bits、32bits，但是不明白rs、rt、rd、sa为何还需要转换。我现在是怀疑，后续指令会扩展，然后译码的时候将rt、rd、sa也加进去，可以确保指令译码的唯一性。
我原本想将ID阶段中的译码中的rf_dst_addr按下图进行Coding：

但是看了原书的代码后，认为，没默认ins_R选项即可，只需要判断其他写寄存器地址，遂改为如下：

assign rf_dst_addr = ins_jal ? 5’d31 : ins_I ? ins_rt : ins_rd ;

同理，也对data_2的生成进行了类似的修改。

原书源码中每个阶段的pc值叫作fs_pc、ds_pc等，而我写的代码中都叫作pc，导致使用vivado调试时，都叫作pc不好定位
在跑通了全程后（共两周，包括Debug两天），感觉自己的Coding水平还是不如原书，而且控制信号和数据通路结构层次不好，级与级之间的bus编码（信号的放置位置等）也不够完美，数据的命名相同不利于debug（比如都叫pc，分不清是if的pc，还是exe的pc）。数据的耦合严重，尤其是ID与EXE阶段，两个阶段的信号耦合过于严重。除此之外还有资源上的复用也有所欠缺。还有一点就是出现了许多Coding的问题，比如wire信号忘记声明就使用，bne却使用了beq的信号。最后一点就是9.14节的sw/lw报错问题，这个bug，本人解决了一个晚上加一个上午，因为在设计阶段，是按照CSDN上的一篇博客上给出的MIPS指令设计的，所以一直没意识到博客本身就有问题，这种先入为主的指令加上本人设计的代码结构在sw/lw指令上耦合严重，导致后来阅读龙芯给的PDF时也没意识的问题，最后阅读了lab3原书上的源码才发现问题。

查看全文

http://www.lryc.cn/news/356651.html