当前位置: 首页 > news >正文

+0和不+0的性能差异

前几日,有群友转发了某位技术大佬的weibo。并在群里询问如下两个函数哪个执行的速度比较快(weibo内容)。

func g(n int, ch chan<- int) {r := 0for i := 0; i < n; i++ {r += i}ch <- r + 0
}func f(n int, ch chan<- int) {r := 0for i := 0; i < n; i++ {r += i}ch <- r
}

很显然,g函数中ch <- r + 0 比 f函数中 ch <- r 多了一个+0
g、f的for循环都执行了n次,对r进行更新

那到底哪个快呢?我们搞了一组Benchmark测试
环境如下:
go version: 1.20
go os: windows
go arch: arm64
代码如下:

package mainimport "testing"func BenchmarkG(b *testing.B) {ch := make(chan int)N := 100000for i := 0; i < b.N; i++ {go g(N, ch)}
}func BenchmarkF(b *testing.B) {ch := make(chan int)N := 100000for i := 0; i < b.N; i++ {go f(N, ch)}
}

为了显现出性能差异,我们直接将g、f两个函数中for循环次数 N 设定为100000(十万次)。
执行结果如下
在这里插入图片描述从结果可以看出:
g函数在单位时间,总共执行了167175次,每次耗时7148ns
f函数在单位时间,总共执行了71856次,每次耗时23909ns
很显然,g函数的执行效率更胜一筹

那为什么会产生这样的结果呢?
话不多说,直接上大招
使用:go tool compile -S ./main.go > dump.txt 将目标go文件的汇编写入dump.txt

下面截取了g函数的主要汇编代码

main.g STEXT size=112 args=0x10 locals=0x28 funcid=0x0 align=0x00x0000 00000 (main.go:11)	TEXT	main.g(SB), ABIInternal, $48-16...0x0018 00024 (main.go:11)	MOVD	ZR, R20x001c 00028 (main.go:11)	MOVD	ZR, R30x0020 00032 (main.go:13)	JMP	480x0024 00036 (main.go:13)	ADD	$1, R2, R40x0028 00040 (main.go:14)	ADD	R2, R3, R30x002c 00044 (main.go:13)	MOVD	R4, R20x0030 00048 (main.go:13)	CMP	R2, R00x0034 00052 (main.go:13)	BGT	360x0038 00056 (main.go:16)	MOVD	R3, main..autotmp_4-8(SP)0x003c 00060 (main.go:16)	MOVD	R1, R00x0040 00064 (main.go:16)	MOVD	$main..autotmp_4-8(SP), R10x0044 00068 (main.go:16)	PCDATA	$1, $10x0044 00068 (main.go:16)	CALL	runtime.chansend1(SB)0x0048 00072 (main.go:17)	LDP	-8(RSP), (R29, R30)0x004c 00076 (main.go:17)	ADD	$48, RSP0x0050 00080 (main.go:17)	RET	(R30)

下面截取了f函数的主要汇编代码

main.f STEXT size=112 args=0x10 locals=0x28 funcid=0x0 align=0x00x0000 00000 (main.go:3)	TEXT	main.f(SB), ABIInternal, $48-16...0x0018 00024 (main.go:4)	MOVD	ZR, main.r-8(SP)0x001c 00028 (main.go:4)	MOVD	ZR, R20x0020 00032 (main.go:5)	JMP	520x0024 00036 (main.go:6)	MOVD	main.r-8(SP), R30x0028 00040 (main.go:6)	ADD	R2, R3, R30x002c 00044 (main.go:6)	MOVD	R3, main.r-8(SP)0x0030 00048 (main.go:5)	ADD	$1, R2, R20x0034 00052 (main.go:5)	CMP	R2, R00x0038 00056 (main.go:5)	BGT	360x003c 00060 (main.go:8)	MOVD	R1, R00x0040 00064 (main.go:8)	MOVD	$main.r-8(SP), R10x0044 00068 (main.go:8)	PCDATA	$1, $10x0044 00068 (main.go:8)	CALL	runtime.chansend1(SB)0x0048 00072 (main.go:9)	LDP	-8(RSP), (R29, R30)0x004c 00076 (main.go:9)	ADD	$48, RSP0x0050 00080 (main.go:9)	RET	(R30)

对比一下
在这里插入图片描述不难看出,g函数在循环结构中,只使用了R0、R2、R3、R4寄存器。
f函数在循环结构中,使用了R0、R2、R3寄存器,并在单次循环内,操作了两次栈内存
0x0024 00036 (main.go:6) MOVD main.r-8(SP), R3
将main.r-8(SP)栈内存对应的内容,加载进R3寄存器
0x002c 00044 (main.go:6) MOVD R3, main.r-8(SP)
将R3寄存器的内容写入,main.r-8(SP)栈内存

因为CPU读写内存的速度远低于读写寄存器的速度,所以在大样本量的数据驱动下,g函数的执行速度要远快于f函数的执行速度。

至于为什么出现该性能差异,究其根本,是Go编译器、优化器、对源码编译导致的,也就是编译器的黑魔法使然。

http://www.lryc.cn/news/259775.html

相关文章:

  • 美颜技术讲解:视频美颜SDK的开发与集成
  • 期末数组函数加强练习
  • 如何下载B站视频?我来教你B站视频下载方法
  • AcWing 3709:单链表节点交换 ← 四川大学考研机试题
  • RocketMQ源码 Broker-ConsumerFilterManager 消费者数据过滤管理组件源码分析
  • 数据挖掘-07-航空公司客户价值分析(包括数据和代码)
  • 浏览器 css 默认的字体图表
  • JAVA:注册表窗口的实现
  • Liunx Centos 防火墙操作
  • VirtualBox 和 Vagrant 快速安装 Centos7 报错
  • 使用Python进行数学四则运算
  • 成都工业学院2021级操作系统专周课程设计FCFS,SSTF,SCAN,LOOK算法的实现
  • 【51单片机系列】矩阵按键扩展实验
  • 大数据云计算——Docker环境下部署Hadoop集群及运行集群案列
  • 计算机网络链路层(期末、考研)
  • 洛谷 P8794 [蓝桥杯 2022 国 A] 环境治理
  • 力扣面试150题 | 买卖股票的最佳时期
  • uniapp 之 图片 视频 文件上传
  • MIT线性代数笔记-第28讲-正定矩阵,最小值
  • Python:五种算法RFO、GWO、DBO、HHO、SSA求解23个测试函数
  • 如何参与开源项目
  • twitter开发如何避坑
  • 人工智能算法合集
  • PythonStudio:一款国人写的python及窗口开发编辑IDE,可以替代pyqt designer等设计器了
  • 大模型应用_FastGPT
  • elasticsearch|大数据|elasticsearch的api部分实战操作以及用户和密码的管理
  • Android多进程和跨进程通讯方式
  • 通过Jenkins将应用发布到K8s1.24.3
  • 正则表达式入门与实践
  • C++初阶(十六)优先级队列