当前位置: 首页 > news >正文

Golang高效合并(拼接)多个gzip压缩文件

有时我们可能会遇到需要把多个 gzip 文件合并成单个 gzip 文件的场景,最简单最容易的方式是把每个gzip文件都先解压,然后合并成一个文件后再次进行压缩,最终得到我们想要的结果,但这种先解压后压缩的方式显然效率不高,有没有更好的实现方式呢,答案是肯定的,Linux下常用的压缩库 Zlib 的两位主要作者之一 Mark Adler 就给我们提供了一个这样的示例程序:

https://github.com/madler/zlib/blob/develop/examples/gzjoin.c

在这里插入图片描述
从说明中我们可以看出,这种方式只需要解压一遍所有文件(用于找到特定的比特位并修改它),但不需要做任何额外的压缩操作,而且合并后的 gzip 文件末尾的 crc32 校验和也不需要从头计算(根据源 gzip 文件的校验和用函数 crc32_combine 便可计算出),一般来说,deflate 解压操作要比压缩操作速度快很多,所以这种合并 gzip 文件的方式在性能上是相当高效的,如果是在 C 语言中实现,我们就可以直接“借鉴” Mark Adler 大佬的代码。

针对同一个数据源,用 Go 内置 compress/gzip 包,压缩和解压缩简单的性能对比:

goos: darwin
goarch: arm64
pkg: go-redis-demo
BenchmarkGzipgoredis_test.go:60: test input data length: 778785
BenchmarkGzip/compress
BenchmarkGzip/compress-8         	     115	   9727792 ns/op
BenchmarkGzip/decompress
BenchmarkGzip/decompress-8       	     609	   1957044 ns/op

使用默认压缩级别,解压速度是压缩速度的5倍,使用 Linux 下的命令行压缩工具 gzip 对比结果也差不多:

命令行工具 gzip 压缩速度:

$ ll test.html 
-rw-r--r--  1 zy  staff  778785 Jul 30 14:28 test.html
$ 
$ time gzip -kf test.htmlreal    0m0.034s
user    0m0.024s
sys     0m0.007s
$ time gzip -kf test.htmlreal    0m0.032s
user    0m0.025s
sys     0m0.004s
$ time gzip -kf test.htmlreal    0m0.030s
user    0m0.025s
sys     0m0.004s

命令行工具 gzip 解压缩速度:

$ ll
total 1808
-rw-r--r--  1 zy  staff  778785 Jul 30 14:28 test.html
-rw-r--r--  1 zy  staff  142127 Jul 30 14:28 test.html.gz
$ 
$ time gzip -dkf test.html.gzreal    0m0.013s
user    0m0.003s
sys     0m0.005s
$ time gzip -dkf test.html.gzreal    0m0.008s
user    0m0.003s
sys     0m0.004s
$ time gzip -dkf test.html.gzreal    0m0.010s
user    0m0.003s
sys     0m0.004s

解压也是比压缩快 3-4 倍左右,这就意味着在合并 gzip 文件时省去压缩操作会对性能产生极大提升。

Go 语言实现

用 Go 内置的 compress/gzip 或者 compress/flate 包无法实现与 gzjoin.c 相同的功能,因为 gzjoin.c 的实现依赖解压时的 Z_BLOCK 刷写模式,而 compress/flate 解压缩时并不支持指定 Flush 模式,所以我们只能换一种思路,利用 cgo 来直接调用 Zlib C 库,具体实现可以参考我这里的代码 https://github.com/zhyee/deflatejoin,如果对实现细节不感兴趣,也可以在你的Go项目中直接调用该module, 与用 解压 --> 合并文件 --> 再压缩 的方式性能对比差不多提升了10倍以上:

goos: darwin
goarch: arm64
pkg: github.com/zhyee/deflatejoin
BenchmarkConcatGzip/concat-standard-go-8                       9         123559972 ns/op         1257826 B/op       1261 allocs/op
BenchmarkConcatGzip/concat-deflatejoin-8                     100          10784015 ns/op           30289 B/op         41 allocs/op
http://www.lryc.cn/news/409953.html

相关文章:

  • MySQL数据库-基本概念
  • 【无标题】web+http协议+nginx搭建+nginx反向代理(环境准备)
  • c-periphery RS485串口库文档serial.md(serial.h)(非阻塞读)(VMIN、VTIME)
  • Matlab arrayfun 与 bsxfun——提高编程效率的利器!
  • 【Unity编辑器拓展】GraphView自定义可视化节点
  • 教程系列4 | 趋动云『社区项目』极速体验 LivePortrait 人脸表情“移花接木”大法
  • WGS84、GCJ-02、BD09三大坐标系详解
  • css上下动画 和淡化
  • 深入解析C#中的URI和URL编码:理解EscapeDataString、EscapeUriString和UrlEncode的区别及字符编码错误处理
  • 【CSS】给图片设置 max-width
  • 区块链——代码格式检查(prettier、solhint)
  • 搭建自动化 Web 页面性能检测系统 —— 部署篇
  • 知识图谱增强的RAG(KG-RAG)详细解析
  • python中list的深拷贝和浅拷贝
  • 【LeetCode】字母异位词分组
  • Golang | Leetcode Golang题解之第295题数据流的中位数
  • 【C语言】C语言期末突击/考研--数据的输入输出
  • How can I fix my Flask server‘s 405 error that includes OpenAi api?
  • LeetCode Hot100 将有序数组转换为二叉搜索树
  • 【Linux】线程的控制
  • Vue3自研开源Tree组件:人性化的拖拽API设计
  • MYSQL--触发器详解
  • C++实用指南:Lambda 表达式的妙用
  • FastAPI(七十八)实战开发《在线课程学习系统》接口开发-- 评论
  • 基于springboot+vue+uniapp的居民健康监测小程序
  • TypeScript基础【学习笔记】
  • 树莓派物联网服务器搭建流程:集成 Node.js、InfluxDB、Grafana 和 MQTT 协议
  • typescript 断言
  • 期刊评价指标及其查询方法
  • 巴斯勒相机(Basler) ACE2 dart 系列说明和软件