当前位置: 首页 > news >正文

使用 COPY 加速 PostgreSQL 批量插入

文章目录

  • 1.copy命令介紹
  • 2.copy vs insert的优势
  • 3.测量性能
  • 4.结论

1.copy命令介紹

PostgreSQL 中的命令COPY是执行批量插入和数据迁移的强大工具。它允许快速有效地将大量数据插入表中。

COPY命令为批量插入和数据迁移提供了更简单且更具成本效益的解决方案。
可以避免使用诸如:分布式处理工具、为数据库添加更多的 CPU 和 RAM的方案或者其他的加速方案
因此,如果有一个任务需要在短时间内插入大量行,可以考虑使用COPY 命令。它可以显著加快数据迁移和载入过程。
据说PostgreSQL 16 已将 COPY 的性能提高了 300% 以上
详尽的有关copy命令的语法可参考官网

2.copy vs insert的优势

Three-Column Table
COPYINSERT (multi-line)
LoggingOne log for the entire loadOne log for each line/entry
NetworkNo latency, data is streamedLatency between inserts
ParsingOnly one parsing operationParsing overhead
TransactionSingle transactionEach insert statement is a separate transaction
Query PlanSimpler query execution planLots of different query execution plans

总而言之,COPY 速度更快,因为与多行 INSERT 语句相比,它减少了日志记录、网络延迟、解析和事务管理的开销。 它允许更简单的查询执行计划,从而实现更快、更高效的批量插入和数据迁移。 一个权衡是它需要直接访问文件系统,因此它可能并不适合所有需要插入数据的场景。 另一个权衡是持久性,COPY 生成很少的日志,并在单个事务中执行所有日志,这使得它的风险更大。

3.测量性能

创建3个测试表

test=# create table t1 (id1 bigint,id2 bigint);
CREATE TABLE
Time: 7.744 ms
test=# create table t2 (id1 bigint,id2 bigint);
CREATE TABLE
Time: 8.680 ms
test=# create table t3 (id1 bigint,id2 bigint);
CREATE TABLE
Time: 0.924 ms

向t1插入1千万笔测试资料,产生size 422MB的测试表

test=# insert into t1 select generate_series(1,10000000),generate_series(10000000,1,-1);
INSERT 0 10000000
Time: 11933.658 ms (00:11.934)
test=# select count(1),pg_size_pretty(pg_relation_size('t1')) from t1;count   | pg_size_pretty 
----------+----------------10000000 | 422 MB(1 row)Time: 377.028 ms

汇出成csv文件备用

test=# \copy t2 from '/var/lib/postgresql/t1.csv';
COPY 10000000
Time: 5997.302 ms (00:05.997)

验证汇出的csv文件的数据行数与大小

postgres@pgd-prod01:~$ cat t1.csv|wc -l
10000000
postgres@pgd-prod01:~$ ls -alh|grep t1;
-rw-rw-r--  1 postgres postgres  151M Nov 18 11:26 t1.csv
test=# insert into t3 select * from t1;
INSERT 0 10000000
Time: 9811.316 ms (00:09.811)

4.结论

最后测试结果表明,COPY 命令与 INSERT 命令相比具有更高的效率,速度上的差异是相当显着的,当插入同样的1仟万笔数据时,copy费时5997.302 ms,而insert费时9811.316 ms,相较insert而言,节约40%的时间,这是在postgresql 10版本的测试,postgresql 16据说提升更多

http://www.lryc.cn/news/247804.html

相关文章:

  • plotneuralnet和netron结合绘制模型架构图
  • MYSQL 中如何导出数据?
  • GPT-4惨遭削弱,偷懒摸鱼绝不多写一行代码,OpenAI已介入调查
  • CSS特效020:涌动的弹簧效果
  • 系列五、Spring整合MyBatis不忽略mapper接口同目录的xxxMapper.xml
  • 第454题.四数相加II
  • RabbitMQ消息队列
  • ModBus电表与RS485电表有哪些区别?
  • vue项目运行时,报错:ValidationError: webpack Dev Server Invalid Options
  • 书摘:C 嵌入式系统设计模式 02
  • 排序算法基本原理及实现1
  • Unity 轨道展示系统(DollyMotion)
  • 优维低代码实践:搜索功能
  • C# ReadOnlyRef Out
  • linux 服务 下 redis 安装和 启动
  • ECharts与Excel的结合实战
  • UDP的特点及应用场景
  • Python开发——工具篇 Pycharm的相关配置,Python相关操作 持续更新
  • 【深度学习】卷积神经网络结构组成与解释
  • 从源码解析Containerd容器启动流程
  • 引迈-JNPF低代码项目技术栈介绍
  • 如何处理枚举类型(下)
  • wsj0数据集原始文件.wv1.wv2转换成wav文件
  • Flask Session 登录认证模块
  • 【运维】hive 高可用详解: Hive MetaStore HA、hive server HA原理详解;hive高可用实现
  • C#开发的OpenRA游戏之属性SelectionDecorations(13)
  • 接手了一个外包开发的项目,我感觉我的头快要裂开了~
  • git常规使用方法,常规命令
  • 【JavaScript】3.3 JavaScript工具和库
  • 开发基于 ChatGPT 分析热点事件并生成文章的网站应用【热点问天】把百度等热点用chatGPT来对热点事件分析海量发文章 开发步骤 多种方式获取利润