当前位置: 首页 > news >正文

亚信安慧AntDB数据并行加载工具的实现(二)

3.功能性说明

本节对并行加载工具的部分支持的功能进行简要说明。

1) 支持表类型

并行加载工具支持普通表、分区表。

2) 支持指定导入字段

文件中并不是必须包含表中所有的字段,用户可以指定导入某些字段,但是指定的字段数要和文件中的字段数保持一致。

3) 支持导入部分记录

并行加载工具支持指定Where条件,只将符合条件的记录导入到数据库中。

4) 自动生成序列字段值

本工具支持自动生成序列字段值,有些表的字段设置了Default值为序列,用户可能需要数据库自己生成,并没有包含在文件中。

当该字段为非分片键时,我们可以使用数据库自有的功能,在插入时自动生成该字段值。但是当该字段为分片键时,我们需要先在加载工具中生成该值,然后根据该值进行分片,插入到对应的DN节点。

5) 无分片键文件导入

当文件中不包含分片键,并且没有Default值时,加载工具将该字段置为Null计算并插入相应节点。

6) 触发器

当导入的表包含触发器时,并行加载工具并不会做特殊的处理,当触发器涉及非本数据节点时,并行加载工具并不支持。例如一个表的触发器,该触发器会插入另外一张表,但是该表分片与原表不同,此时将会涉及多个数据节点。

7) 不支持辅助表

AntDB有辅助表功能,用来优化SQL语句的性能,该表中存放数据表的相应数据。当数据表有辅助表时,并行加载工具只能将文件导入到数据表,并不会修改相应的辅助表。

8) 支持编码转换

并行加载工具支持数据编码转换,在文件中数据和数据库的编码不同时,工具会对文件中数据编码的转换之后再插入数据库。

4.性能

并行加载工具相比Copy命令,有效提升了数据加载的效率。由于表字段的个数、类型及数据的不同,并行加载工具相对Copy命令所提升的倍率并不完全相同。下面以TPCC的数据导入进行性能的对比。

1000仓的数据,需要导入到表Bmsql_Stock的记录有1亿条,数据文件Stock.csv文件的大小为29GB。测试的AntDB集群有2个DN主节点。在此场景的测试中,加载效率提升了7倍左右,加载速度对比图如下所示:

图5 加载速率对比

Bmsql_Stock表结构如下:

图6 测试表的表结构

5. 总结

本文介绍了AntDB并行加载工具的实现方式和使用方法,通过多线程的方式实现并行处理文件数据,并加载到AntDB数据库,有效提升了加载的效率。

http://www.lryc.cn/news/271099.html

相关文章:

  • 【Java进阶篇】JDK新版本中的新特性都有哪些
  • 力扣labuladong一刷day49天迪杰斯特拉
  • MCS接口技术----定时/计数,中断
  • Java开发框架和中间件面试题(10)
  • C++ 具名要求-基本概念-指定该类型对象可以从右值构造
  • Python如何把类当做字典来访问及浅谈Python类命名空间
  • 简述Redis备份策略以及对应的实现机制
  • 【5G PHY】5G 物理层加速卡介绍
  • lftp学习笔记
  • idea 插件开发之 HelloWorld
  • 极速文件搜索工具Everything结合内网穿透实现远程搜索本地文件
  • 【PowerMockito:编写单元测试过程中采用when打桩失效的问题】
  • [蓝桥杯 2018省赛]回家路费
  • 学生管理系统(vue + springboot)
  • 算法(3)——二分查找
  • golang实现可中断的流式下载
  • SpringBoot 医药咨询系统
  • C语言转WebAssembly的全流程,及Web端调用测试
  • 前端--基础 目录文件夹和根目录 VScode打开目录文件夹
  • 传感器原理与应用复习--超声波、微波、红外及热电偶传感器
  • matlab概率论例子
  • Appium+python自动化(一)- 环境搭建—上(超详解)
  • 基于SpringBoot的精简博客系统
  • STM32的在线升级(IAP)实现方法:BOOT+APP原理详解
  • 【芯片DFX】Arm调试架构篇
  • ES应用_ES实战
  • Ubuntu上如何找到设备,打印串口日志
  • 本地映射测试环境域名,解决登录测试环境后,也可以使用本地域名访问,可以正常跑本地项目
  • VSCode使用Remote SSH远程连接Windows 7
  • uniapp中uview组件库丰富的Calendar 日历用法