当前位置: 首页 > news >正文

批次大小对ES写入性能影响初探

问题背景

ES使用bulk写入时每批次的大小对性能有什么影响?设置每批次多大为好?

一般来说,在Elasticsearch中,使用bulk API进行批量写入时,每批次的大小对性能有着显著的影响。具体来说,当批量请求的大小增加时,写入性能通常会提高,因为减少了网络往返时间和磁盘I/O次数。然而,如果批量请求过大,会导致节点上的内存压力增大,进而影响其他请求的性能,甚至可能导致节点崩溃。

实测方案与结果

我在虚拟机环境实测了7种不同批次的大小,从500到10000都有。

结果如下表:

索引消耗的时间与批次大小数据图示:

  • 最慢的10000条每批,吞吐量是18078/秒。
  • 最快是8000条每批,吞吐量是18218/秒。

这图看着很唬人,实际上设定不同的批次大小对写入性能的影响微乎其微,图中所示的数据索引时间单位是毫秒。

表中,程序运行时间单位是秒,即便是观察程序运行总时间,也都是几秒之差。因为波动太小,因此不具有实际调优意义,只能作为一个数据参考。

当然,对于生产环境也可以通过实验来确定最佳的批量大小。可以从较小的批量开始(例如5MB),然后逐渐增加批量大小,观察写入性能的变化。当性能开始下降时,说明批量大小已经过大,应该减小批量大小。通常,一个好的起点是将每批次的数据量设置在5MB到15MB之间。

补充测试

那么将批次大小分别设置为10万,和10呢?取两个较为极端的值。

  • 超大的10万级别:运行了149秒,变慢的趋势有所抬头!
  • 很小10级别:**运行了641秒,明显变慢!果然,批次太小的确是浪费资源!**不过一般也没有开发人员会设置成这个值。

批次大小设置为极小值10的时候,数据反映了另外一个事实,那就是批量写入比单条写入快了不止一倍!

最终所有测试索引都有100万条数据,数据存储空间大小也几乎一致:

结论

经过计算,上述7种单批次大小的100万数据吞吐量差异最大只有千分之7,可以说是完全没有差异了,极端值才会显著降低性能。

http://www.lryc.cn/news/312458.html

相关文章:

  • c语言十大核心用法
  • 网页打开慢,这锅该谁背?
  • 题目 1538: 蓝桥杯-格子位置
  • 第十三届蓝桥杯嵌入式省赛程序设计详细题解
  • Go 语言指针
  • 指针运算笔试题解析
  • Matlab梁单元有限元编程 | 铁木辛柯梁 | 欧拉梁 | Matlab源码 | 理论文本
  • Tensorflow2.0笔记 - 常见激活函数sigmoid,tanh和relu
  • 1688商品详情数据采集,工程数据采集丨店铺数据采集丨商品详情数据采集
  • Flutter(四):SingleChildScrollView、GridView
  • 【C++】102.二叉树的层序遍历
  • Java学习笔记006——子类与父类的类型转换
  • FedAsync Asynchronous Federated Optimization
  • 学习基于 JavaScript 语言 的计算机界三大神书”之一 ——SICP
  • 【RISC-V 指令集】RISC-V 向量V扩展指令集介绍(一)-向量扩展编程模型
  • K8s 镜像缓存管理 kube-fledged 认知
  • ModbusTcp协议
  • 常用工具——Gradle
  • OpenHarmony教程指南—Navigation开发 页面切换场景范例
  • 2024-简单点-picamera2除了文档还有哪里可以学习实例?
  • JavaScript实现点击鼠标弹钢琴的效果
  • docker-compose Install rustdesk
  • 初学C++
  • 数据分析-Pandas数据y轴双坐标设置
  • Android多线程实现方式及并发与同步,Android面试题汇总
  • 2023年全国职业院校技能大赛中职组大数据应用与服务赛项题库参考答案陆续更新中,敬请期待…
  • 设计MySQL数据表的几个注意点
  • android 键盘遮挡输入框问题回忆
  • ZJGSU 1737 链表
  • Java开发人员不得不收集的代码,java软件开发面试常见问题