当前位置: 首页 > news >正文

为什么说es是近实时搜索

首先要理解es的存储结构:

一个index的数据,分散在多个shard(分片),一个分片又有很多segment(段),es是数据不可变模型,更新数据只是新增一个版本。

es是怎么写数据的?

每次写的时候,首先会写到es的内存(每个分片的内存),这时写的数据是不可搜索的;然后每个分片默认每秒钟会从内存里读写入的数据,然后新建一个段将数据写到段里(这个操作在es里就叫refresh),只有写到段里,数据才是可搜索的。也就是只有refresh了数据才能被搜索到,refresh的间隔默认是一秒,理论上es可以保证写入的数据,一秒后是可以被搜索到的,所以说es是近实时搜索。

将数据写到段里的时候,是如何保证磁盘io效率的?

我们知道磁盘io 要通过fsync系统调用,他的代价是很高的,那es是如何保证高效的写入效率呢?在es内存和磁盘文件之间的文件系统缓存,es是先将新段写入文件系统缓存(万一这时程度挂了呢,数据还没有持久化呢,怎么保证数据的一致性),这一步就快了很多了,稍后在将数据刷到磁盘,新段一旦写入文件系统缓存,就可以被打开和读取了,这样es就实现了新段还没有提交完(es中有提交点的概念),就可以进行查询了。

如何保证持久化

其实各类数据库都基本上是一种思路,同时将数据写入log,万一挂了从log里往回补数据,这里es的日志叫做translog,translog被提交的过程就叫做flush。

这里有的小伙伴可能会疑惑:写log不也是往写磁盘吗,难道就快了?因为这类写都是顺序io,非随机io,不用寻址的,效率堪比内存。

段的优化

每秒钟都会refresh产生新的段,这么多是不是会影响查询效率,答案是毋庸置疑的,那怎么办?es还有一个段合并的机制,会定时的将小段合成大段。

http://www.lryc.cn/news/143868.html

相关文章:

  • 程序自动分析——并查集+离散化
  • Qt 获取文件图标、类型 QFileIconProvider
  • TopicExchange主题交换机
  • A Survey on Large Language Models for Recommendation
  • Springboot 入门指南:控制反转和依赖注入的含义和实现方式
  • 使用Tampermonkey(篡改猴)向页面注入js脚本
  • 软考高级系统架构设计师系列之:论文典型试题写作要点和写作素材总结系列文章二
  • 【Linux】如何在linux系统重启或启动时执行命令或脚本(也支持docker容器内部)
  • 医疗中心管理环境温湿度,这样操作就对了!
  • 嵌入式系统存储体系
  • 【Java架构-版本控制】-Gitlab安装
  • 关于disriminative 和 generative这两种模型
  • 关于Java中@Transient主键的作用的一些介绍
  • 死信队列理解与使用
  • tomcat 启动 java war 包
  • leetcode分类刷题:滑动窗口(三、两个序列+窗口定长类型)
  • 一个简单的web应用程序的创建
  • 分类行为的排斥作用
  • 表现层消息一致性处理
  • 【C语言进阶(8)】自定义数据类型1:结构体
  • 【Spring Boot】以博客管理系统举例,完整表述SpringBoot从对接Vue到数据库的流程与结构。
  • TabView 初始化与自定义 TabBar 属性相关
  • 线程池等待对象回调函数执行(CreateThreadpoolWait)
  • npm yarn pnpm npx nvm 命令怎么区分怎么用
  • 解锁市场进入成功:GTM 策略和即用型示例
  • 深度学习12:胶囊神经网络
  • unity 提取 字符串中 数字 修改后返回 字符串
  • GWO-LSTM交通流量预测(python代码)
  • mysql建表问题
  • RocketMQ:一个纯java的开源消息中间件--开发测试环境搭建