当前位置: 首页 > news >正文

【技术】记一次 Docker 中的 ES 数据迁移,使用 Reindex API

记一次 Docker 中的 ES 数据迁移,使用 Reindex API

  • 环境背景
  • 需求背景
  • 开始迁移
    • 确认老 ES 的访问地址
    • 在新 ES 中创建索引的 Mapping (选配)
    • 在新 ES 中配置老 ES 的地址
    • 开始迁移数据
    • 数据验证

首先声明,是因为环境限制,没有办法使用同步工具,不得已才使用 Reindex API 进行数据同步的。

环境背景

  • Linux
  • Docker:20
  • ElasticSearch:8

需求背景

老的 ES 在 Docker 安装的时候设置的内存太小,导致数据量过大时查询直接内存溢出,容器挂掉。原计划是修改老 ES 的内存配置,奈何最开始安装的时候没有进行挂接,进入到容器中也无法修改,就连 Docker 容器的 json 文件都改了,也不行。所以就直接启动了一个新的 ES 容器,这下把能挂接的目录都挂到宿主机上,方便后续修改。现在问题来了,之前的数据怎么办?要么忍痛割爱,等着系统同步,要么数据迁移。果断选择后者,谁让喜欢折腾呢。

开始迁移

确认老 ES 的访问地址

  • 情况1: 因为老 ES 安装的时候直接使用的主机模式,所以直接用宿主机的IP和对应端口就行。
  • 情况2: 没有使用主机模式,得先查看 Docker 给 ES 分配的 IP 地址。使用docker inspect <容器ID/名称> 查看容器信息。找到NetworkSettings -> NetWorks -> bridge -> IPAddress就可以看到 Docker 给 ES 分配的 IP 地址。

在新 ES 中创建索引的 Mapping (选配)

ES 在数据迁移的时候会自动创建索引,但是 Mapping 不会创建,所以有必要的话可以先在新 ES 中创建索引,并添加 Mapping。如果不需要可以跳过此步骤。

curl -X PUT "http://<ES_HOST>:9200/new_index?pretty" -H 'Content-Type: application/json' -d'
{"settings": { /* 自定义设置 */ },"mappings": { /* 自定义映射 */ }
}
'

在新 ES 中配置老 ES 的地址

编辑 elasticsearch.yml

cluster:remote:old_cluster:seeds: "<源集群容器IP>:9300"

添加配置后,重启容器生效。重启命令:docker restart <容器ID/名称>

开始迁移数据

重启之后,请求新 ES 地址,开始同步数据

curl -X POST "http://目标ES_HOST:9200/_reindex?pretty" -H 'Content-Type: application/json' -d'
{"source": {"remote": { "host": "http://源ES_HOST:9200" },"index": "old_index","size": 5000  // 每批迁移文档数},"dest": { "index": "new_index" }
}
'

如果 ES 有安全认证,需要在 remote 属性中添加认证属性;

"remote": {"host": "http://源ES_HOST:9200","headers": { "Authorization": "ApiKey <Base64编码的API密钥>" }
}

数据验证

curl -X GET "http://<ES_HOST>:9200/new_index/_count?pretty" -H 'Content-Type: application/json' -d'
{ "query": { "match_all": {} } }
'

PS:curl 可能用着不舒服,使用 postman 也是可以的,只需要把{}的内容作为请求的 body传递即可,注意改成 JSON 类型。

http://www.lryc.cn/news/571202.html

相关文章:

  • C++初阶-queue和deque(队列和双端队列)
  • 台积电(TSMC)工艺库命名规则
  • 在 HTTP 请求返回的状态码不为 200 时,重新发送请求
  • idea中配置svn及提交提示“未检测到更改”提示
  • 条件查询详细说明
  • 为编写Python脚本实现H3C交换机自动化配置笔记一
  • Java编程之外观模式
  • JSON编辑器:三种模式的应用(三)
  • 重构气血经络的数学模型:气血经络级联控制系统核心方程
  • 第17天:数据库学习笔记1
  • MySQL 默认连接数
  • .sstop勒索加密数据库恢复---惜分飞
  • 从电商平台下载数据的项目经验分享 (part 1)
  • 前后端拦截器+MDC实现纯数字 traceId 全链路日志追踪(axios + Spring Boot 超详细实战)
  • DeepSeek 大型 MoE 模型大规模部署压测学习
  • FlinkCDC-Hudi数据实时入湖原理篇
  • JVM监控的挑战:Applications Manager如何提供帮助
  • Spring Boot集成Kafka全攻略:从基础配置到高级实践
  • 多模态大语言模型演进:从视觉理解到具身智能的技术突破
  • Linux运维新人自用笔记(部署 ​​LAMP:Linux + Apache + MySQL + PHP、部署discuz论坛)
  • 5.安装IK分词器
  • ELK在Java的使用
  • Selenium(选择元素,浏览器/元素操作,等待,页面交互)
  • Windows Python 环境管理终极对比:极简方案 VS 传统方案(仅需 2 个软件实现全流程自动化)
  • Selenium(多窗口,frame,验证码,截图,PO模式)
  • rockx读取单张图片并检测图片内人脸的矩形
  • vite的常用配置
  • 「动态规划::数位DP」统计数字递推 / LeetCode 3352|1012(C++)
  • 线程池(Thread Pool)详解
  • 基于Cesium移动的天空云