当前位置：首页 > news >正文

elasticsearch 使用enrich processor填充数据

news 2025/7/11 0:54:06

文章目录

- - 使用 POST 请求手动插入用户数据
  - 1. 创建 Enrich Policy
  - - 步骤 1.1: 创建 Enrich Policy
    - 步骤 1.2: 执行 Enrich Policy
  - 2. 创建 Ingest Pipeline
  - - 步骤 2.1: 创建 Ingest Pipeline
    - 步骤 2.2: 配置 Enrich Processor 参数
  - 3. 使用 Ingest Pipeline
  - - 步骤 3.1: 使用 Pipeline 进行文档索引
    - 步骤 3.2: 查询和查看结果
  - 4. 更新 Enrich Policy（如果需要）
  - - 步骤 4.1: 更新 Enrich Policy
    - 步骤 4.2: 重新执行 Enrich Policy
  - 5. 清理 Enrich Policy（如果不再使用）
  - 总结

在 Elasticsearch 中使用 enrich 处理器的流程包括几个主要步骤。首先，您需要定义一个 enrich policy，然后将该策略应用到 Ingest Pipeline 中，最后在数据索引过程中使用该管道来实现数据的丰富操作。下面是一个详细的流程步骤。

使用 POST 请求手动插入用户数据

POST /users/_doc/1
{"user_id": "1234","user_name": "John Doe","email": "johndoe@example.com","age": 30,"address": "123 Elm Street"
}

1. 创建 Enrich Policy

enrich policy 定义了如何从某个源索引中提取数据，并根据特定字段将其与目标文档进行匹配。这是使用 enrich 处理器的基础。

步骤 1.1: 创建 Enrich Policy

假设我们有一个 users 索引，存储了用户的详细信息（如 user_id、user_name、email 等），并且我们想将这些信息基于 user_id 字段丰富到其他索引中的文档。

PUT _enrich/policy/user_enrich_policy
{"match": {"indices": ["users"],  // 数据来源索引"match_field": "user_id",  // 用于匹配的字段"enrich_fields": ["user_name", "email", "age"]  // 要从源索引中获取的字段}
}

在这里：

indices: 源数据所在的索引（这里是 users 索引）。
match_field: 用于匹配的字段（这里是 user_id 字段）。
enrich_fields: 要从源索引中获取并丰富目标文档的字段（比如 user_name、email、age 等）。

步骤 1.2: 执行 Enrich Policy

创建了 enrich policy 后，你需要执行它，这样 Elasticsearch 就会根据 match 查询从源索引中提取数据。

POST _enrich/policy/user_enrich_policy/_execute

执行此请求后，Elasticsearch 将根据政策从 users 索引中提取数据并创建一个内存中的匹配索引。

注意：Enrich Policy 是一个异步操作，创建并执行之后，它会定期更新和同步相关的数据。

2. 创建 Ingest Pipeline

enrich 处理器是通过 Ingest Pipeline 来使用的。在这个管道中，你可以配置 enrich 处理器，它会在文档被索引时将 enrich 数据合并到目标文档中。

步骤 2.1: 创建 Ingest Pipeline

你可以创建一个使用 enrich 处理器的 Ingest Pipeline。该管道会基于文档中的 user_id 字段从 user_enrich_policy 中查找并合并信息。

PUT _ingest/pipeline/user_enrich_pipeline
{"description": "Enrich user data from users index","processors": [{"enrich": {"policy_name": "user_enrich_policy",  // 使用的 enrich policy 名称"field": "user_id",  // 用于匹配的字段名"target_field": "user_info"  // 合并到目标文档的字段名}}]
}

在这里：

policy_name: 指定我们创建的 user_enrich_policy。
field: 目标文档中用来匹配的字段（在这里是 user_id）。
target_field: 合并后的数据将被存储在目标文档中的字段（比如 user_info）。

步骤 2.2: 配置 Enrich Processor 参数

在 enrich 处理器中，你还可以使用以下几个可选参数：

ignore_missing: 是否忽略缺失的匹配项。默认为 false，即当没有找到匹配时，会抛出错误。如果设置为 true，则会忽略没有匹配的情况，目标字段将保持为空。
max_matches: 如果有多个匹配项，限制合并数据的数量。默认为 1。

3. 使用 Ingest Pipeline

当 enrich 处理器和管道准备好后，你可以在索引文档时使用它。

步骤 3.1: 使用 Pipeline 进行文档索引

当你将文档索引到 Elasticsearch 时，可以指定要使用的 ingest pipeline，在该管道中，enrich 处理器会根据 user_id 字段从 users 索引获取并合并相关数据。

POST /my_index/_doc/1?pipeline=user_enrich_pipeline
{"user_id": "1234"  // 当前文档中包含 user_id，enrich 处理器会根据此字段进行匹配
}

步骤 3.2: 查询和查看结果

一旦文档被成功索引，你可以查询目标文档并查看 user_info 字段，里面会包含 users 索引中对应 user_id 的信息。

GET /my_index/_doc/1

假设 user_id 为 1234，那么返回的文档可能如下：

{"_id": "1","_source": {"user_id": "1234","user_info": {"user_name": "John Doe","email": "johndoe@example.com","age": 30}}
}

在这里，user_info 字段包含了来自 users 索引的用户数据（如 user_name、email 和 age）。

4. 更新 Enrich Policy（如果需要）

如果你需要更新 enrich policy，可以进行相应的调整，比如添加或删除字段，修改匹配规则等。然后，重新执行 enrich policy。

步骤 4.1: 更新 Enrich Policy

PUT _enrich/policy/user_enrich_policy
{"match": {"indices": ["users"],"match_field": "user_id","enrich_fields": ["user_name", "email", "age", "address"]  // 新增加了 address 字段}
}

步骤 4.2: 重新执行 Enrich Policy

POST _enrich/policy/user_enrich_policy/_execute

更新后，新的 user_info 字段将包括新的数据（例如 address）。

5. 清理 Enrich Policy（如果不再使用）

当不再需要某个 enrich policy 时，可以删除它：

DELETE _enrich/policy/user_enrich_policy

这会删除 enrich policy 和关联的匹配数据。

总结

使用 enrich 处理器的完整流程包括以下几个步骤：

创建 Enrich Policy：定义从源索引中提取数据的规则。
执行 Enrich Policy：执行政策并创建匹配数据。
创建 Ingest Pipeline：在管道中使用 enrich 处理器，将匹配的数据合并到目标文档中。
使用 Pipeline 索引数据：使用指定的管道进行文档索引。
查询数据：查询文档，查看合并后的数据。
更新和清理：根据需求更新或删除 enrich policy。

通过 enrich 处理器，您可以在索引文档时将来自其他索引的相关数据动态合并，从而减少实时查询的复杂度和延迟。

查看全文

http://www.lryc.cn/news/505406.html

VMProtect：软件保护与安全的全面解决方案

Web 毕设篇-适合小白、初级入门练手的 Spring Boot Web 毕业设计项目：教室信息管理系统（前后端源码 + 数据库 sql 脚本）

第十二篇：linux下socket本地套接字通讯

Spring Boot 2.1.7 数据源自动加载过程详解

【Vue.js 3.0】provide 、inject 函数详解

JVM（Java虚拟机）的虚拟机栈

Elasticsearch02-安装7.x

iPhone恢复技巧：如何从 iPhone 恢复丢失的照片

vba批量化调整word的图和图表标题

【Flutter_Web】Flutter编译Web第二篇（webview篇）：flutter_inappwebview如何改造方法，变成web之后数据如何交互

【C语言的奥秘11】指针知识点总结（续）

excel 列名是数据表的字段名，单元格的值是数据表对应字段的值，生成sql插入语句

AI Agent与MEME：技术与文化融合驱动Web3创新

IO的入门

构建一个rust生产应用读书笔记四（实战1）

SpringCloudAlibaba | Sentinel从基础到进阶

算法刷题Day18: BM41 输出二叉树的右视图

【信息系统项目管理师-论文真题】2015下半年论文详解（包括解题思路和写作要点）

Windows如何安装go环境，离线安装beego

JavaScript网络请求( XMLHttpRequest 对象,进度事件, 跨源资源共享)

计算机网络信息系统安全问题及解决策略

解决并发情况下调用 Instruct-pix2pix 模型推理错误：index out of bounds 问题

你了解TCP/IP参考模型吗

高斯混合模型及最大期望算法（EM）聚类

批处理命令的语法与功能

33. Three.js案例-创建带阴影的球体与平面

Three.js材质纹理扩散过渡

免费开源！推荐一款网页版数据库管理工具！

生态系统NPP及碳源、碳汇模拟实践技术应用（土地利用变化、未来气候变化、空间动态模拟）

Mvc、Springmvc框架