当前位置：首页 > news >正文

Elasticsearch 的索引优化常规项

news 2025/8/29 11:52:49

优化常规项

https://blog.csdn.net/bairo007/article/details/132019575

1、按实际情况适当调整主分片的数量

如果主分片数量太少，会导致每个分片中的数据量过大，而且无法利用集群中所有节点的计算资源。
如果主分片数量太多，会导致索引过度分散，造成数据迁移和调整的负担。

2、按实际情况适当调整主分片的数量

副本数量的设置会影响索引的可用性和读写性能。如果副本数量太少，当某个节点故障时，将无法保证数据的可用性。如果副本数量太多，会占用过多的磁盘空间和网络带宽，降低写入性能。

一般来说，我们可以通过以下两种方式来调整副本数量：

在创建索引时指定副本数量；
在已有索引上执行API操作来更改副本数量。

Mapping

在Elasticsearch中，Mapping是将文档字段映射到索引中的数据结构的过程。Mapping定义了索引中每个字段的类型、分词器、存储方式等信息，这些信息对于搜索和聚合操作来说非常重要。通过对Mapping进行优化，我们可以提高查询和聚合的性能，并减少索引的存储空间。

明确字段类型

在定义Mapping时，我们需要尽可能明确每个字段的类型。Elasticsearch支持的字段类型包括：

字符串（text、keyword）；
数值（long、integer、short、byte、double、float、half_float、scaled_float）；
日期（date）；
布尔值（boolean）；
二进制（binary）；
地理位置（geo_point、geo_shape）

在选择字段类型时，我们需要根据字段的实际含义和使用场景进行选择。例如，对于需要进行全文检索的文本字段，通常使用text类型。而对于需要进行精确匹配的文本字段，通常使用keyword类型。另外，对于数值类型的字段，我们还需要注意字段是否需要进行聚合操作，因为不同的字段类型在聚合时的性能表现也不同。

使用Field Data

Field Data是Elasticsearch中一种用于聚合操作的数据结构，它可以将文档字段的值加载到内存中，从而提高聚合操作的性能。在使用Field Data时，我们需要注意以下几点：

Field Data只适用于不可变的字段；
Field Data占用内存，因此在选择使用Field Data时需要注意内存使用情况；
Field Data对于高基数（cardinality）字段的性能表现较差。

使用嵌套字段

Elasticsearch支持嵌套字段，即在一个文档中嵌套另一个文档。使用嵌套字段可以简化查询和聚合操作，并提高查询性能。在使用嵌套字段时，我们需要注意以下几点：

嵌套字段的定义必须在Mapping中进行；
嵌套字段不能直接进行全文检索；
在使用嵌套字段进行聚合操作时，需要使用嵌套聚合（nested aggregation）

Analyzer

Analyzer是Elasticsearch中用于处理文本的组件，它可以将文本分割成一系列的词项（term），并将这些词项存储在索引中。Analyzer包括三个组件：字符过滤器（character filter）、分词器（tokenizer）和词项过滤器（token filter）

字符过滤器

字符过滤器用于对文本进行预处理，例如删除HTML标签、转换特殊字符等。Elasticsearch提供了一些内置的字符过滤器，例如HTML Strip Character Filter、Mapping Character Filter等

分词器

分词器用于将文本分割成一系列的词项。Elasticsearch提供了多种内置的分词器，例如Standard Tokenizer、Whitespace Tokenizer、Keyword Tokenizer等。另外，我们也可以通过自定义插件来实现自定义的分词器

词项过滤器

词项过滤器用于对分词后的词项进行过滤、修改或替换。Elasticsearch提供了多种内置的词项过滤器，例如Lowercase Token Filter、Stop Token Filter、Synonym Token Filter等。另外，我们也可以通过自定义插件来实现自定义的词项过滤器。。

Analyzer的优化

在使用Analyzer时，我们需要注意以下几点：

尽可能减少字符过滤器和词项过滤器的数量，因为它们会增加处理时间；
根据实际需求选择合适的分词器和词项过滤器；
在进行全文检索时，应该使用与索引时相同的Analyzer。

总结

通过对Elasticsearch索引进行优化，我们可以提高搜索和聚合的性能，并减少存储空间的占用。

查看全文

http://www.lryc.cn/news/331687.html

【JavaParser笔记01】JavaParser解析Java源代码中的类信息（javadoc注释、类名称）

Stable Diffusion扩散模型【详解】小白也能看懂！！

关于rabbitmq的prefetch机制

机器学习介绍

OpenCV4.9开发之Window开发环境搭建

pycharm调试（步过（Step Over）、单步执行（Step Into）、步入（Step Into）、步出（Step Out））

Linux是什么，该如何学习

C++ | Leetcode C++题解之第7题整数反转

Linux------一篇博客了解Linux最常用的指令

vscode安装通义灵码

RIP协议(路由信息协议)

SpringBoot根据配置类动态加载不同环境下的自定义配置

什么？穷哥们没钱RLHF？跟我一起DPO吧，丐版一样用

【Leetcode笔记】102.二叉树的层序遍历

进程的状态

spring-boot集成websocket

【Python】【Flask】提交表单后报500错误

Golang vs Java

HomePlug AV

【面试八股总结】超文本传输协议HTTP（二）

SQL Server中视图使用子查询的性能影响与优化方案

Adaboost集成学习 | Matlab实现基于SVM-Adaboost支持向量机结合Adaboost集成学习时间序列预测（股票价格预测）

Apache DolphinScheduler 【安装部署】