当前位置：首页 > article >正文

ElasticSearch 8.x 快速上手并了解核心概念

article 2025/9/11 8:15:07

在新版Elasticsearch中，文档document就是一行记录(json)，而这些记录存在于索引库(index)中, 索引名称必须是小写
与关系型数据库对比

index（索引）
- 在新版本中的Elasticsearh中，索引的概念等同于Mysql中表的概念，Elasticsearch中的索引可以直接存储数据
document（文档）
- 真正的数据，存储一条数据就是一份文档，存储格式为JOSN，等同于mysql中的一条数据
shards（分片）
- 数据量特大，没有足够大的硬盘空间来一次性存储，且一次性搜索那么多的数据，响应跟不上
- ES提供把数据进行分片存储，这样方便进行拓展和提高吞吐
replicas（副本）
- 分片的拷贝，当主分片不可用的时候，副本就充当主分片进行使用
- 索引分片的备份，shard和replica一般存储在不同的节点上，用来提高可靠性
- 案例
  - 假如Elasticsearch中的每个索引分配5个主分片和1个副本
  - 如果集群中至少有两个节点，索引将会有5个主分片和另外5个复制分片（1个完全拷贝）这样每个索引总共有10个分片

GET /_cat/indices?v=true&pretty

GET /_cat/shards?v=true&pretty

PUT /<index_name>
{"settings": {"number_of_shards": 1,"number_of_replicas": 1}
}

HEAD /<index_name>

GET /<index_name>

PUT /<index_name>/_settings
{"settings": {"number_of_replicas": 2}
}

DELETE /<index_name>

PUT /my_index
{"mappings": {"properties": {"id": {"type": "keyword"},"title": {"type": "text"},"price": {"type": "float"}}}
}

GET /<index_name>/_mappingGET /my_index/_mapping

text字段类型
- text类型主要用于全文本搜索，适合存储需要进行全文本分词的文本内容，如文章、新闻等
- text字段会对文本内容进行分词处理，将文本拆分成独立的词项（tokens）进行索引
- 分词的结果会建立倒排索引，使搜索更加灵活和高效
- text字段在搜索时会根据分词结果进行匹配，并计算相关性得分，以便返回最佳匹配的结果
keyword字段类型
- keyword类型主要用于精确匹配和聚合操作，适合存储不需要分词的精确值，如ID、标签、关键字等
- keyword字段不会进行分词处理，而是将整个字段作为一个整体进行索引和搜索
- 这使得搜索只能从精确的值进行匹配，而不能根据词项对内容进行模糊检索
- keyword字段适合用于过滤和精确匹配，同时可以进行快速的基于精确值的聚合操作
类型选择
- 在选择text字段类型和keyword字段类型时，需要根据具体的需求进行权衡和选择
- 如果需要进行全文本检索，并且希望根据分词结果计算相关性得分，以获得最佳的匹配结果，则选择text字段类型
- 如果需要进行精确匹配、排序或聚合操作，并且不需要对内容进行分词，则选择keyword字段类型