当前位置：首页 > news >正文

elasticsearch （dsl）

news 2025/8/9 2:34:41

正排索引和倒排索引

正排索引：通过id ，查询content

倒排索引：通过content，查询到符合的 ids

eg：

正排索引就是通过《静夜思》，找到整片文章。

倒排索引通过“明月”，找到《静夜思》《望月怀古》《关山月》等

get 查询

索引的基本信息：

GET your_index/_mapping //跟看mysql表字段差不多
GET your_index/_alias //查看索引的别名
GET /_cat/health?v //查看集群状态
GET _cat/indices // 查看所有index
GET _cat/shards/your_index //查看指定索引的分片数，每个分片有主（p）副（r）分片

查询索引内容：

match_all


GET /you_index/_search
{"query":{"match_all": {}
}

`bool`

bool查询是一个非常强大且常用的复合查询，它允许你组合多个查询条件。bool 查询的核心概念包括以下四种子句：

must: 子句必须匹配文档。类似于 SQL 中的 AND 操作符。
filter: 子句必须匹配文档，但不影响评分。也就是说，它只过滤文档，但不参与评分计算。
should: 子句可以匹配文档。如果在一个 bool 查询中包含了多个 should 子句，则至少一个 should 子句必须匹配文档。类似于 SQL 中的 OR 操作符。
must_not: 子句不能匹配文档。类似于 SQL 中的 NOT 操作符。

eg：

GET you_index/_search
{"query": {"bool": {"must": [{"bool": {"should": [{"term": {"name": {"value": "林俊凯","boost": 1}}},{"term": {"zh_name": {"value": "林俊凯","boost": 1}}}]}},{"bool": {"should": [{"range": {"fans_num": {"gte": "800"}}},{"terms": {"tag": [1010,1013]}}]}}]}},"sort": {"_score": {"order": "desc"},"score": {"order": "desc"}}
}

range

    "range": {"fans_num": {"gte": 800,"lte":126334}}

gte：大于等于；lte小于等于

term

不分词，精准完全匹配查询

GET your_index_search/_search
{"query": {"term": {"name": {"value": "天空"}}}
}

terms

不分词，命中数组一个即可，不要求全部命中

GET your_index_search/_search
{"query": {"terms": {"tag": ["美食","购物"]}}
}

prefix

前缀匹配，不分词，精准匹配前半部分

GET your_index_search/_search
{"query": {"prefix": {"name_full": {"value": "林俊"}}}
}

林俊凯，林俊xxx都会命中

multi_match

会对query词进行分词

GET your_index_search/_search
{"query": {"bool": {"must": [{"multi_match": {"query": "北京景点","fields": ["name","name_full", "name_lower"],"analyzer":"ik","minimum_should_match":"3<80%"}}]}}
}

这里的 "minimum_should_match": "3<80%" 指定了如下规则：

如果分词数量小于或等于 3，则必须匹配所有分词。
如果分词数量大于 3，则至少匹配 80% 的分词。

这里的“analyzer”，是分词器，常见的有ik ik-smart standard mla

GET _analyze
{"analyzer":"mla","text":"北京景点"
}//结果为
{"tokens": [{"token": "北京","start_offset": 0,"end_offset": 2,"type": "CN_WORD","position": 0},{"token": "景点","start_offset": 2,"end_offset": 4,"type": "CN_WORD","position": 1}]
}

eg：“北京景点”分词为【北京，景点】，分词项为2，小于3，那么【北京】和【景点】都需要在field中匹配到。multi_match 查询的目的是在多个字段中搜索查询词中的词语，并且匹配规则会跨字段应用，比如【北京】在name匹配到，【景点】在name_lower配到到，即匹配成功。

multi_phrase

会对query词进行分词（有的人会认为不会分词，❌），match_phrase要求严格，不仅要求，要能够匹配到分词后的所有单词，且分词后的单词顺序也要和命中结果中的顺序保持一致。

GET your_index_search/_search
{"query": {"bool": {"must": [{"match_phrase": {"name": "北京"}}]}}
}

name = “北京”能找到，“北京” 或者“京北” 就找不到

可以设置slop，最大间隔，默认是0

match

会分词，没有multi_phrase那么严格，match要求不高，只要匹配到分词后的任意一个单词，就算查到结果 。

为什么match能找到，term查询不到呢？

首先，要看创建索引的时候mapping ，字段的类型。如果是type是keyword，不允许分词。

其次，查看字段类型发现是text，term查询的字段类型只能是keyword

"keyword_full": {"type": "text","fields": {"keyword": {"type": "keyword"}}},

查看全文

http://www.lryc.cn/news/364944.html

聊聊大模型微调训练全流程的思考

Python变量符号：深入探索与实用指南

实验八页面置换模拟程序设计

Spring类加载机制揭秘：深度解析“卸载”阶段

Jupyter Notebook快速搭建

Linux C语言：数组的定义和初始化

spring框架限制接口是否要登录过才能访问

【全开源】废品回收垃圾回收小程序APP公众号源码PHP版本

勒索软件分析_目标文件扫描行为分析

2024050401-重学 Java 设计模式《实战代理模式》

HTML跨年烟花

微服务第二轮

线性模型-分类

OpenAI前董事会成员称Sam Altman因 “ 向董事会撒谎 ” 而被解雇

【启明智显分享】WIFI6开发板ZX6010：开源OpenWrt SDK,接受定制！

C语言能否使⽤ fflush( ) 函数清除多余的输⼊？

如何把试卷上的字去掉再打印？分享三种方法

Android开机动画压缩包zip，自制开机动画(基于Android10.0.0-r41)

手机站怎么推广

Mysql疑难报错排查 - Field ‘XXX‘ doesn‘t have a default value

YOLOv8_obb预测流程-原理解析[旋转目标检测理论篇]

02JAVA字符串和集合

Qt如何让按钮的菜单出现在按钮的右侧

C++的类和new和delete和菱形继承机制

Redis教程(二十二)：Redis的过期删除和缓存淘汰策略

Lodop 实现局域网打印

HarmonyOS（二十四）——Harmonyos通用事件之触摸事件

2024-前端面试的正确打开方式（GitHub火爆场景题剖析）

Vue3项目炫酷实战，检测密码强度值

PHP实现抖音小程序用户登录获取openid

正排索引 和 倒排索引