当前位置: 首页 > news >正文

ElasticSearch之零碎知识点

写在前面

本文记录es的零碎知识点,包括但不限于概念,集群方式,等。

1:词项查询 VS 全文查询

词项查询:查询的内容不做分词处理,输入的什么查询什么。

全文查询:查询的内容会做分词处理,生成多个词项,然后对每个词项分别查询,所有的查询结果汇总在一起,作为最终的结果。

具体参考这里 。

2:Query Context VS Filter Context

Query Context:算分的上下文。

Filter Context:不算分的上下文。

3:copy_to

使用copy_to,如下:
在这里插入图片描述
测试:

# 1:先删除索引,因为前面创建过了
DELETE users
# 2:创建索引,并指定firstName的null_value
PUT users
{"mappings": {"properties": {"firstName": {"type": "text","copy_to": "fullName"},"lastName": {"type": "text","copy_to": "fullName"}}}
}
# 3:创建新数据
POST users/_create/1
{"firstName": "jack","lastName": "james"
}
# 4:搜索在fulleName中包含jack或者是包含james的,可以正常搜索到
GET users/_search?q=fullName:(jack james)
{"profile": "true"
}

4:常见分词器

4.1:中文分词器

ik 。

icu 。

pinyin 分词为拼音
配置:
在这里插入图片描述
例子:
在这里插入图片描述
在这里插入图片描述

  • HanLP
    安装参考pinyin ,下载参考下图:
    在这里插入图片描述

5:相关性,相关文档,precision,recall

  • 相关性
1:需要找到的文档都找到了?
2:找到了多少错误的文档??
3:找到的文档评分高低是否符合预期???
  • 相关文档
    应该找到的文档。
  • precision,recall
    如果找到的文档我们标记为positive,没有找到的文档标记为negative,然后我们用true来表示找到的该找到的,没找到的不该找到的,用false来表示没找到的该找到的,找到的不该找到的绕啊!!!,则我们可以得到下图:
    在这里插入图片描述
precision就是:返回的文档中相关文档数/返回的文档数
recall就是:返回的相关文档/总相关文档

如下图:
在这里插入图片描述
一般搜索时尽量提高recall值是我们的目标。

写在后面

参考文章列表

Elasticsearch:理解搜索中的 precision 及 recall 。

http://www.lryc.cn/news/306731.html

相关文章:

  • 【春运抢票攻略浅析】
  • 【Java EE初阶二十五】简单的表白墙(一)
  • 人工智能的新浪潮:探索OpenAI的Sora视频模型及其对未来创作的影响
  • 【c语言】字符函数和字符串函数(上)
  • React18源码: schedule任务调度messageChannel
  • Jmeter 学习目录
  • 计算机网络 数据链路层课后题
  • 实现验证码功能
  • PyQt6的开发流程(密码生成小程序为例)
  • 思腾云计算中心 | 5千平米超大空间,基础设施完善,提供裸金属GPU算力租赁业务
  • 【Leetcode每日一题】二分查找 - 在排序数组中查找元素的第一个和最后一个位置(难度⭐⭐)(18)
  • 远程连接 vscode 出错 “远程主机可能不符合 glibc 和 libstdc++ VS Code 服务器的先决条件”
  • Maven入门:Java项目构建和管理的利器
  • 《游戏引擎架构》 -- 学习4
  • Wagtail安装运行并结合内网穿透实现公网访问本地网站界面
  • 10分钟快速开始SkyWalking结合Springboot项目
  • STM32—触摸键
  • python中字典(dict)原理及其操作
  • ​​​​​​​​​​​​​​.NET Core Web API实现微服务集群部署
  • 网络安全与信创产业发展:构建数字时代的护城河
  • 外包干了3个月,技术倒退1年。。。
  • Unity发布webgl获取浏览器的URL
  • StarRocks实战——多维分析场景与落地实践
  • golang 函数式编程库samber/mo使用: Result
  • Python 实现 CHO 指标计算(济坚指数):股票技术分析的利器系列(12)
  • MySQL的SQL语句
  • ABAP 发送带EXCEL邮件
  • Linux Nginx SSL 证书配置正确,扔展示不安全
  • 算法沉淀——动态规划之子数组、子串系列(上)(leetcode真题剖析)
  • Flutter GetX 之 暗黑模式