当前位置: 首页 > news >正文

重生之我们在ES顶端相遇第15 章 - ES 的心脏-倒排索引

文章目录

      • 前言
      • 为什么叫倒排索引
      • 数据结构
      • 如何生成
      • 如何查询
      • TF、IDF
      • 参考文档

前言

上一章,简单介绍了 ES 的节点类型。
本章,我们要介绍 ES 中非常重要的一个概念:倒排索引。
ES 的全文索引就是基于倒排索引实现的。
本章内容建议重点学习,因为面试也常问。

为什么叫倒排索引

倒排索引指的是将每一个关键字映射到它出现的文档中。如下图所示
在这里插入图片描述

因为结构是倒着的,因此被称为倒排索引。

数据结构

倒排索引分为 2 部分:一部分叫 term directory(term 词典),一部分叫 posting list(倒排列表)。如下图所示
在这里插入图片描述

  • term directory
    term 字典,存放着每个单词到对应倒排列表的映射关系

  • posting list
    Docs 是一个数组。其中 1:2:[2,6] 意思如下

    • 1:文档ID
    • 2:词频(term frequency)
    • [2,6]:出现在文档中的第 2,6 个 term。

如何生成

这里涉及到我们之前讲过的分词器。工作流程如下图所示
在这里插入图片描述

大体就包含2部分,根据分词器将文本分词,然后根据分词生成倒排索引。

如何查询

例如我们查询:To do right
则该文本会先被分词为:to, do, right
对应的结果如下图所示:
在这里插入图片描述

TF、IDF

默认情况下,ES 会根据文档与搜索词的相关性得分对结果降序返回。相关性得分与以下 2 个概念有关(稍做了解,后续会出文章做更深入的介绍)

  • Term Frequency(TF):term 在文档中出现的频率,得分正相关。出现频率越高,得分越高
  • Inverted Document Frequency(IDF):term 在 所有文档 中出现的频率,得分负相关。出现频率越高,得分越低。

参考文档

Indexing: Inverted Index

http://www.lryc.cn/news/443497.html

相关文章:

  • 金刚石切削工具学习笔记分享
  • 【文献阅读】基于原型的自适应方法增强未见到的构音障碍者的语音识别
  • Kafka-Go学习
  • Nginx反向代理出现502 Bad Gateway问题的解决方案
  • 通信工程学习:什么是VLAN虚拟局域网
  • python qt5 常用
  • 漏洞复现_永恒之蓝
  • PyCharm的使用
  • 浅谈C#之AutoResetEvent和ManualResetEvent
  • 【网络安全 | 靶机搭建】修改镜像源、更新软件源、安装git、更改python版本等
  • VuePress搭建文档网站/个人博客(详细配置)主题配置
  • Go语言笔记
  • java缓存介绍
  • react中diff的选择性子树渲染
  • Git clone远程仓库没有其他分支的问题
  • 山东潍坊戴尔存储服务器维修 md3800f raid恢复
  • Hive企业级调优[6]——HQL语法优化之任务并行度
  • Excel 冻结多行多列
  • 基于微信小程序的智慧物业管理系统
  • 【论文笔记】BEVNeXt: Reviving Dense BEV Frameworks for 3D Object Detection
  • 基于open-gpu-kernel-modules的p2p vram映射bar1提高通信效率
  • java之斗地主部分功能的实现
  • 我的AI工具箱Tauri版-VideoIntroductionClipCut视频介绍混剪
  • 【鸿蒙OH-v5.0源码分析之 Linux Kernel 部分】011 - 第一个用户空间进程 init 进程 第一阶段初始化过程 源码分析
  • MyBatis 源码解析:Mapper 文件加载与解析
  • (11)(2.1.2) DShot ESCs(二)
  • yolov5/8/9模型在COCO分割数据集上的应用【代码+数据集+python环境+GUI系统】
  • 技术周总结 09.16~09.22 周日(架构 C# 数据库)
  • 【java实现json转化为CSV文件】
  • MySQL索引知识个人笔记总结(持续整理)