当前位置: 首页 > news >正文

Elasticsearch倒排索引

什么是倒排索引

倒排索引(Inverted Index)是一种将文档中的每个单词映射到包含该单词的文档列表上的数据结构

倒排索引的构建过程

文档1: “我爱吃苹果”
文档2: “我爱吃香蕉”
文档3: “我喜欢苹果和香蕉”
  • 文档分词:将文档中的文本内容进行切分,生成一系列的词项(tokens)。

文档1: ["我", "爱", "吃", "苹果"]
文档2: ["我", "爱", "吃", "香蕉"]
文档3: ["我", "喜欢", "苹果", "和", "香蕉"]
  • 建立词项列表:为每个唯一的词项创建一个列表,记录包含该词项的文档和位置。这样就形成了一个词项-文档映射。

  • 构建倒排表:创建一个包含所有词项的表,每个词项映射到其出现的文档ID及在文档中的位置。最终的结构类似于:

    • "我" -> [doc1, doc2, doc3]
      "爱" -> [doc1, doc2]
      "吃" -> [doc1, doc2]
      "苹果" -> [doc1, doc3]
      "香蕉" -> [doc2, doc3]
      "喜欢" -> [doc3]
      "和" -> [doc3]

查询过程

当用户进行搜索时,例如查询“苹果”,Elasticsearch会查找倒排索引,找到与“苹果”相关的文档列表(在本例中为doc1和doc3),并根据相关性(可能还会计算TF-IDF、BM25等评分模型)返回结果。

优化与扩展

  • 压缩:由于倒排索引可能会占用大量存储空间,通常会对其进行压缩以减少存储成本。

  • 分片和副本:为了提高并发访问能力和故障恢复,Elasticsearch允许把倒排索引分为多个分片(shard)和副本(replica),从而分散数据存储和请求处理的压力。

http://www.lryc.cn/news/431773.html

相关文章:

  • 速盾:ddos常用防御方法是什么?
  • 二分算法入门(简单题)
  • 在使用React Hooks中,如何避免状态更新时的性能问题?
  • Pytest插件pytest-selenium-让自动化测试更简洁
  • 视觉语言模型(VLMs)知多少?
  • 重新修改 Qt 项目的 Kit 配置
  • 【Spring Boot 3】【Web】自定义响应状态码
  • Locksupport凭证的底层原理
  • Elasticsearch 再次开源
  • 对称密码学
  • 正则表达式优化建议
  • Oracle RAC关于多节点访问同一个数据的过程
  • IPC$漏洞多位密码爆破方法
  • 计算机网络(八股文)
  • Docker打包镜像
  • RabbitMQ 基础架构流程 数据隔离 创建用户
  • win10系统下openssl证书生成和单向认证
  • 动态规划的解题思想
  • OpenCV结构分析与形状描述符(10)检测并提取轮廓函数findContours()的使用
  • HBase 源码阅读(二)
  • 深度学习每周学习总结N9:transformer复现
  • 数据结构与算法(3)栈和队列
  • 11、Django Admin启用对计算字段的过滤
  • xxl-job升级到springboot3.0 导致页面打不开报错)问题
  • 栈和队列.
  • Parallel.ForEach - 并行处理
  • 【MySQL】初识MySQL—MySQL是啥,以及如何简单操作???
  • LLM应用实战: 产业治理多标签分类
  • 下载Mongodb 4.2.25 版本教程
  • docker拉取redis5.0.5并建立redis集群