当前位置: 首页 > news >正文

【Lucene】文件概览

Lucene 把索引拆成 “段(segment)+ 文件” 两层结构,每个段用同一前缀(如 `_0`、`_1`)命名一组文件;一个段就相当于一个独立的小索引。下面按文件扩展名列出常见文件及其作用、存放内容和使用场景,供速查。

 

扩展名 中文简称 存放内容 主要用途 

segments_N 段集合文件 当前索引包含多少个段、各段版本、提交点等 启动时加载整个索引的“目录” 

.si 段元数据 单个段的文档数、版本、是否复合文件等 打开段时读一次即可 

.tim 词典文件 按字典序保存所有 Term + 统计信息(docFreq、totalTermFreq)+ 指向倒排表的指针 先查 `.tim` 找到 Term 

.tip 词典索引 对 `.tim` 的 FST 索引,支持 O(log n) 快速定位到 block 加速 `.tim` 查找 

.doc 倒排表主体 docId 列表 + 词频(压缩差值编码) 拿到 Term 后读 `.doc` 获取文档 

.pos 位置文件 Term 在每个文档中的 字符/词级别位置(可选) 短语查询、高亮 

.pay 载荷文件 payload、偏移量 等附加信息(可选) 需要 payload 时使用 

.fdt 存储字段数据 文档被 `store=true` 的字段原始内容(正文、标题等) 搜索结果回显 

.fdx 存储字段索引 指向 `.fdt` 的 文档级别指针索引 快速随机访问 `.fdt` 

.fnm 字段元数据 字段名、类型、是否索引/存储、是否分词、docValues 类型等 构建 FieldInfo 

.nvd/.nvm Norms 数据/元数据 每篇文档每字段的 长度归一化因子 计算 BM25、打分 

.dvd/.dvm DocValues 数据/元数据 每篇文档每字段的 排序、聚合数值、分类标签 等 排序、聚合、脚本 

.tvx/.tvd/.tvf TermVector 索引/数据 每篇文档每字段的 词、位置、偏移、payload 向量信息 高亮、ML 特征 

.liv 存活文档列表 标记哪些 docId 仍然有效(被删除的置位) 过滤软删除文档 

.cfs/.cfe 复合文件/索引 把小文件合并成单个大文件 `.cfs` + 索引 `.cfe`(可选,减少句柄) 操作系统句柄紧张时启用 

 

使用场景速记

- 查词:`.tip` → `.tim` → `.doc/.pos/.pay`  

- 取原文:`.fdx` → `.fdt`  

- 打分:`.nvd`/`nvm` + `.doc`  

- 聚合/排序:`.dvd/.dvm`  

- 高亮/ML:`.tvx/.tvd/.tvf`

 

这样即可一眼看懂 Lucene 目录里的“一堆文件”各自职责。

http://www.lryc.cn/news/598133.html

相关文章:

  • 3D Semantic Occupancy Prediction
  • Linux进程生命周期:从创建到回收的完整闭环
  • 【建模与仿真】融合共现网络特征与知识增强语义梯度提升电子邮件分类
  • Jenkins最新版本的安装以及集成Allure生成测试报告
  • 跨越学术边界的战略选择:英文专著的潜在价值发掘
  • C++11之可变参数模板
  • 不同类型的交易所交易规则有哪些区别?
  • Apache Flink 实时流处理性能优化实践指南
  • Spring中的循环依赖:解密、破局与架构启示
  • 视频二维码在产品设备说明书中的应用
  • AI 在金融:重塑金融服务的智能革命
  • markdown学习笔记(个人向) Part.2
  • ESP-NOW无线通信协议:物联网设备间的高效对话方式
  • Effective Modern C++ 条款16:保证const成员函数的线程安全性
  • 字节的机器人模型 GR-3
  • 时间日期选择器组件进行日期和时间的禁用处理逻辑
  • vue3 el-table 列数据合计
  • 深入浅出 IO 多路复用:用 Java NIO 打造高性能网络应用
  • Redis的Pipeline
  • 【C++】使用中值滤波算法过滤数据样本中的尖刺噪声
  • 「Linux命令基础」查看用户和用户组状态
  • Vue 项目中的组件引用如何实现,依赖组件间的数据功能交互及示例演示
  • 如何解决pip安装报错ModuleNotFoundError: No module named ‘notebook’问题
  • 处理URL请求参数:精通`@PathVariable`、`@RequestParam`与`@MatrixVariable`
  • 项目重新发布更新缓存问题,Nginx清除缓存更新网页
  • 强制缓存与协商缓存
  • 如何在 conda 中删除环境
  • 配置NGINX
  • fastapi 传参以及参数校验
  • HTML应用指南:利用GET请求获取全国奈雪的茶门店位置信息