当前位置: 首页 > news >正文

【Elasticsearch】BM25的discount_overlaps参数

`discount_overlaps` 是 Elasticsearch/Lucene 相似度模型(Similarity)里的一个布尔参数,用来决定:

> 在计算文档长度归一化因子(norm)时,是否忽略“重叠 token”(即位置增量 positionIncrement=0 的 token)。

---

✅ 默认值与含义

参数值 含义 

`true`(默认) 重叠 token 不计入文档长度,不影响 norm 

`false` 重叠 token 会计入文档长度,参与 norm 计算 

---

✅ 使用场景举例

- 如果你使用了 同义词过滤器(synonym filter),多个同义词可能会落在 同一位置,这些 token 的 `positionIncrement=0`。

- 默认 `discount_overlaps=true` 会让这些 token 不影响文档长度,从而避免重复同义词“人为”拉长文档。

- 如果你希望这些 token 也参与长度计算,可设为 `false`。

---

✅ 配置示例(BM25)

```json

PUT /my_index

{

  "settings": {

    "index": {

      "similarity": {

        "my_bm25": {

          "type": "BM25",

          "k1": 1.2,

          "b": 0.75,

          "discount_overlaps": false

        }

      }

    }

  },

  "mappings": {

    "properties": {

      "title": {

        "type": "text",

        "similarity": "my_bm25"

      }

    }

  }

}

```

http://www.lryc.cn/news/594567.html

相关文章:

  • Qt中的网络通信
  • Lua:小巧而强大的脚本语言,游戏与嵌入式的秘密武器
  • 搭建前端页面,介绍对应标签
  • wordle game(猜词游戏)小demo【react + ts】
  • 搭建种草商城框架指南
  • Protein FID:AI蛋白质结构生成模型评估新指标
  • MCP协议解析:如何通过Model Context Protocol 实现高效的AI客户端与服务端交互
  • 基础神经网络模型搭建
  • 【Linux】3. Shell语言
  • 双8无碳小车“cad【17张】三维图+设计说名书
  • XTTS实现语音克隆:精确控制音频格式与生成流程【TTS的实战指南】
  • XSS GAME靶场
  • 仙盟数据库应用-外贸标签打印系统 前端数据库-V8--毕业论文-—-—仙盟创梦IDE
  • Apache基础配置
  • ESMFold 安装教程
  • 深度相机的工作模式(以奥比中光深度相机为例)
  • 近期工作感想:职业规划篇
  • 【RAG Agent】Deep Searcher实现逻辑解析
  • 尚庭公寓--------登陆流程介绍以及功能代码
  • Linux:线程控制
  • API获取及调用(以豆包为例实现图像分析)
  • 《计算机网络》实验报告三 UDP协议分析
  • 单线程 Reactor 模式
  • 【PyTorch】图像二分类项目
  • SSE和WebSocket区别到底是什么
  • 渗透笔记(XSS跨站脚本攻击)
  • `MYSQL`、`MYSQL_RES` 和 `MYSQL_FIELD`的含义与使用案例
  • [硬件电路-59]:电源:电子存储的仓库,电能的发生地,电场的动力场所
  • 2025最新 PostgreSQL17 安装及配置(Windows原生版)
  • BST(二叉搜索树)的笔试大题(C语言)