当前位置: 首页 > news >正文

RAG理论:ES混合搜索BM25+kNN(cosine)以及归一化

接前一篇:RAG实践:ES混合搜索BM25+kNN(cosine)

https://blog.csdn.net/Xin_101/article/details/140230948

本文主要讲解混合搜索相关理论以及计算推导过程,
包括BM25、kNN以及ES中使用混合搜索分数计算过程。
详细讲解:
(1)ES中如何通过BM25计算关键词搜索分数;
(2)kNN如何通过consine计算语义/向量搜索最终分数,不是直接使用consine距离;
(3)混合搜索最终得分是如何计算的,如何进行归一化优化。

Note:提前声明
下面这张是使用ik分词器进行计算的,为了好截图,后文讲解则是使用默认分词器,
不影响过程分析。

在这里插入图片描述

4 理论

4.1 BM25

BM25(Best Matching 25)匹配算法用于文本检索,其中,25,查阅相关网络资源说是第25次迭代的算法,BM25基于TF-IDF,并进行了改进,引入了可调整参数k1和b。
k1:为饱和函数,防止某额词在文档中出现次数过多导致权重过大;
b:为文档长度因子,使文档长度堆权重的影响不是线性的,更好地适应不同长度的文档。
这也是BM25优点以及缺点的来源:

  • 优点
    (1)k1和b,考虑文档长度,可以有效避免文档长度带来的影响;
    (2)根据不同领域的数据,可以调整k1和b,获取更好的搜索效果,适应不同领域的数据。
  • 缺点
    (1)需要高质量的数据;
    (2)参数k1和b直接影响检索效果,需要不断优化调整,以适应具体的场景。

B M 25 ( Q , D ) = ∑ i = 1 n I D F ( q i ) ⋅ f ( q i , D ) ⋅ ( k 1 + 1 ) f ( q i , D ) ⋅ k 1 ⋅ ( 1 − b + b ⋅ ∣ D ∣ a v g d l ) BM25(Q, D)=\sum_{i=1}^{n}IDF(q_{i})·\frac{f(q_{i}, D)·(k_{1}+1)}{f(q_{i}, D)·k_{1}·(1-b+b·\frac{|D|}{avgdl})} BM25(Q,D)=i=1nIDF(qi)f(qi,D)k1(1b+bavgdlD)f(qi,D)(k1+1)
其中:
T F ( q i ) = f ( q i , D ) ⋅ ( k 1 + 1 ) f ( q i , D ) ⋅ k 1 ⋅ ( 1 − b + b ⋅ ∣ D ∣ a v g d l ) TF(q_{i})=\frac{f(q_{i}, D)·(k_{1}+1)}{f(q_{i}, D)·k_{1}·(1-b+b·\frac{|D|}{avgdl})} TF(qi)

http://www.lryc.cn/news/393691.html

相关文章:

  • 分享大厂对于缓存操作的封装
  • 冯诺依曼体系结构与操作系统(Linux)
  • 开源六轴协作机械臂myCobot280实现交互式乘法!让学习充满乐趣
  • [C++][CMake][嵌套的CMake]详细讲解
  • 尚品汇-(十三)
  • python小练习04
  • 小试牛刀-Solana合约账户详解
  • Spring Boot+Vue项目从零入手
  • Vue+Xterm.js+WebSocket+JSch实现Web Shell终端
  • 用 adb 来模拟手机插上电源和拔掉电源的情形
  • 【SPIE独立出版】第四届智能交通系统与智慧城市国际学术会议(ITSSC 2024)
  • 【Unity数据交互】如何Unity中读取Ecxel中的数据
  • 基于深度学习LightWeight的人体姿态检测跌倒系统源码
  • SpringBoot 生产实践:没有父 starter 的打包问题
  • IDEA配Git
  • 51单片机STC89C52RC——14.1 直流电机调速
  • AI对于高考和IT行业的深远影响
  • C语言下的文件详解
  • Oracle PL / SQL块结构
  • MySQL的安装和启动
  • Prometheus概述
  • 【SQL】什么是最左前缀原则/最左匹配原则
  • java项目配置logback日志
  • Python入门 2024/7/6
  • ChatGPT4深度解析:探索智能对话新境界
  • 触底加载的两种思路(以vue3前端和nodejs后端为例)
  • tobias实现支付宝支付
  • 【音视频 | RTSP】RTSP协议详解 及 抓包例子解析(详细而不赘述)
  • SQL Server 2022 中的 Tempdb 性能改进非常显著
  • C++ Lambda表达式第二篇, Lambda表达式