当前位置: 首页 > article >正文

AGI大模型(21):混合检索之混合搜索

为了执行混合搜索,我们结合了 BM25 和密集检索的结果。每种方法的分数均经过标准化和加权以获得最佳总体结果

1 代码

先编写 BM25搜索的代码,再编写密集检索的代码,最后进行混合。

from rank_bm25 import BM25Okapi
from nltk.tokenize import word_tokenize
import jieba
import json# Sampledocuments
# documents = ["The cat sat on the mat.", "The dog barked at the moon.", "The sun is shining bright."]with open('train_zh.json', 'r', encoding='utf-8') as f:data = [json.loads(line) for line in f]# print(data[0:100])
# Extract instructions and outputs
instructions = [entry[
http://www.lryc.cn/news/2378776.html

相关文章:

  • 双重差分模型学习笔记4(理论)
  • Mysql 8.0.32 union all 创建视图后中文模糊查询失效
  • Jenkins 执行器(Executor)如何调整限制?
  • Android 中 权限分类及申请方式
  • 编程错题集系列(一)
  • 【原创】基于视觉大模型gemma-3-4b实现短视频自动识别内容并生成解说文案
  • Spark(32)SparkSQL操作Mysql
  • 基于 Python 的界面程序复现:标准干涉槽型设计计算及仿真
  • c++成员函数返回类对象引用和直接返回类对象的区别
  • AGI大模型(20):混合检索之rank_bm25库来实现词法搜索
  • 数字化转型- 数字化转型路线和推进
  • 字体样式集合
  • IP68防水Type-C连接器实测:水下1米浸泡72小时的生存挑战
  • 【技术追踪】InverseSR:使用潜在扩散模型进行三维脑部 MRI 超分辨率重建(MICCAI-2023)
  • React学习(二)-变量
  • list重点接口及模拟实现
  • 【自然语言处理与大模型】大模型(LLM)基础知识④
  • 系统架构设计(九):分布式架构与微服务
  • Java 框架配置自动化:告别冗长的 XML 与 YAML 文件
  • vue使用Pinia实现不同页面共享token
  • 遨游科普:三防平板是什么?有什么功能?
  • spring MVC 至 springboot的发展流程,配置文件变化
  • 深入解析Spring Boot与JUnit 5的集成测试实践
  • AI全域智能监控系统重构商业清洁管理范式——从被动响应到主动预防的监控效能革命
  • 网络编程中的直接内存与零拷贝
  • 区块链基本理解
  • panda机械臂的正逆运动学分析与仿真
  • QT使用QXlsx读取excel表格中的图片
  • VulnHub | Breach - 1
  • CMake基础及操作笔记