当前位置: 首页 > news >正文

Elasticsearch:结合 ELSER 和 BM25 文本查询的相关搜索

Elastic Learned Spare EncodeR (ELSER) 允许你执行语义搜索以获得更相关的搜索结果。 然而,有时,将语义搜索结果与常规关键字搜索结果相结合以获得最佳结果会更有用。 问题是,如何结合文本和语义搜索结果?

首先,让我们看一下对某些字段使用 multi_match 的花园品种文本查询。 这种搜索具有关键字搜索的典型陷阱,即关键字必须以某种形式存在于要返回的文档中,并且我们没有考虑用户搜索内容的上下文。

POST search-national-parks/_search
{"query": {"multi_match": {"query": "Where can I see the Northern Lights?","fields": ["title", "description"]}},"_source": ["title"]
}

现在,让我们看看 ELSER 查询本身:

POST search-national-parks/_search
{"query": {"bool": {"should": [{"text_expansion": {"ml.inference.title_expanded.predicted_value": {"model_id": ".elser_model_2","model_text": "Where can I see the Northern Lights?"}}},{"text_expansion": {"ml.inference.description_expanded.predicted_value": {"model_id": ".elser_model_2","model_text": "Where can I see the Northern Lights?"}}}]}},"_source": ["title"]
}

在上面,我们使用 ELSER 来对文章进行语义搜索。如果你对 ELSER 还不是很熟的话,请参阅如下的文章:

  • Elasticsearch:部署 ELSER - Elastic Learned Sparse EncoderR

  • Elasticsearch:使用 ELSER v2 文本扩展进行语义搜索

组合这两个查询的第一种方法是使用称为线性提升的策略。 在此示例中,我们正在提升文本搜索结果,以便它们具有优先级。 根据你正在运行的查询,这可能是理想的,也可能不是理想的。

POST search-national-parks/_search
{"query": {"bool": {"should": [{"text_expansion": {"ml.inference.title_expanded.predicted_value": {"model_id": ".elser_model_2","model_text": "Where can I see the Northern Lights?","boost": 1}}},{"text_expansion": {"ml.inference.description_expanded.predicted_value": {"model_id": ".elser_model_2","model_text": "Where can I see the Northern Lights?","boost": 1}}},{"multi_match": {"query": "Where can I see the Northern Lights?","fields": ["title","description"],"boost": 4}}]}},"_source": ["title"]
}

最后,我们还可以使用倒数排名融合(RRF)将文本搜索结果与语义结果结合起来,并对返回的搜索结果重新评分:

POST search-national-parks/_search
{"sub_searches": [{"query": {"multi_match": {"query": "Where can I see the Northern Lights?","fields": ["title","description"]}}},{"query": {"text_expansion": {"ml.inference.title_expanded.predicted_value": {"model_id": ".elser_model_2","model_text": "Where can I see the Northern Lights?"}}}},{"query": {"text_expansion": {"ml.inference.description_expanded.predicted_value": {"model_id": ".elser_model_2","model_text": "Where can I see the Northern Lights?"}}}}],"rank": {"rrf": {"window_size": 10,"rank_constant": 20}},"_source": ["title", "states"]
}

这些示例应该可以帮助你开始为你的用例创建最相关的搜索结果的旅程!

http://www.lryc.cn/news/276672.html

相关文章:

  • 海外社媒运营为什么需要选择优质IP代理?
  • Java中的性能优化:深入剖析常见优化技巧
  • k8s的yaml文件中的kind类型都有哪些?(详述版Part2/2)
  • 什么是API网关代理?
  • AWS Simple Email Service (SES) 实战指南
  • 详解Oracle数据库的启动
  • 2024年跨境电商上半年营销日历,建议收藏
  • Go采集1688网站数据对比商品价格
  • Java泛型:灵活多变的类型参数化工具
  • java 体育明星管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目
  • 蓝凌EIS智慧协同平台 ShowUserInfo.aspx sql注入漏洞
  • React Hooks的useState、useRef使用
  • Linux--防火墙,实验案例:基于区域、服务、端口的访问控制
  • C++学习笔记(二十八):c++ 静态库及动态库的使用
  • uniapp最简单的底部兼容安全区域显示
  • 图像去噪——CBDNet网络训练自己数据集及推理测试,模型转ONNX模型(详细图文教程)
  • 【Verilog】期末复习——解释下列名词(FPGA、ASIC、IP、RTL、EDA、HDL、FSM)
  • 计算机网络 综合(习题)
  • 探索vue2框架的世界:简述常用的vue2选项式API (二)
  • 云计算:OpenStack 分布式架构管理FLAT网络(单控制节点与多计算节点)
  • 【深度学习】cv领域中各种loss损失介绍
  • 2024年,为什么学网络安全找不到工作?这才是重要原因!
  • 很有用!小企业如何从零开始制作产品手册?
  • 基于OpenCV的图像缩放
  • 基于长短期神经网络LSTM的测量误差预测
  • `package.json`也可以有注释了
  • 数学之何为数学
  • docker容器内,将django项目数据库改为postgresql
  • 【echarts】雷达图参数详细介绍
  • 网络安全试题进阶——附答案