当前位置: 首页 > news >正文

ElasticSearch之找到乔丹的空中大灌篮电影

写在前面

本文看一个搜索的实际例子,找到篮球之神乔丹的电影Space Jam,即空中大灌篮。

正式开始之前先来看下要查询的目标文档,以及查询的text:

  • 要查询的目标文档
{..."title": "Space Jam",..."overview": "Michael Jordan agrees to help the Looney Tunes play a basketball game against alien slavers to determine their freedom.",...
}
  • 查询的text
basketball with cartoon aliens

另,本文测试数据,从这里 下载。

1:实战

首先我们来准备数据:

  • kibana 执行:
DELETE tmdb/
PUT tmdb/
  • 在命令行执行
    注意进入到数据文件所在目录:
curl -H "Content-Type: application/json"  -XPOST "192.168.10.64:9210/tmdb/_bulk" --data-binary @javaio-appendfile1709014272558.json

查看是否成功:
在这里插入图片描述
接着来查询:

POST tmdb/_search
{"_source": ["title","overview"],"size":20,"query": {"multi_match": {"query": "basketball with cartoon aliens","fields": ["title^10","overview"]}},"highlight" : {"fields" : {"overview" : { "pre_tags" : ["<em>"], "post_tags" : ["</em>"] },"title" : { "pre_tags" : ["<em>"], "post_tags" : ["</em>"] }}}}

在这里插入图片描述
乔丹的电影并没有优先返回,这是因为在overview中包含basketbal和alien,但是查询语句是basketball with cartoon aliens,而字段默认的分词器是standard,在查询时,搜索的词项也会默认使用和所查询字段一样的分词器来生成词项数组,而standard分词器会将aliens生成词项aliens,所以是无法匹配overview中的alien,就导致无法目标文档,我们可以尝试将搜索条件改为basketball with cartoon alien来看下:

POST tmdb/_search
{"_source": ["title","overview"],"size":20,"query": {"multi_match": {"query": "basketball with cartoon alien","fields": ["title","overview"]}},"highlight" : {"fields" : {"overview" : { "pre_tags" : ["<em>"], "post_tags" : ["</em>"] },"title" : { "pre_tags" : ["<em>"], "post_tags" : ["</em>"] }}}}

有两处改动,一是将aliens改为alien来匹配overview中的alien,二是因为title不是查询的重点,所以将其权重删除,就能正常查询了:
在这里插入图片描述

在上面说了在查询时,搜索的词项也会默认使用和所查询字段一样的分词器来生成词项数组,所以我们可以将overview的分词器设置english分词器。如下:

DELETE tmdb/
PUT tmdb/
{"mappings": {"properties": {"overview": {"type": "text","analyzer": "english"}}}
}curl -H "Content-Type: application/json"  -XPOST "192.168.10.64:9210/tmdb/_bulk" --data-binary @javaio-appendfile1709014272558.json

再除去title的权重,但依然搜索aliens,看下:

POST tmdb/_search
{"_source": ["title","overview"],"size":20,"query": {"multi_match": {"query": "basketball with cartoon aliens","fields": ["title","overview"]}},"highlight" : {"fields" : {"overview" : { "pre_tags" : ["<em>"], "post_tags" : ["</em>"] },"title" : { "pre_tags" : ["<em>"], "post_tags" : ["</em>"] }}}}

在这里插入图片描述
依然可以正常查询。

从以上的例子可以看出,搜索引擎并不能一蹴而就,要根据用户的查询习惯,实际返回数据的准确度,正确的数据是否被返回,用户是否点击了最优先的数据等等信息,来动态的调整mapping以及分词器的信息。

写在后面

参考文章列表

ElasticSearch之单值多字段查询以及multi match 。

http://www.lryc.cn/news/307225.html

相关文章:

  • CSS @符规则(@font-face、@keyframes、@media、@scope等)
  • uniapp微信小程序解决上方刘海屏遮挡
  • 项目:shell实现多级菜单脚本编写
  • Collections常用方法(Java)
  • Mysql整理-概述
  • ubuntu+QT+ OpenGL环境搭建和绘图
  • Vue实现打印功能(vue-print-nb)
  • 【JSON2WEB】06 JSON2WEB前端框架搭建
  • 【蓝桥杯单片机入门记录】动态数码管
  • 12 Redis之Lua脚本
  • 网络安全之内容安全
  • 在CentOS上使用Docker搭建Halo博客并实现远程访问的详细指南
  • 数据结构day5
  • 基础!!!吴恩达deeplearning.ai:神经网络中使用softmax
  • mapbox高德地图与相机
  • Eslint在Vscode中使用技巧的相关技巧
  • 045-WEB攻防-PHP应用SQL二次注入堆叠执行DNS带外功能点黑白盒条件
  • 【蓝牙协议栈】【BR/EDR】【AVRCP】蓝牙音视频远程控制协议
  • Head First Design Patterns - 单例模式
  • Mysql的备份还原
  • 分区表介绍
  • emacs 源码分析(七)
  • Linux运维-Web服务器的配置与管理(Apache+tomcat)(没成功,最后有失败经验)
  • 探讨分布式数据库ID生成解决方案
  • Clickhouse填坑记4:Too many parts问题分析
  • CertiK CSO Dr. Kang Li 确认出席Hack .Summit() 香港区块链盛会
  • C++ 游戏飞机大战, 字符型的
  • 用html编写的简易新闻页面
  • docker-mysql:5.7安装
  • SQLPro Studio:数据库管理的革命性工具 mac版