当前位置: 首页 > news >正文

【es】elasticsearch 自定义排序-按关键字位置排序

一 背景

要求es查询的结果按关键字位置排序,位置越靠前优先级越高。

es版本7.14.0,项目是thrift,也可以平替springboot,使用easyes连接es。

二 easyes使用

配easyes按官方文档就差不多了

排序 | Easy-Es

主要的一个问题是easyes有与mybatis相同的一套mapper,如果项目也用了mybatis,那需要将mybatis、easyes的mapper分成两个目录

见:避坑指南 | Easy-Es

还有实体类的主键,按ee官方推荐是留个没注解的id自动生成id,而不是指定自己生成的主键,因为会影响数据储存的分区,导致查询效率降低

具体查询:(config、mapper、实体类略)


// 查询构造LambdaEsQueryWrapper<EsSearchDocument> listWrapper = new LambdaEsQueryWrapper<>();
// 查询条件(相等)listWrapper.eq(EsSearchDocument::getType, searchType);
// 查询条件(模糊),与上条是and关系listWrapper.like(EsSearchDocument::getTitle, searchContent);
// 分页偏移量计算int offset = ((pageNum != null ? Integer.parseInt(pageNum) : 1) - 1) * size;
//查询总条数Long count = esMapper.selectCount(listWrapper);
// 设置分页listWrapper.limit(offset, size); // 分页
// 查询结果列表List<EsSearchDocument> esList = esMapper.selectList(listWrapper);//打印System.out.println("count="+count);System.out.println(JSON.toJSONString(esList));

三 自定义排序

es官方排序是按重复次数、内容长度、权重之类,用一个啥公式算出来分数排的

大学也许还能看懂点,现在是完全不懂了

easyes也提供了按字段排序之类(见上面官方文档链接)

回到问题,es、ee都没有按关键字位置排序的。不过es、ee还提供了自定义脚本 painless,可以自己写处理方式。那就好说了,在脚本里获得字段原文,indexof拿到关键字所在位置,根据这个值排序。

大部分网上的文档这么写(包括文心一言):

可以看到取原文的写法是 doc['字段.keyword'].value

经过实测会报错:

1 字段.keyword 不存在。去掉.keyword能取到,但取得是内容片段,比如原文“金坷垃好处都有啥”,这个word/words值是“都有啥”。

2  text类型字段不能拆出来排序,否则报错:

Text fields are not optimised for operations that require per-document field data like aggregations 

意思就是text类型字段被es禁用了聚合、排序操作,要么加注解(fielddata=true)才能解锁,要么改成keyword类型。但加注解会影响效率,有多影响待观察。

这个字段是用了ik分词器的,去掉分词器后(谨慎改变实体类,每次改变都会试es数据清空),word值成了“啥”

到这里已经一整天过去了

然后翻阅es的官方文档,终于发现这么一句:

Field context | Painless Scripting Language [7.14] | Elastic

意思是 doc['字段']写法不适用于text类型字段。想取到原值可以 params['_source']['字段']

试了下还真可以。

param是可以传动态参数的,使脚本避免反复编译提高效率。另外doc、_source、ctx是结合上下文在不同场景用的,比如doc是_search查询用的,但这个问题的查询就用了_source,不能太死板

探究 | Elasticsearch Painless 脚本 ctx、doc、_source 的区别是什么?-腾讯云开发者社区-腾讯云

最后加了这么一段

// 定义脚本String painlessScriptStr = " String word = params['_source']['title'];" + " int position = (word != null && !''.equals(word)) ? word.indexOf(params['searchContent']) : -1; " + " return position; ";// 自定义评分规则Script script = new Script(ScriptType.INLINE, "painless", painlessScriptStr, Collections.singletonMap("searchContent", searchContent));ScriptSortBuilder ssb = new ScriptSortBuilder(script, ScriptSortBuilder.ScriptSortType.NUMBER).order(SortOrder.ASC);listWrapper.sort(ssb);

http://www.lryc.cn/news/408094.html

相关文章:

  • 堆的相关知识点
  • 【Sass】常用全局sass高级函数,可使用原子化CSS减轻代码量,方便快速开发
  • MYSQL 第四次作业
  • depcheck 前端依赖检查
  • Qt/C++音视频开发79-采集websocket视频流/打开ws开头的地址/音视频同步/保存到MP4文件/视频回放
  • 网络安全等级保护制度1.0与2.0的演进与变革
  • 多线程优化API请求:CountDownLatch与PriorityBlockingQueue的应用
  • 谷粒商城实战笔记-54-商品服务-API-三级分类-拖拽效果
  • AI大模型学习必备十大网站
  • Elasticsearch:Golang ECS 日志记录 - zap
  • 关于线性代数(考研)
  • 【java基础】spring springMVC springboot 的区别
  • 【2024最新华为OD-C/D卷试题汇总】[支持在线评测] 开源项目热度排行榜(100分) - 三语言AC题解(Python/Java/Cpp)
  • 大模型算法面试题(十一)
  • CSS 基础知识
  • IntelliJ IDEA 和 Eclipse的区别
  • Ansible之playbook剧本编写(二)
  • 力扣第二十九题——两数相除
  • 解析三款热门的文献翻译工具:优势与使用指南
  • git 过滤LFS文件下载
  • 内存泄漏详解
  • 多角度解析高防CDN防御DDOS及CC攻击
  • (7) cmake 编译C++程序(二)
  • C语言系统调用linux文件系统
  • LeetCode142 环形链表 II
  • 逆向案例二十八——某高考志愿网异步请求头参数加密,以及webpack
  • WebKit的文本装饰艺术:CSS Text Decoration全解析
  • 【linux】Shell脚本三剑客之sed命令的详细用法攻略
  • 解析class字节码文件获取魔数和版本号
  • 技术文档总结----思维导图