当前位置: 首页 > news >正文

es自定义分词器支持数字字母分词,中文分词器jieba支持添加禁用词和扩展词典

自定义分析器,分词器

PUT http://xxx.xxx.xxx.xxx:9200/test_index/
{"settings": {"analysis": {"analyzer": {"char_test_analyzer": {"tokenizer": "char_test_tokenizer","filter": ["lowercase"]}},"tokenizer": {"char_test_tokenizer": {"type": "ngram","min_gram": 1,"max_gram": 2}}}},"mappings": {"test_zysf_index": {"properties": {"text": {"type": "text","analyzer": "char_test_analyzer"}}}}
}

所有字段检索

{"query": {"multi_match": {"query": "河北保定","type": "cross_fields","fields": ["*"],"operator": "AND"}}
}

高亮搜索

{"highlight": {"fields": {"name": {},"content": {},},"pre_tags": ["<em>"],"post_tags": ["</em>"]}
}

分词测试

GET /test_index/_analyze

{"analyzer": "char_test_analyzer","text": "adfsjdsa12345646abADS"
}

jieba中文分词支持添加禁用词和扩展词库功能

创建索引:PUT http://xxxx:9200/test_index

{"settings": {"analysis": {"filter": {"jieba_stopword": {"type": "stop","stopwords_path": "/home/stopwords.txt"}},"tokenizer": {"jieba_tokenizer": {"type": "jieba_index","user_dict": "/home/user.dict"}},"analyzer": {"my_jieba": {"filter": ["lowercase","jieba_stopword"],"tokenizer": "jieba_tokenizer"}}}},"mappings": {"test_index": {"properties": {"name": {"type": "text","index": true,"analyzer": "my_jieba","similarity": "BM25"}}}}
}

分词测试:
GET http://xxxxxx:9200/test_index/_analyze

{"analyzer": "my_jieba","text": "中国你好,我爱你中国"
}
http://www.lryc.cn/news/130174.html

相关文章:

  • 基于libevent的tcp服务器
  • 【TypeScript】tsc -v 报错 —— 在此系统上禁止运行脚本
  • 【C++】STL---list
  • 六、分组背包
  • LangChain入门:构建LLM驱动的应用程序的初学者指南
  • gitlab修改远程仓库地址
  • VB+SQL自动点歌系统设计与实现
  • 设计模式之适配器模式(Adapter)的C++实现
  • C#系统锁屏事件例子 - 开源研究系列文章
  • R语言实现免疫浸润分析(2)
  • 系统架构设计师-信息安全技术(2)
  • STM32F4X-GPIO输入功能使用
  • Jenkins-CICD-python/Java包升级与回退
  • 模糊测试面面观 | 模糊测试工具知多少
  • esp8266+电压检测模块检测电池电压
  • MongoDB增删改查操作
  • Python | Package | Python的三种包安装方式(pip/whl/tar.gz)
  • 1. 微信小程序开发环境搭建
  • Redis五大基本数据类型及其使用场景
  • 优于立方复杂度的 Rust 中矩阵乘法
  • CentOS gcc介绍及快速升级
  • IO多路复用中select的TCP服务器模型和poll服务模型
  • AI工程师招募;60+开发者AI工具清单;如何用AI工具读懂插件源码;开发者出海解读;斯坦福LLM课程 | ShowMeAI日报
  • Mysql 使用JSON_SEARCH函数 判断多表查询时,某个拼接字段是否包含另外一个字段
  • C++头文件
  • 无脑入门pytorch系列(四)—— scatter_
  • 【Spring源码】Spring扩展点及顺序
  • 广州华锐互动:3D数字孪生开发编辑器助力企业高效开发数字孪生应用
  • 【脚踢数据结构】图(纯享版)
  • [leetcode] 707 设计链表