当前位置: 首页 > news >正文

【ES】--Elasticsearch的分词器详解

目录

  • 一、前言
  • 二、分词器原理
    • 1、常用分词器
    • 2、ik分词器模式
    • 3、指定索引的某个字段进行分词测试
      • 3.1、采用ts_match_analyzer进行分词
      • 3.2、采用standard_analyzer进行分词
  • 三、如何调整分词器
    • 1、已存在的索引调整分词器
    • 2、特别的词语不能被拆开

一、前言

最近项目需求,针对客户提出搜索引擎业务要做到自定义个性化,如输入简体或繁体能能够互相查询、有的关键词不能被分词搜索等等。为更好解决这些问题,“分词器”的原理和使用至关重要。

二、分词器原理

当 ES 自带的分词器不能满足需求的情况下,可以通过组合不同的 Character Filters,Tokenizer,Token Filter 来实现。
在这里插入图片描述
首先字符串经过字符过滤器(character filter),他们的工作是在分词前处理字符串。字符过滤器能够去除 HTML 标记,或者转化为“&”为“and”。
然后,分词器(tokenizer)被分词为独立的词【按照一定的规则,对字符串进行划分单词】。一个简单的分词器(tokenizer)可以根据空格或逗号将词语分开。
最后,每个词都通过分词过滤器(Token filter)【将切分的单词进行加工、大小写转换、删除stopwords、增加同义词等】,它可以修改词(例如将“Quick”转为小写),去掉词(例如停用词像“a”、“and”、“the”等等),或者增加词(例如同义词像“a”、“and”、“the”等等)或者增加词(例如同义词像“jump”

http://www.lryc.cn/news/298537.html

相关文章:

  • 【算法】{画决策树 + dfs + 递归 + 回溯 + 剪枝} 解决排列、子集问题(C++)
  • sqlserver 存储过程
  • C语言什么是悬空指针?
  • AES加密后的密码可以破解吗
  • vue3学习——路由进度条
  • VMware虚拟机安装Windows系统教程
  • vue3学习——router-view 过渡动画
  • 从HSE攻击事件漫谈针对勒索攻击防御的两大误区
  • 设计模式(结构型模式)外观模式
  • C语言函数的栈帧与销毁(面试亮点)
  • 使用 GreenSock(GSAP)实现 字符串动画
  • linux系统zabbix监控服务端部署
  • 算法----回溯(附录---剪枝)
  • 从Unity到Three.js(模型文件加载)
  • Webshell一句话木马
  • 【Web】Spring rce CVE-2022-22965漏洞复现学习笔记
  • springboot/ssm大学生选修选课系统高校选课排课成绩管理系统Java系统
  • 【芯片设计- RTL 数字逻辑设计入门 14 -- 使用子模块实现三输入数的大小比较】
  • Xilinx FPGA——在线升级
  • 电商小程序02数据源设计
  • Leetcode 3033. Modify the Matrix
  • 蓝桥杯刷题--python-4
  • openJudge | 距离排序
  • 【算法】排序详解(快速排序,堆排序,归并排序,插入排序,希尔排序,选择排序,冒泡排序)
  • LeetCode Python -8.字符串转整数
  • 【java】笔记10:类与对象——本章练习
  • 《UE5_C++多人TPS完整教程》学习笔记8 ——《P9 访问 Steam(Acessing Steam)》
  • 缓存穿透问题与解决方案
  • 《Git 简易速速上手小册》第1章:Git 基础(2024 最新版)
  • 交易中的胜率和盈亏比估算