当前位置: 首页 > news >正文

ElasticSearch数据类型和分词器

一、数据类型

1、Text (文本数据类型)

2、Keyword(关键字数据类型)

3、Alias(别名类型)

4、Arrays (集合类型)

5、Boolean(布尔类型)

6、日期类型

7、Numeric (数值数据类型)

8、IP (数据类型)

9、Range (范围数据类型)

10、Binary (二进制类型)

11、Object (对象数据类型)

12、Dense vector (密集矢量数据类型)

13、Flattened (扁平化数据类型)

14、Geo-point (地理位置数据类型)

15、Join (链接数据类型)

16、Nested (嵌套数据类型)

17、Token count (令牌计数数据类型)

二、索引

1、正排索引和倒排索引的区别

正排索引:是文档(ID)到关键词的映射(从文档找关键词)

倒排索引:是关键词到文档(ID)的映射(从关键词到文档)

三、分词

1、分词:是将文本字符串拆分成独立的词汇和术语的过程。

四、分词器

1、Character Filters(字符过滤器):对原始文本进行预处理,对文本修改或者删除等。比如删除html标签、特定词替换等。

2、Tokenizer (分词器):对字符过滤器处理过的文本切分成一个个词条,形成词条流。切分规则可以是空格、标点符号等。

3、Token Filters(词汇过滤器):对切分后的词条进一步处理,大小写替换、启用停用词(没有意义的词)。词汇过滤器处理文本以适应索引和查询需求非常重要。

五、常见分词器

1、Standard Analyzer(分词依据:空格、标点符号)(特点:小写化处理,过滤符号)

2、Whitespace Analyzer (分词依据:空格)(特点:不进行小写处理、保留所有字符)

3、Keyword Analyzer (分词依据:无)(特点:将这个输入作为一个词条)

4、Simple Analyzer(分词依据:非字母(符号、数字))(特点:小写化处理、过滤符号、支持中文拼音分词)

5、Stop Analyzer (分词依据:空格)(特点:小写化处理,过滤停用词)

6、IK Analyzer(分词依据:词典)(特点:中文分词)

7、Edge Ngram Analyzer(分词依据:n-gram)(特点:按指定步长进行分词)

8、Pattern Analyzer (分词依据:正则匹配字符)(特点:灵活)

9、Custom Analyzer (分词依据:自定义)(特点:灵活)

http://www.lryc.cn/news/439490.html

相关文章:

  • 【云原生监控】Prometheus之PushGateway
  • sqlalchemy JSON 字段写入时中文序列化问题
  • C++ 类域+类的对象大小
  • QT开发:深入详解QtCore模块事件处理,一文学懂QT 事件循环与处理机制
  • 小米,B站网络安全岗位笔试题目+答案
  • 微信小程序中巧妙使用 wx:if 和 catchtouchmove 实现弹窗禁止页面滑动功能
  • 唯徳知识产权管理系统 DownloadFileWordTemplate 文件读取漏洞复现
  • 我在高职教STM32——准备HAL库工程模板(2)
  • 数字化转型的实战法则:全面剖析《数字化专业知识体系》中的落地策略与最佳实践
  • 远程桌面内网穿透是什么?有什么作用?
  • 【算法专场】分治(上)
  • 腾讯云软件工程师面试问题收集记录-数据库
  • Sourcetree安装教程及使用
  • TryHackMe 第1天 | Introduction to Cyber Security
  • ASP.NET MVC 迅速集成 SignalR
  • [数据集][目标检测]葡萄成熟度检测数据集VOC+YOLO格式1123张3类别
  • 【Python 数据分析学习】Matplotlib 的基础和应用
  • HarmonyOS应用开发者基础认证
  • gin基本使用
  • 【VUE】pinia持久化存储
  • 【Java基础】泛型
  • STL-vector练习题
  • Leetcode 165. 比较版本号(Medium)
  • Android 12 Launcher3 去掉Hotseat
  • Nginx实用篇:实现负载均衡、限流与动静分离
  • python | Python中的类多态:方法重写和动态绑定
  • Rust编写Windows服务
  • MATLAB 从 R2024B 开始支持树莓派 5
  • MiniBlogum项目简介
  • 如何用 OBProxy 实现 OceanBase 的最佳路由策略