当前位置: 首页 > news >正文

在Elasticsearch IK分词器中更新、停用某些专有名词

在Elasticsearch IK分词器中更新、停用某些专有名词

目前IK分词器对于现有的新名词或者流行语没有做区分比如"白嫖" “奥利给”,或者对一些没有用的字比如 “的” "地"进行分词其实没有必要过多的分词只会占用宝贵的内存空间,所以如何更新或者停用某些字词呢
首先在IK 分词器目录中找到config目录然后找到IkAnalyzer.cfg.xml文件,在里面对文件进行修改
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties><comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典--><entry key="ext_dict">ext.dic</entry><!--用户可以在这里配置自己的扩展停止词字典  *** 添加停用词词典--><entry key="ext_stopwords">stopword.dic</entry>
</properties>
ext.dic是IK分词器扩展字词的文件,如果config目录中没有则自己新建一个即可。然后就可以往里面输入 白嫖 奥里给 等等你需要添加的名称,记得每个都要换行
stopword.dic是IK分词器停用某些名词的文件,里面的字词将不在被分词处理,也不会被检索到,合理利用会极大的减少内存空间。

大家好,我是时生,站在巨人的肩膀做出一点点改变。欢迎批评,欢迎指正,欢迎共享,有事私信。
如果这篇文章对你有帮助,麻烦点个赞呗!

http://www.lryc.cn/news/311888.html

相关文章:

  • 时钟显示 html JavaScript
  • List<Object>集合对象属性拷贝工具类
  • 请说明Vue中的异步组件加载
  • 目标检测5:采用yolov8, RK3568上推理实时视频流
  • 微服务:Feign篇
  • 基于chatgpt的聊天机器人
  • BAT常见的20道Android面试题详解,我的头条面试经历分享
  • python66-Python的循环之常用工具函数
  • Cocos Creator 3.8.x 制作模糊效果(比如游戏弹窗需要的模糊效果)
  • MATLAB报错:尝试将 SCRIPT imread 作为函数执行
  • 能源管理师:薪资待遇、技能知识与职业发展路景全解析
  • opencart3 添加速卖通商品脚本
  • 【Linux】USB Functionfs编程:libusb接口详解
  • 网络编程,IO多路复用
  • 【ue5】滑铲系统蓝图笔记
  • linux系统Jenkins工具参数化构建
  • 生活里的英语应该【怎么说】
  • Centos安装Jenkins
  • 软考中级系统集成必备100题(71-80)真题精炼
  • visual studio的使用
  • 对于爬虫的学习
  • 【学习笔记】开源计算机视觉库OPENCV学习方案
  • LVS负载均衡集群基础概念
  • pwn学习笔记(5)--格式化字符串漏洞(未完全完成)
  • HTML标签之表单标签,web开发实例教程
  • 数据库-第四/五章 数据库安全性和完整性【期末复习|考研复习】
  • 网站维护页面404源码
  • CSS的文本样式属性值,web开发难点
  • springboot+jsp汽车配件管理系统idea maven 项目lw
  • 计算机网络-网络安全(二)