当前位置: 首页 > news >正文

Redis Search系列 - 第三讲 拼写检查

拼写检查 - Spellchecking & Dict

Spellchecking为拼写错误的搜索词提供建议。例如,术语“reids”可能是“redis”的拼写错误版本。
从v1.4开始,Redis Search可以为拼写错误的查询术语(term)生成替代的方案。拼写错误的术语是全文术语(即单词),即:

  • 不是停词
  • 不在索引中
  • 至少3个字符

拼写错误术语的替代词:

  • 从已经索引的术语语料库生成
  • 或者(可选)从一个或多个自定义 字典(Dict) 生成

备选项根据它们与拼错词之间的 Levenshtein距离 成为拼写建议,每个拼写建议根据其在索引中的出现次数给出一个标准化分数。

注:
Levenshtein距离(Levenshtein Distance),也称为编辑距离(Edit Distance),
是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。
允许的编辑操作包括插入一个字符、删除一个字符和替换一个字符。

拼写检查相关命令示例:

# 给出my_idx索引下术语held的拼写错误替代方案,且允许的编辑距离为2
# 多组替代方案按score降序排列
# score = 包含替代术语的文档数 / 文档总数
# dict中的替代术语score恒为0
FT.SPELLCHECK my_idx held DISTANCE 2
1) 1) "TERM"2) "held"3) 1) 1) "0.66666666666666663"2) "hello"2) 1) "0.33333333333333331"2) "help"# 添加字典my_fish(适用于所有索引)
# 字典值包括:[水煮鱼, 水煮肉片, 水煮]
FT.DICTADD my_fish 水煮鱼 水煮肉片 水煮 # 给出my_idx索引下术语“水煮”的拼写错误替代方案,
# 且允许的编辑距离为2,
# 且支持从自定义字典my_fish中生成(支持INCLUDE和EXCLUDE)
FT.SPELLCHECK my_idx 水煮 DISTANCE 2 TERMS INCLUDE my_fish

关于Spellchecking的相关命令FT.SPELLCHECK可参见:
https://redis.io/docs/latest/commands/ft.spellcheck/
关于Spellchecking中自定义字典相关的命令FT.DICTADDFT.DICTDELFT.DICTDUMP可参见:
https://redis.io/docs/latest/commands/ft.dictadd/
https://redis.io/docs/latest/commands/ft.dictdel/
https://redis.io/docs/latest/commands/ft.dictdump/

http://www.lryc.cn/news/466770.html

相关文章:

  • Golang | Leetcode Golang题解之第492题构造矩形
  • Axure重要元件三——中继器函数
  • MySQL8.0.40编译安装
  • JavaScript 第23章:WebSocket 与实时通讯
  • 简单汇编教程10 数组
  • Jsoup在Java中:解析京东网站数据
  • SQL 干货 | SQL 反连接
  • JSON 反对序列化 public final class LocalDateTime 日期格式错误
  • Java 集合
  • 爬虫日常实战
  • 复写零--双指针
  • 跟着小土堆学习pytorch(二)——TensorBoard和Transform
  • 自由学习记录(10)
  • Redis提供了专门的命令来实现自增操作
  • uniapp修改input中placeholder样式
  • GenerativeU:生成式开放目标检测
  • element plus e-table表格中使用多选,当翻页时已选中的数据丢失
  • CentOS 7 网络连接显示“以太网(ens33)不可用”
  • qt QNetworkProxy详解
  • 推荐IDE中实用AI编程插件,目前无限次使用
  • 【华为HCIP实战课程十五】OSPF的环路避免及虚链路,网络工程师
  • 【编程语言】正则表达式:POSIX 与 PCRE 的全面比较及应用
  • Spark Streaming 数据流处理
  • 高效规划神器 markmap:一键将 Markdown 变思维导图!
  • 微服务基础架构(图)
  • 中电金信:大模型时代 金融机构企业架构转型如何更智能化?
  • 基于CRNN模型的多位数字序列识别的应用【代码+数据集+python环境+GUI系统】
  • windows中命令行批处理脚本学习
  • 版本工具报错:Error Unity Version Control
  • ECharts饼图-饼图标签对齐,附视频讲解与代码下载