当前位置: 首页 > news >正文

大数据处理 - Trie树/数据库/倒排索引

Trie树

Trie树的介绍和实现请参考 树 - 前缀树(Trie)
  • 适用范围: 数据量大,重复多,但是数据种类小可以放入内存

  • 基本原理及要点: 实现方式,节点孩子的表示方式

  • 扩展: 压缩实现。

一些适用场景

  • 寻找热门查询: 查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个,每个不超过255字节。

  • 有10个文件,每个文件1G,每个文件的每一行都存放的是用户的query,每个文件的query都可能重复。要你按照query的频度排序。

  • 1000万字符串,其中有些是相同的(重复),需要把重复的全部去掉,保留没有重复的字符串。请问怎么设计和实现?

  • 一个文本文件,大约有一万行,每行一个词,要求统计出其中最频繁出现的前10个词。其解决方法是: 用trie树统计每个词出现的次数,时间复杂度是O(n*le)(le表示单词的平准长度),然后是找出出现最频繁的前10个词。

数据库索引

数据库索引相关,可以参看 MySQL - 索引(B+树)
  • 适用范围: 大数据量的增删改查

  • 基本原理及要点: 利用数据的设计实现方法,对海量数据的增删改查进行处理。

倒排索引(Inverted index)

倒排索引,可以参看 ElsaticSearch底层的实现。
  • 适用范围: 搜索引擎,关键字查询

  • 基本原理及要点: 为何叫倒排索引? 一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。

以英文为例,下面是要被索引的文本:

T0 ="it is what it is"
T1 ="what is it"
T2 ="it is a banana"
// 我们就能得到下面的倒排索引: 
"a":{2}"banana":{2}"is":{0, 1, 2}"it":{0, 1, 2}"what":{0, 1}
// 检索的条件"what","is"和"it"将对应集合的交集。

正向索引开发出来用来存储每个文档的单词的列表。正向索引的查询往往满足每个文档有序频繁的全文查询和每个单词在校验文档中的验证这样的查询。在正向索引中,文档占据了中心的位置,每个文档指向了一个它所包含的索引项的序列。也就是说文档指向了它包含的那些单词,而倒排索引则是单词指向了包含它的文档,很容易看到这个反向的关系

都看到这儿了,如果觉得好,麻烦点赞收藏支持一下哦(手动笔芯)

推荐:

最全的java面试题库

Java核心知识点整理

http://www.lryc.cn/news/15525.html

相关文章:

  • jjava企业级开发-01
  • 「事务一致性」事务afterCommit
  • 【深度学习编译器系列】2. 深度学习编译器的通用设计架构
  • 图解操作系统
  • 【发版或上线项目保姆级心得】
  • Python数据分析-pandas库入门
  • MacBook Pro 恢复出厂设置
  • googletest 笔记
  • MySQL修改密码的几种方式?
  • 关于画一个句号--基于2022年终总结的反思与分享
  • 学习Flask之三、模板
  • 2023-02-20干活小计:
  • LeetCode_动态规划_困难_1326.灌溉花园的最少水龙头数目
  • mac tcpdump学习
  • 【跟我一起读《视觉惯性SLAM理论与源码解析》】第二章 编程及编译工具
  • 广东望京卡牌科技有限公司,2023年团建活动圆满举行
  • ts语法如何在Vue3中运用?
  • RK3566添加湿度传感器以及浅析hal层
  • 看了这份Java高级笔试宝典覆盖近3年Java笔试中98%高频知识点,反打面试官
  • 从0到1搭建大数据平台之监控
  • 采购评标管理过程是怎样的?有哪些评标标准?
  • 《Vue+Spring Boot前后端分离开发实战》专著累计发行上万册
  • 类与类之间的关系有哪几种?
  • LeetCode 606.根据二叉树创建字符串,102.二叉树的层序遍历和牛客 二叉搜索树与双向链表
  • 02-18 周六 图解机器学习之SMV 第五章5-2
  • Spring Boot系列--创建第一个Spring Boot项目
  • 手把手教你用React Hook和TypeScript从零实现虚拟滚动列表组件
  • 界面控件DevExpress WPF Pivot Grid——拥有强大多维数据分析能力!
  • python字典及基础操作
  • Windows Server 2008 R2安装onlyoffice【docker】