当前位置: 首页 > news >正文

大数据处理 - 双层桶划分

分桶法简介

其实本质上还是分而治之的思想,重在“分”的技巧上!

  • 适用范围: 第k大,中位数,不重复或重复的数字

  • 基本原理及要点: 因为元素范围很大,不能利用直接寻址表,所以通过多次划分,逐步确定范围,然后最后在一个可以接受的范围内进行。

相关题目

2.5亿个整数中找出不重复的整数的个数,内存空间不足以容纳这2.5亿个整数。

有点像鸽巢原理,整数个数为232,也就是,我们可以将这232个数,划分为2^8个区域(比如用单个文件代表一个区域),然后将数据分离到不同的区域,然后不同的区域在利用bitmap就可以直接解决了。也就是说只要有足够的磁盘空间,就可以很方便的解决。

5亿个int找它们的中位数。

  • 思路一

这个例子比上面那个更明显。首先我们将int划分为2^16个区域,然后读取数据统计落到各个区域里的数的个数,之后我们根据统计结果就可以判断中位数落到那个区域,同时知道这个区域中的第几大数刚好是中位数。然后第二次扫描我们只统计落在这个区域中的那些数就可以了。

实际上,如果不是int是int64,我们可以经过3次这样的划分即可降低到可以接受的程度。即可以先将int64分成224个区域,然后确定区域的第几大数,在将该区域分成220个子区域,然后确定是子区域的第几大数,然后子区域里的数的个数只有2^20,就可以直接利用direct addr table进行统计了。

  • 思路二

同样需要做两遍统计,如果数据存在硬盘上,就需要读取2次。

方法同基数排序有些像,开一个大小为65536的Int数组,第一遍读取,统计Int32的高16位的情况,也就是0-65535,都算作0,65536 - 131071都算作1。就相当于用该数除以65536。Int32 除以 65536的结果不会超过65536种情况,因此开一个长度为65536的数组计数就可以。每读取一个数,数组中对应的计数+1,考虑有负数的情况,需要将结果加32768后,记录在相应的数组内。

第一遍统计之后,遍历数组,逐个累加统计,看中位数处于哪个区间,比如处于区间k,那么0- k-1的区间里数字的数量sum应该<n/2(2.5亿)。而k+1 - 65535的计数和也<n/2,第二遍统计同上面的方法类似,但这次只统计处于区间k的情况,也就是说(x / 65536) + 32768 = k。统计只统计低16位的情况。并且利用刚才统计的sum,比如sum = 2.49亿,那么现在就是要在低16位里面找100万个数(2.5亿-2.49亿)。这次计数之后,再统计一下,看中位数所处的区间,最后将高位和低位组合一下就是结果了。

都看到这儿了,如果觉得好,麻烦点赞收藏支持一下哦(手动笔芯)

推荐:

最全的java面试题库

Java核心知识点整理

http://www.lryc.cn/news/15460.html

相关文章:

  • NFC标签读写器隐私协议
  • DocEE:一种用于文档级事件抽取的大规模细粒度基准 论文解读
  • ImageCombiner设计源码详解
  • python基础 | python基础语法
  • YOLOv6-3.0-目标检测论文解读
  • JAVA集合之Map >>HashMap/Hashtable/TreeMap/LinkedHashMap结构
  • JavaScript从零开始 学习记录(一)
  • C++项目——高并发内存池(3)--central cache整体设计
  • Spring Boot 整合 MyBatis 配置等案例教程
  • 比特数据结构与算法(第三章_下)队列的概念和实现(力扣:225+232+622)
  • c++提高篇——STL容器实现打分系统
  • 【图片上传记录三】element-ui组件详解与封装(自定义上传、限制文件大小、格式以及图片尺寸)
  • 一个golang版本管理工具
  • SpringBoot整合Spring Security过滤器链加载执行流程源码分析
  • Jest使用
  • 定位于企业数字化底座,开箱可用(spring cloud+Vue)基础框架,赶紧收藏!
  • java字符统计
  • C#:Krypton控件使用方法详解(第八讲) ——kryptonBreadCrumb
  • 2023从0开始学性能(1) —— 性能测试基础【持续更新】
  • 如何通过一台 iPhone 申请一个 icloud 邮箱账号 后缀为 @icloud.com
  • SQL89 计算总和
  • Netty高级应用之:编解码器与群聊天室开发
  • Vue的生命周期
  • MySQL —— 数据库基础
  • 多线程知识点
  • 有序表之红黑树
  • HTTP状态码都有哪些?
  • Sketch+摹客,100M文件上传最快47s
  • 关系型数据之分区分表分库
  • 微信小程序:基本开发相关文档