当前位置: 首页 > news >正文

c++学习(布隆过滤器)[23]

布隆

布隆过滤器(Bloom Filter)是一种概率型数据结构,用于判断一个元素是否可能存在于一个集合中。它使用多个哈希函数和位图来表示集合中的元素。

布隆过滤器的基本原理如下:

  1. 初始化:创建一个长度为m的位图(bitmap),并将所有位都置为0。

  2. 插入元素:对于要插入的元素,使用k个哈希函数对其进行哈希计算,得到k个哈希值。然后将位图中对应的位置置为1。

  3. 查询元素:对于要查询的元素,同样使用k个哈希函数对其进行哈希计算,得到k个哈希值。然后检查位图中对应的位置,如果所有位置都为1,则认为元素可能存在于集合中;如果有任何一个位置为0,则元素一定不存在于集合中。

布隆过滤器的优点是占用空间小、插入和查询速度快,且不需要存储实际的元素值。但布隆过滤器也存在一定的误判率(False Positive),即可能将不存在的元素误判为存在。误判率取决于位图的长度和哈希函数的个数。

布隆过滤器适用于需要高效判断元素是否存在的场景,如缓存穿透问题、URL去重、黑名单过滤等。但它不适用于需要精确判断元素是否存在的场景,因为存在一定的误判率。在使用布隆过滤器时,需要根据实际情况选择合适的位图长度和哈希函数个数,以平衡空间占用和误判率。

哈希切分

问题:两个文件分别有100亿个query,只有1G内存,如何找到两个文件的交集?分别给出精确算法和近似算法

1.假设每个query 30byte ,100亿query需要多少空间? -> 3000亿byte -> ≈ 300G (10亿byte约等于1G)
2.假设两个文件叫A和B
在这里插入图片描述

在相同编号的小文件中找交集 A0和B0 …
如果小文件过大也可以切分(递归即可),没有必要分成1000份(分成适当大小即可)

问题
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

http://www.lryc.cn/news/99507.html

相关文章:

  • React的UmiJS搭建的项目集成海康威视h5player播放插件H5视频播放器开发包 V2.1.2
  • 细讲TCP三次握手四次挥手(二)
  • LeetCode Top100 Liked 题单(序号19~)
  • qssh使用
  • 持续部署CICD
  • ARM 循环阻塞延迟函数
  • Spark的DataFrame和Schema详解和实战案例Demo
  • WPF线程使用详解:提升应用性能和响应能力
  • ava版知识付费平台免费搭建 Spring Cloud+Spring Boot+Mybatis+uniapp+前后端分离实现知识付费平台
  • libuv库学习笔记-basics_of_libuv
  • 【Vuvuzela 声音去噪算法】基于流行的频谱减法技术的声音去噪算法研究(Matlab代码实现)
  • Vue + Element-ui组件上传图片报错问题解决方案
  • java商城系统和php商城系统对比
  • 某制造企业基于 KubeSphere 的云原生实践
  • Electron 学习_BrowserWindow
  • Docker学习笔记,包含docker安装、常用命令、dockerfile、docker-compose等等
  • 解决 “Module build failed (from ./node_modules/babel-loader/lib/index.js)“ 错误的方法
  • go学习 6、方法
  • MySQL Windows版本下载及安装时默认路径的修改
  • 第3章 配置与服务
  • Arcgis之 KML/KMZ文件转shp
  • python绘制3D条形图
  • 计算从曲线的起点到param指定的点的曲线段的长度
  • POLARDB IMCI 白皮书 云原生HTAP 数据库系统 一 数据压缩和打包处理与数据更新
  • linux----源码安装如何加入到系统服务中(systemclt)
  • Unity 使用UnityWebRequest 读取存档 (IOS只能这样做)
  • Caused by: org.springframework.beans.factory.
  • 【docker 安装】 与【docker-compose 安装】
  • 意外:WPS编程新工具,不用编程,excel用户:可以不用VBA啦
  • GAMES101 笔记 Lecture12 Geometry3