当前位置: 首页 > news >正文

位图数组 布隆过滤器

文章目录

  • 位图数组
    • 获取索引
    • 获取索引状态
    • 设置索引状态
  • 布隆过滤器
    • 特点
    • 大致原理

位图数组

一个int类型的整数用4字节,也就是32个bit位来表示,将整数类型的数组转换成位图数组,那么存储长度将变为原来的32倍

arr[0] 表示0-31
arr[1] 表示32-63
//...

获取索引

假设当前数为178,那么178在位图数组中的位置为:

// 数组索引,要存放的index
index=Math.floor(178/32)
// 位图索引,对应32位要存放的索引
bitIndex=178%32

获取索引状态

// 拿到index,再右移bitIndex位,那此时状态就变到了最后一位,再& 1
// ... 0000000s
// ... 00000001
int s=(arr[index]>>bitIndex)& 1

设置索引状态

将对应位置设置为1

// ...s...
// ...1...
// 注意是或操作,1其他位为0,最后只会将s位变为1,其他位不会影响
arr[index] | (1 << bitIndex)

将对应位置设为0

// 1 << bitIndex 后取反将变为, ... 1110111 ...
// 注意 & 1 不会影响其他位
arr[index] & (~ (1 << bitIndex))

布隆过滤器

特点

  • 存在一定失误率,但很小
  • 不能删除已设置的元素
  • 假设要查询当前url是否在黑名单
    • 只会存在将非黑名单判定成黑名单这种失误,而不会出现将黑名单判定成白名单的情况
  • 通过位图数组,大幅度减少存储空间

大致原理

场景:要存储100亿个黑名单url,并且给定一个url要判断是否在黑名单内

  • 假设数组长度为m
  • 对100亿个黑名单url,对每个url用k个hash函数求得k个转换出来的整型数n,对n%m获取到不超过m的映射值n2,对n2进行上面位图的操作,放入bit中
    • 这里要求k个hash,拿到k个n2,k个bit是因为对样本提取多个指纹,最后结果更精确
  • 为什么只会出现将非黑名单判定成黑名单这种这种情况
    • 假设黑名单url1对应的k个指纹bit位置为32,11,22,黑名单url2对应的k个指纹bit位置为9,11,10
    • 如果要判定的url在黑名单内,那么通过hash得出指纹bit一定被设置了,因为hash函数的特效会得到相同的输出,所以如果是黑名单的url不可能被判定成白名单
    • 如果要判定的url不在黑名单内,那么因为hash冲突可能bit位置为22,10,因为被其他黑名单url设置了,所以白名单的url会被判定成黑名单
  • 为什么要求元素设置后不能被删除
    • 因为黑名单url2删除bit位11时,会将黑名单url1的bit位11也影响,那么再进行判定时,黑名单url1会因为bit位11没有设置,被判定为白名单url
  • 对于数组长度m、失误率p和哈希函数的个数k,都存在数学公式去计算
http://www.lryc.cn/news/16877.html

相关文章:

  • 多线程Thread常用方法和状态
  • Codeforces Round #836 (Div. 2)
  • Python学习之项目实践: 写一个MP3播放器
  • RocketMQTemplate 实现消息发送
  • 教师干货丨这5款微课必备提效神器,我要告诉全世界!
  • timm使用swin-transformer
  • 【java基础】java八大基本数据类型和运算符
  • Mybatis源码学习笔记(四)之Mybatis执行增删改查方法的流程解析
  • 浅谈测试用例设计
  • python 利用装饰器实现类似于flask路由
  • git 拉取远程分支到本地
  • Answering Multi-Dimensional Range Queries under Local Differential Privacy
  • 手把手搭建springboot项目05-springboot整合Redis及其业务场景
  • Flutter基础语法(六)var、final、const、late
  • Linux之安装node
  • 二叉树、二叉搜索树、二叉树的最近祖先、二叉树的层序遍历【零神基础精讲】
  • 【算法】【数组与矩阵模块】求最长可整合子数组和子数组的长度
  • 数据结构:循环队列的实现(leetcode622.设计循环队列)
  • [qiankun]实战问题汇总
  • Kafka(6):服务端常用参数配置
  • 2023爱分析·云原生智能运维中台市场厂商评估报告:秒云(miaoyun.io)
  • hadoop容器化部署
  • 【07-JVM面试专题-JVM运行时数据区的虚拟机栈你知道吗?它的基本结构是什么呢?你知道栈帧的结构吗?那你说说动态链接吧?】
  • Java性能优化-GC优化基础
  • 【Tomcat】IDEA编译Tomcat源码-手把手教程
  • 如何弄小程序?公司企业可以这样做小程序
  • 【Git】IDEA集合Git和码云
  • [USACO03FALL / HAOI2006] 受欢迎的牛 G(C++,强连通分量)
  • Vue 动态路由接口数据结构化为符合VueRouter的声明结构及菜单导航结构、动态路由懒加载方法
  • Python----------字符串