当前位置: 首页 > news >正文

大数据机器学习算法与计算机视觉应用03:数据流

Data Stream

  • Streaming Model
  • Example Streaming Questions
  • Heavy Hitters
  • Algorithm 1: For Majority element
  • Misra Gries Algorithm
  • Applications
  • Approximation of count

Streaming Model 数据流模型

数据流就是所有的数据先后到达,而不是同时存储在内存之中。在现实中,数据流或者本身占用空间很大,或者数量很多,保存所有的数据流数据是不可能的。

因此,在数据流相关问题中,我们一般比较关注空间复杂度,也就是节省内存的做法。

本节课提到的数据流模型简单地用数字流来代表数据流,也就是说数据流中地每一个元素都是一个数。

Example Streaming Questions 经典数据流问题

我们假设每个数据需要 b b b 位来存储,总共预计接收到 t t t 个数据

1.维护接收到的所有数据的总和需要的位数

答案是 O ( b + log ⁡ t ) O(b + \log t) O(b+logt)

为什么是这个答案呢?
一个数是 b b b 位, t t t 个数就是 b + log ⁡ t b+\log t b+logt位。这个和十进制里面,十个一位数相加的结果一定是一个 1 + log ⁡ 10 = 2 1 + \log 10 =2 1+log10=2位数来表达一样。这就是这里为什么是元素个数取对数。
2. 维护收到的所有数据的最大值需要的位数

很明显答案是 O ( b ) O(b) O(b)

3.维护收到的所有数据的中位数需要的位数

这个问题似乎有点困难。因为中位数涉及到对于所有数据进行排序。但是也不是完全没办法,请参见下文算法。

Heavy Hitters 频繁项

给定项数 n n n 和权重 ϵ \epsilon ϵ ,请你找到数据流中所有出现次数大于 ϵ n \epsilon n ϵn 的项。这就是数据流中的频繁项问题。我们如何在使用内存尽可能小的情况下解决这个问题呢?

Algorithm 1: For Majority element 主元算法

如果一个数据流中有一个数据的出现频率超过了0.5,那么这个数据就被叫做主元。我们可以先看看如何确定主元的算法,以便我们推广到频繁项。

可行的一个算法如下:
在内存中声明一个数k和一个计数器c.
初始化时,让k为空,让c为0.
每当数据 a i a_i ai 到达时,循环执行如下操作:
如果 c = 0 c=0 c=0 ,那么 a i → k a_i \rarr k aik, 1 → c 1 \rarr c 1c
如果 c ≠ 0 c\neq 0 c=0 a i ≠ k a_i \neq k ai=k,那么 c − − c-- c
如果 c ≠ 0 c\neq0 c=0 a i = k a_i = k ai=k ,那么 c + + c++ c++
循环执行该操作,执行完毕时的数k就可能是主元。

写成代码的形式如下:

    datatype a,k;int c=0;cin >> a;while(a){if(c==0){k=a;c=1;}else if (c>0 && a!=k){c--;}else {c++;}}

注意,这个算法得到的结果不一定是主元,但是这个数是最可能是主元的那一个。
下面我们证明:如果数据流有主元 a m a i n a_{main} amain,那么主元一定是 k k k

每次读入 a m a i n a_{main} amain时,要么 k ≠ a m a i n , c − − k \neq a_{main}, c-- k=amain,c ,要么 k = a m a i n , c + + k = a_{main}, c++ k=amain,c++ ;因为是主元,所以必定存在某个时刻使得 k = a m a i n k = a_{main} k=amain,且因为 c++ 的次数大于 c-- 的次数,因此读入所有数据之后一定满足 k = a m a i n k = a_{main} k=amain

这个算法的主要思路是,由于我们寻找主元,而一个数据流中主元最多就一个,因此我们只需要记录那个可能出现次数过半的就可以了。如果有主元,那么这个数据
一定会被记录下来。但是我们不知道记录下来的是否一定是主元。即这是一个充分不必要条件:
有主元 ⇒ k 是主元 有主元 \rArr k是主元 有主元k是主元

Misra Gries Algorithm MG算法

MG算法是上面算法的一个拓展,用于计算 ϵ \epsilon ϵ 频繁项。如果主元使用一个数来记录,那么最多可以有几个 ϵ \epsilon ϵ 频繁项开一个对应大小的数组就可以了。答案是 ⌈ ( 1 ϵ ) ⌉ − 1 \lceil(\frac{1}{\epsilon})\rceil -1 ⌈(ϵ1)⌉1.为什么是这个数呢? ϵ \epsilon ϵ 带入一下 2 5 \frac{2}{5} 52 1 2 \frac{1}{2} 21 就知道了。

我们声明一个数组 T [ k ] T[k] T[k] 负责存储数据,数组 C [ k ] C[k] C[k]负责存储计数器,算法大同小异。其伪代码形式如下:

    datatype a,T[k];int C[k]={0};while(cin >> a){if(C[j]==0){T[j]=a;C[j]=1;}else if (C[j]!=0 && a!=T[j]){all C[j]--;}else if(a==T[j]){C[j]++;}}

Heavy Hitters Guarantee

为什么MG算法可以保证找出所有的频繁项呢?证明方法也是和上面的算法一样。

我们在此证明:
0 ≤ c o u n t t ( e ) − e s t t ( e ) ≤ n k + 1 ≤ ϵ ⋅ n 0 \leq count_t(e) - est_t(e) \leq \frac{n}{k} +1 \leq \epsilon\cdot n 0countt(e)estt(e)kn+1ϵn
其中 c o u n t t ( e ) count_t(e) countt(e)是某个元素 e e e实际出现的次数, e s t t ( e ) est_t(e) estt(e)是指该元素的计数器次数。

等式的左边不难证明,因为我们要在实际接收到一个相同元素之后才会把计数器+1,因此实际次数-计数器次数一定大于0

等式的右边是因为每次所有计数器-1的操作都至少需要k次单个计数器+1的操作,因此减少所有计数器的操作最多只有 n k + 1 \frac{n}{k+1} k+1n 次。

那么对于频繁项, c o u n t t ( e ) > ϵ ⋅ n count_t(e) > \epsilon \cdot n countt(e)>ϵn,而又有 c o u n t t ( e ) − e s t t ( e ) ≤ ϵ ⋅ n count_t(e) - est_t(e) \leq \epsilon\cdot n countt(e)estt(e)ϵn,因此 e s t t ( e ) > 0 est_t(e) >0 estt(e)>0,也就是所有的频繁项一定会在列表之中。注意,所有的频繁项一定在列表之中不代表列表中的所有项都是频繁项。

Space Complexity 空间复杂度

MG算法的空间复杂度就是两个数组的空间复杂度:
O ( k ( log ⁡ ∣ Σ ∣ + log ⁡ n ) ) b i t s O(k(\log |\Sigma| +\log n))bits O(k(log∣Σ∣+logn))bits
两个数组的长度都是 k k k,数据数组每个元素需要 log ⁡ ∣ Σ ∣ \log |\Sigma| log∣Σ∣位来存储(表示数据的范围),计数器数组每隔元素需要 log ⁡ n \log n logn位来存储(表示从0到n)。

Applications

  1. Internet router may want to figure out which IP connections are heavy hitters, e.g., the ones that use more than 0.01% of your bandwidth.(寻找网络中哪些IP地址是常被访问的)

  2. Or the median of the file sizes being transferred.(文件大小的中位数)

http://www.lryc.cn/news/481357.html

相关文章:

  • 【代码随想录day25】【C++复健】491.递增子序列;46.全排列;47.全排列 II;51. N皇后;37. 解数独
  • AI智能识物(微信小程序)
  • 游戏引擎学习第三天
  • 帝国CMS7.5仿模板堂柒喜模板建站网 素材资源下载站源码
  • 聊一聊Spring中的自定义监听器
  • 【王木头】最大似然估计、最大后验估计
  • 智谱AI视频生成模型CogVideoX v1.5开源 支持5/10秒视频生成
  • 算法(第一周)
  • Linux服务器进程的控制与进程之间的关系
  • 机器学习Housing数据集
  • 随着最新的补丁更新,Windows 再次变得容易受到攻击
  • 【Python】爬虫通过验证码
  • dc-aichat(一款支持ChatGPT+智谱AI+讯飞星火+书生浦语大模型+Kimi.ai+MoonshotAI+豆包AI等大模型的AIGC源码)
  • 检索增强生成
  • 操作系统--进程
  • abap 可配置通用报表字段级日志监控
  • OpenCV视觉分析之目标跟踪(11)计算两个图像之间的最佳变换矩阵函数findTransformECC的使用
  • PGMP-串串0203 项目集管理绩效域战略一致性
  • HiveMetastore 的架构简析
  • 【WRF模拟】全过程总结:WPS预处理及WRF运行
  • linux基础理解和使用 iptables 防火墙
  • 【系统架构设计师】2024年下半年真题论文: 论软件维护及其应用(包括参考素材)
  • 【数学二】线性代数-矩阵-初等变换、初等矩阵
  • MinerU容器构建教程
  • BFS 解决拓扑排序
  • MySQL 程序设计课程复习大纲
  • C++ : STL容器(适配器)之stack、queue剖析
  • nuxt3安装pinia报错500[vite-node] [ERR_LOAD_URL]问题解决
  • 青少年编程能力等级测评CPA试卷(2)Python编程(一级)
  • wordpress判断page页与非page页