当前位置: 首页 > news >正文

【数据分析】(交互) 延迟互信息(熵、概率密度、高斯核、带宽估计)

文章目录

  • 一、互信息基础
  • 二、延迟互信息
    • 2.1 交互延迟互信息
  • 三、时间序列互信息中的概率计算(高斯核密度估计)
  • 四、python 示例
  • 补充 1:熵
    • 熵的定义
    • 熵的性质
    • 熵的单位和对数底数
    • 熵的最大值
    • 高熵、低熵的分辨
  • 补充 2:概率密度 和 高斯核
    • 概率密度
    • 高斯核
  • 拓展3 :核密度函数带宽估计

在信息理论和时间序列分析中,研究变量之间的相互依赖性和信息流动是理解复杂系统行为的关键。

交互延迟互信息(Interactive Delayed Mutual Information, IDMI)是一种用于量化两个时间序列之间相互依赖关系的方法,它结合了互信息和时间延迟的概念,能够捕捉系统中不同时间点的依赖性。

一、互信息基础

互信息(Mutual Information, MI)是量化两个随机变量之间相互依赖性的度量,能够捕捉非线性依赖关系。

互信息是一种已知一个变量的情况下,另一个变量不确定性减少的度量。互信息越大,相互影响越紧密(这里也体现了概率、熵的概念)。举例:变量A表示骰子点数的奇偶性(假设0是奇数,1是偶数),变量B是骰子点数,知道变量B取值为6时,变量A的不确定性减少了(A是1)。

对于两个离散随机变量 X X X Y Y Y,互信息定义为:

I ( X ; Y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ ( p ( x , y ) p ( x ) p ( y ) ) I(X; Y) = \sum_{x \in X} \sum_{y \in Y} p(x, y) \log \left(\frac{p(x, y)}{p(x)p(y)}\right) I(X;Y)=xXyYp(x,y)log(p(x)p(y)p(x,y))

其中:

  • p ( x , y ) p(x, y) p(x,y) X = x X = x X=x Y = y Y = y Y=y 时的联合概率分布(即两个事件同时发生的概率)。
  • p ( x ) p(x) p(x) p ( y ) p(y) p(y) 分别是 X X X Y Y Y 的边缘概率分布(即只考虑一个变量,另一个任意取值)。

p ( x , y ) = p ( x ) ∗ p ( y ) p(x,y) = p(x) * p(y) p(x,y)=p(x)p(y)是否成立:

  • 如果x、y是独立的变量,上式成立。互信息表达式中的对数值就是 l o g ( 1 ) = 0 log(1)=0 log(1)=0,也就是两个独立变量的互信息为0。
  • 如果x、y不独立,上式不成立。这时候就要使用条件概率了, p ( x , y ) = p ( x ) ∗ p ( y ∣ x ) p(x,y) = p(x) * p(y|x) p(x,y)=p(x)p(yx),即x、y同时发生的概率等于x发生的概率乘以x发生的前提下y发生的概率,这很好理解。

互信息也可以表示为的差值形式:

I ( X ; Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X; Y) = H(X) + H(Y) - H(X, Y) I(X;Y)=H(X)+H(Y)H(X,Y)

这里, H ( X ) H(X) H(X) H ( Y ) H(Y) H(Y) 分别是 X X X Y Y Y 的熵, H ( X , Y ) H(X, Y) H(X,Y) 是联合熵。

熵的定义为:

H ( X ) = − ∑ x ∈ X p ( x ) log ⁡ p ( x ) H(X) = -\sum_{x \in X} p(x) \log p(x) H(X)=xXp(x)logp(x)

熵的概念见本文补充章节。 上面的公式很好推导的,对数变成减法就行了,以及 ∑ y j P ( X = x i , Y = y j ) = P ( X i ) \sum_{y_j} P(X = x_i, Y = y_j) = P(X_i) yjP(X=xi,Y=yj)=P(Xi)

二、延迟互信息

对于时间序列,通常需要考虑时间上的延迟效应。延迟互信息(Delayed Mutual Information, DMI)扩展了互信息的概念,量化了两个时间序列在不同时间延迟下的依赖关系。给定时间序列 X t X_t Xt Y t Y_t Yt,延迟互信息定义为:

I τ ( X t ; Y t + τ ) = I ( X t ; Y t + τ ) I_\tau(X_t; Y_{t+\tau}) = I(X_t; Y_{t+\tau}) Iτ(Xt;Yt+τ)=I(Xt;Yt+τ)

该公式表示在时间点 t t t 上的 X t X_t Xt 与在时间点 t + τ t + \tau t+τ 上的 Y t + τ Y_{t+\tau} Yt+τ 之间的互信息。

延迟互信息的计算步骤如下:

  1. 计算联合概率分布:根据时间延迟 τ \tau τ,计算 X t X_t Xt Y t + τ Y_{t+\tau} Yt+τ 的联合概率分布 p ( X t , Y t + τ ) p(X_t, Y_{t+\tau}) p(Xt,Yt+τ)
  2. 计算边缘概率分布:分别计算 X t X_t Xt 的边缘概率分布 p ( X t ) p(X_t) p(Xt) Y t + τ Y_{t+\tau} Yt+τ 的边缘概率分布 p ( Y t + τ ) p(Y_{t+\tau}) p(Yt+τ)
  3. 计算互信息:使用互信息的定义公式计算 I τ ( X t ; Y t + τ ) I_\tau(X_t; Y_{t+\tau}) Iτ(Xt;Yt+τ)

举例:

原来:
X: 1 2 3 4 5 6 7 8 9
Y: 1 2 3 4 5 6 7 8 9
计算X滞后阶数为2时X和Y的延迟互信息,就是计算:
X':3 4 5 6 7 8 9
Y':1 2 3 4 5 6 7 8 9
之间的互信息
序列长的需要截掉多余的部分,最终即计算:
X''3 4 5 6 7 8 9
Y''1 2 3 4 5 6 7 
之间的互信息

2.1 交互延迟互信息

交互延迟互信息(IDMI)进一步扩展了延迟互信息的概念,通过在多个时间尺度上计算和整合延迟互信息,得到一个综合的依赖度量。

其基本思想是分析两个时间序列在多个时间延迟和时间尺度下的交互作用。

设定一组时间延迟 τ i \tau_i τi 和时间尺度 s j s_j sj,IDMI 可以表示为:

I D M I ( X t , Y t ) = ∑ j ∑ i w i j I τ i ( X t ( s j ) ; Y t + τ i ( s j ) ) IDMI(X_t, Y_t) = \sum_{j} \sum_{i} w_{ij} I_{\tau_i}(X_t^{(s_j)}; Y_{t+\tau_i}^{(s_j)}) IDMI(X

http://www.lryc.cn/news/427867.html

相关文章:

  • html转vue项目
  • .NET系列 定时器
  • 【Golang】火焰图空白部分是什么?
  • Web框架 --- 解析Web请求 [FromBody] [FromQuery] [FromRoute] [FromHeader]
  • Messari 摘要报告:Covalent Network(CXT)2024 Q2 品牌重塑、AI模块化数据、亚太地区扩展、代币回购计划和网络增长
  • Open3D 计算点云的面状指数
  • python下麦克风设备选择和录音
  • 云和集群有什么区别?
  • 无人机视角下的EasyCVR视频汇聚管理:构建全方位、智能化的AI视频监控网络
  • 数字影像技术是如何改变我们看待世界的方式呢?
  • Chainlit实现启动页面选择不同的LLM启动器等设置界面
  • SQL - 增、改、删
  • 怎么屏蔽电脑监控软件?企业管理者的智慧选择——精准定位,合理屏蔽,让监控软件成为助力而非障碍!
  • Linux·权限与工具-make
  • C++的序列容器——数组
  • TCC 和 XA 协议之间的区别?
  • 萌啦数据插件使用情况分析,萌啦数据插件下载
  • C++初学(13)
  • 目标检测之数据增强
  • 本地下载安装WampServer结合内网穿透配置公网地址远程访问详细教程
  • 一篇文章理清Java持久化脉络(关于JDBC、JPA、Hibernate、Spring Data JPA)
  • 【数学分析笔记】第2章第1节实数系的连续性(1)
  • Speech Synthesis (LASC11062)
  • 拟合与插值|线性最小二乘拟合|非线性最小二乘拟合|一维插值|二维插值
  • 《python语言程序设计》2018版第7章第05题几何:正n边形,一个正n边形的边都有同样的长度。角度同样 设计RegularPolygon类
  • 使用Virtio Driver实现一个计算阶乘的小程序——QEMU平台
  • 【PyCharm】配置“清华镜像”地址
  • IO器件性能评估
  • 在js中判断对象是空对象的几种方法
  • 【整理】后端接口设计和优化相关思路汇总