当前位置: 首页 > news >正文

Hellinger Distance(赫林格距离)

Hellinger Distance(赫林格距离)是一种用于衡量两个概率分布相似度的距离度量。它通常用于概率统计、信息论和机器学习中,以评估两个分布之间的相似性。Hellinger距离的值介于0和1之间,其中0表示两个分布完全相同,1表示两个分布完全不同。

Hellinger 距离的定义

给定两个离散概率分布 P={p1,p2,…,pn}  和 Q={q1,q2,…,qn},它们的Hellinger距离定义为:

对于连续分布,定义类似:

在该公式中,平方根操作使得Hellinger距离在概率空间内具有特殊性质,尤其是它使得结果保持在区间0,1之内。

Hellinger 距离的直观解释

Hellinger距离是一种特殊的余弦相似度,可以理解为通过比较两个分布的平方根变换后的距离,来测量其相似性。这种变换的意义在于它保证了距离度量的范围和稳定性,即使概率分布中的元素数值差异较大。

Hellinger 距离的应用

  1. 概率分布相似性度量:用于评估两个概率分布(例如贝叶斯推断中后验分布)的相似性。
  2. 聚类分析:在聚类时使用Hellinger距离,可以衡量不同类别概率分布的相似性,常用于文本分类图像聚类
  3. 信息检索:用于衡量文档与查询的概率分布相似性,帮助提高检索准确性。
  4. 变分推断和生成模型:在变分推断中,Hellinger距离是评估逼近分布与真实分布差异的一种方法。

Hellinger 距离与其他距离度量的对比

  1. Kullback-Leibler (KL) 散度

    • 定义
    • 性质:KL散度是非对称的,通常用于信息损失的度量。
    • 区别:Hellinger距离是对称的,且具有上界,而KL散度没有上界且不对称。Hellinger距离对于概率分布的小偏差更为敏感,因此更适合用于衡量两个分布的相似性。
  2. Bhattacharyya 距离

    • 定义
    • 性质:常用于度量两个分布重叠部分的大小。
    • 区别:Hellinger距离和Bhattacharyya距离有一定的联系,实际上Hellinger距离是Bhattacharyya距离的一种简单变体,但更加标准化。
  3. Euclidean(欧氏距离)

    • 定义
    • 性质:用于度量两个向量在欧几里得空间中的距离。
    • 区别:欧氏距离的计算不涉及平方根变换,因此在概率分布中,较小概率的差异会被放大,而Hellinger距离能够更平衡地处理概率分布之间的差异。

总结

Hellinger距离通过对概率分布的平方根处理来衡量相似性,其范围被限制在0,1,且是对称的。这使得Hellinger距离适合用于需要对称性且概率差异较大的场景。相比KL散度和Bhattacharyya距离,Hellinger距离在概率分布中差异不大的情况下也能提供稳定的度量效果,因此在实际应用中具有良好的鲁棒性。

http://www.lryc.cn/news/474924.html

相关文章:

  • 【系统架构设计师】七、设计模式
  • 新工具可绕过 Google Chrome 的新 Cookie 加密系统
  • 模型拆解(三):EGNet、FMFINet、MJRBM
  • 齐次线性微分方程的解的性质与结构
  • Python-Celery-基础用法总结-安装-配置-启动
  • vue中的nextTick() - 2024最新版前端秋招面试短期突击面试题【100道】
  • 5G学习笔记三之物理层、数据链路层、RRC层协议
  • Ubuntu 通过Supervisor 或者 systemd 管理 .Net应用
  • 超好用的视频剪辑软件分享:10款剪辑软件推荐
  • 5G三大应用场景中的URLLC
  • PyMOL中常用的命令列表
  • 坏块处理 ORA-01578: ORACLE data block corrupted (file # 3, block # 152588)
  • 像`npm i`作为`npm install`的简写一样,使用`pdm i`作为`pdm install`的简写
  • DNS域名解析服务器--RHCE
  • 数据库物化视图的工作原理与Java实现
  • 炫酷的登录框!(附源码)
  • 使用Python实现智能生态系统监测与保护的深度学习模型
  • Rust 力扣 - 54. 螺旋矩阵
  • Flutter 简述(1)
  • BGP实验--BGP路由反射器
  • 域渗透-域环境部署
  • 【Oracle】空格单字符通配符查询匹配失败
  • uniapp实现中间平滑凸起tabbar
  • 【视频】OpenCV:识别颜色、绘制轮廓
  • C++_STL_xx_番外01_关于STL的总结(常见容器的总结;关联式容器分类及特点;二叉树、二叉搜索树、AVL树(平衡二叉搜索树)、B树、红黑树)
  • xlrd.biffh.XLRDError: Excel xlsx file; not supported
  • ENNSP中ACL的实验配置
  • 数字后端零基础入门系列 | Innovus零基础LAB学习Day8
  • 【AI开源项目】FastGPT- 快速部署FastGPT以及使用知识库的两种方式!
  • 信息学科平台系统开发:Spring Boot实用指南