当前位置: 首页 > news >正文

【图论】三种中心性 —— 特征向量、katz 和 PageRank

维基百科:在图论和网络分析中,中心性指标为图中相应网络位置的节点分配排名或数值。中心性这一概念最初起源于社交网络分析,因此很多衡量中心性的术语也反映了其社会学背景。

不同中心性指标对 “重要” 的衡量方式不同,因此适用于不同的情形。

一、特征向量中心性(eigenvector centrality) 

特征向量这一概念最早应该是在 线性代数 这门课程中接触到的,而取名中的特征向量也与它最初的概念相关,我们先回顾下什么是 “特征值” 和 “特征向量”。

1.1 线性代数中的特征向量

定义:设 A 是 n 阶方阵,若存在向量使得 Ax = \lambda x ,则称 x 为 A 的特征向量,\lambda 为 A 的特征值(严格定义请参考权威文献)。

由定义可见,特征向量的本质是它与原矩阵相乘后,得到的矩阵与特征向量方向相同,仅存在缩放关系(即 \lambda 倍的缩放),该缩放比例称为特征值。进一步延伸,原矩阵无论乘上多少特征向量,其方向都是确定的。回顾一道求特征值和特征向量的简单例题,可以更好回忆相关概念,求 \bigl(\begin{smallmatrix} 3 & 1\\ 1 & 3 \end{smallmatrix}\bigr) 的特征向量和特征值。


\begin{pmatrix} 3-\lambda & 1\\ 1 & 3-\lambda \end{pmatrix} = (3-\lambda )^2 - 1 = 0 

解得两个特征值 2 或 4,则应有

\begin{pmatrix} 3-2 & 1\\ 1 & 3-2 \end{pmatrix}\begin{pmatrix} x_1\\ x_2 \end{pmatrix} = \begin{pmatrix} 0\\ 0 \end{pmatrix}

解得 x_1+ x_2 = 0 ,因此可取特征值 2 的特征向量为

x = \begin{pmatrix} 1\\ -1 \end{pmatrix}.

求特征值 4 的特征向量同理。


1.2 图论中的特征向量中心性

定义:图 G = (V, E),定义其邻接矩阵 A,a_{v,t}=0 表示节点 v 和 t 不相连,a_{v,t}=1 表示节点 v 和 t 相连,则节点 v 的中心性 x 的分数计算式为

 x_v = \frac{1}{\lambda}\sum_{t=1}^{t\in G}a_{v,t}x_t .

单纯看公式会觉得不好理解,结合具体的例子可以马上掌握,它在本质上是求图 G 邻接矩阵的特征向量,只不过在算法设计中,通常不是通过数学方式求得,而是采用迭代逼近的方式得到一个近似解。特征向量中心性的核心思想是,一个结点的邻居越重要,该结点就越重要。下面是一个经典的分析图,

 各节点上的数字表示该结点的权重,以 5 作为节点 1,按顺时针标记各节点,且中心节点记为节点 5,则得到邻接矩阵为

A = \begin{pmatrix} 0 & 1 & 0& 1& 1\\ 1 & 0 & 1& 0& 0\\ 0 & 1 & 0& 0& 0\\ 1 & 0 & 0& 0& 1\\ 1 & 0 & 0& 1& 0 \end{pmatrix}

第一轮迭代,邻接矩阵乘上各结点的分数

A' = \begin{pmatrix} 0 & 1 & 0& 1& 1\\ 1 & 0 & 1& 0& 0\\ 0 & 1 & 0& 0& 0\\ 1 & 0 & 0& 0& 1\\ 1 & 0 & 0& 1& 0 \end{pmatrix}\begin{pmatrix} 5\\ 1\\ 3\\ 3\\ 2 \end{pmatrix} = \begin{pmatrix} 6\\ 8\\ 1\\ 7\\ 8 \end{pmatrix}

迭代完成后,各结点分数发生变化,效果为节点“吸收”了邻接节点的分数,邻接节点分数高的,迭代后分数就高。且经过多轮迭代后,各节点间的相对分数将不再发生变化,即收敛,仅存在绝对分数的缩放,此时我们就得到了最终的中心性分数矩阵,而该矩阵是邻接矩阵的特征向量。

二、katz 中心性

针对特征向量中心性无法用于有向图的不足,提出了 katz 中心性。

2.1 理解特征向量中心性的不足

每篇博客都说了,特征向量中心性不能用于有向图,但是为什么呢,这个结论怎么来的?

此处稍微探究下,我的理解不一定是对的,但特征向量中心性确实存在一些问题。首先观察上一节中邻接矩阵的特点,它是沿着主对角线对称的矩阵。这是可以理解的,无向图的连通性肯定是对称的。而特征向量中心性算法的本质是求邻接矩阵的特征向量,当邻接矩阵的性质发生变化时,特征向量必然会受影响。

在有向图中没有沿主对角线对称这一性质,那么对于只有出度、没有入度的节点,就存在一个致命问题,它的分数一直被出度节点吸收,而它自身分数将归零(以下图为例)。这显然是不合理的,这也是我理解的特征向量中心性计算方式不足的原因。

 2.2 katz 中心性的改进思路

首先看看它的中心性计算公式,

x_{v}=\sum_{k=1}^{k_{max}}\alpha ^k\sum_{j=1}^{n}(A^k)_{v,j}x_{j} + \beta.

比较和特征向量中心性的不同,katz 引入了两个新的变量,分别是衰减因子 \alpha 和基本偏移量 \beta 。第一个求和号中的 k 表示 k-hop,即只考虑与节点 v 距离在 k 以内(通常以一个节点作为一个单位距离)的节点分数,该思路在特征向量中心性中也是可行的,只是在上一节中未列出来。

  • 衰减因子 \alpha 随着 k 增大呈指数级减小,其设计思路是距离越近的节点对分数的影响应更大,反之应有衰减;
  • 偏移量 \beta 是为了避免出现 2.1 中讨论的分数归零现象;
  • A^k 可能较难理解,其实就是在 k 距离内的邻接矩阵,如 k = 1 就是与节点 v 直接相连的邻接矩阵,k = 2 就是与节点 v 隔一个节点相连的邻接矩阵。

通过例子理解先跳过,可以自己搜索具体的计算例子。

三、PageRank 中心性(PageRank centrality)

PageRank 应该是这三者中最出名的,主要用于谷歌的网页排序。
 

3.1 PageRank 中心性思想

http://www.lryc.cn/news/98346.html

相关文章:

  • [sqoop]将hive查询后的数据导入到MySQL
  • Linux df、du命令
  • java版+免费商城搭建+小程序商城免费搭建+Spring Cloud + Spring Boot + MybatisPlus + 前后端分离 + 二次开发
  • 软件设计师学习第一章
  • 蓝桥杯单片机第十一届国赛 真题+代码
  • IDC报告背后:大模型时代,重新理解AI公有云
  • UNH-IOL Reservation 一致性测试用例【7】- 清除Reservation
  • Python 生成随机图片验证码
  • 一些有趣的 js 功能函数
  • 摄像头m2dock(MAIX-II DOCK)
  • SpringBoot 如何优雅的进行全局异常处理
  • OSPF路由协议(红茶三杯CCNA)
  • redis中使用bloomfilter判断元素是否存在
  • 互联网医院系统源码实现:打造现代化医疗服务平台
  • 每天100w次登陆请求, 8G 内存该如何设置JVM参数?
  • Fiddler Everywhere(TTP调试抓包工具) for Mac苹果电脑版
  • Paragon NTFS2023最新版Mac读写NTFS磁盘工具
  • vs2013 32位 编译的 dll,重新用vs2022 64位编译,所遇问题记录
  • Linux_CentOS_7.9部署Docker以及镜像加速配置等实操验证全过程手册
  • 强引用和弱引用
  • tp6 实现excel 导入功能
  • 【C++】类和对象(中篇)
  • 大数据处理架构详解:Lambda架构、Kappa架构、流批一体、Dataflow模型、实时数仓
  • 双指针解决n数之和问题
  • 安全学习DAY07_其他协议抓包技术
  • electron的electron-packager打包运行和electron-builder生产安装包过程,学透 Electron 自定义 Dock 图标
  • 【无标题】深圳卫视专访行云创新马洪喜:拥抱AI与云原生,深耕云智一体化创新
  • jenkins通过流水线进行构建jar包
  • Android开发:通过Tesseract第三方库实现OCR
  • 合并两个有序链表——力扣21