Spearman 相关系数与 Pearson 相关系数的区别
核心区别对比表
特征 | Pearson 相关系数 | Spearman 相关系数 |
---|---|---|
相关性类型 | 线性相关 | 单调相关 |
计算基础 | 原始数据值 | 数据排名(秩) |
公式 | ||
数据要求 | 连续变量,近似正态分布 | 有序数据或连续变量 |
异常值敏感性 | 高度敏感 | 不敏感 |
取值范围 | [-1, 1] | [-1, 1] |
单调关系检测 | 仅检测线性关系 | 检测线性+非线性单调关系 |
计算复杂度 | 较低 | 较高(需计算排名) |
适用场景 | 线性关系,数据质量好 | 非线性单调关系,异常值多,有序数据 |
详细区别解析
1. 相关性类型不同
Pearson: 衡量变量之间的线性关系强度
Spearman: 衡量变量之间的单调关系强度(无论线性还是非线性)
2. 计算基础不同
Pearson: 基于原始数据值的协方差和标准差
Spearman: 基于数据值的排名(秩):
将每个变量的值转换为排名
计算排名之间的 Pearson 相关系数
4. 数据要求不同
Pearson:
要求变量是连续型
最好近似正态分布
变量间关系应为线性
无显著异常值
Spearman:
适用于连续变量和有序分类变量
不要求正态分布
可处理非线性但单调的关系
对异常值稳健
5. 异常值敏感性
Pearson: 高度敏感,单个异常值可显著改变结果
Spearman: 不敏感,因为使用排名而非原始值
6. 单调关系检测
Pearson: 只能检测线性关系
Spearman: 可检测任何单调关系(线性或非线性)
Spearman: 可检测任何单调关系(线性或非线性)
7. 计算示例对比
数据:
X | Y |
---|---|
1 | 1 |
2 | 4 |
3 | 9 |
4 | 16 |
5 | 25 |
Pearson 计算:
计算原始数据的协方差和标准差
结果 ≈ 0.96(显示强相关)
Spearman 计算:
转换为排名:
X_rank Y_rank 1 1 2 2 3 3 4 4 5 5 计算排名间的 Pearson 相关
结果 = 1(完全单调相关)
8. 实际应用场景
使用 Pearson 当:
数据满足线性、正态分布假设
需要精确测量线性关系强度
数据质量高,无显著异常值
例如:身高与体重的关系研究
使用 Spearman 当:
数据不满足正态分布假设
存在异常值
变量是有序分类变量(如满意度评分)
关系可能是非线性但单调的
例如:广告投入与销售额的关系(可能存在边际效应递减)
总结
Pearson 是"线性相关"的黄金标准,但对数据要求严格
Spearman 是更稳健的"单调相关"度量,适用范围更广
在数据分析中,通常建议:
首先使用 Spearman(更稳健)
如果 Spearman 显示强相关且数据质量好,再用 Pearson 测量线性强度
两种方法都是度量相关性而非因果性
对于复杂关系,应结合散点图等可视化工具分析