当前位置: 首页 > news >正文

机器学习python实践——数据“相关性“的一些补充性个人思考

在上一篇“数据白化”的文章中,说到了数据“相关性”的概念,但是在统计学中,不仅存在“相关性”还存在“独立性”等等,所以,本文主要对数据“相关性”进行一些补充。当然,如果这篇文章还能入得了各位“看官”的法眼,麻烦点赞、关注、收藏,支持一下!

本文主要想解释两个问题:一个是“不相关”和“独立性”的区别一个是降低数据“相关性”有啥用

一、“不相关”和“独立性”有什么区别

相信很多人对于“相关性”中的“不相关”和“独立性”傻傻分不清,所以先给出结论:不相关不一定独立,独立一定不相关,。至于为什么,先给出私人版的“相关性”和“独立性”的定义,然后再给出一个例子让大家直观感受一下:

“相关性”:数据特征变化趋势始终一致或相反

“独立性”:数据特征之间不存在影响现象

先说明“不相关不一定独立”,举个例子:

比如说医生和律师,医生的工资是由国家发的,每个月医生的工资收入都是固定的,而律师的工资是由律师事务所发的,律师每个月都是在增长的,从这里我们可以看出,医生的工资变化趋势是不增不减,而律师的工资变化趋势是增涨的,两者工资变化明显不存在一致或者相反的变化趋势,所以两者工资收入是不相关的,但是如果律师得了病,只有一名医生能看,这个医生又因为工资老是不涨闹情绪不给律师看病,那么律师势必无法工作,收入也就会暴跌,从这我们就可以看出医生的收入可能会在某种程度上影响到律师收入,这就表明两者是不独立的,即医生工资变化会对律师工资变化产生影响。

上面的例子说明了“不相关不一定独立”,那么下面就对“独立一定不相关”进行说明。

从上面的定义可以看出,“独立性”侧重于“影响”,“相关性”侧重于“趋势”,那么是否存在两个特征独立且相关的情况呢?我的答案是:不存在!!!因为独立意味着“随机”,而且是完全随机,这意味着没有任何规律可以寻找,这样特征之间才能保持互不影响,就好像,你都猜不到我心里想的,你怎么可能跟我同频共振,既然都没有没有规律可循,那么数据特征之间也就不存在“同增同减”或者“一减一增”这样的规律,也就表明数据特征之间不存在一致或相反的变化趋势,即数据特征之间不相关。

二、降低数据“相关性”有啥用

网上看了很多,但是个人感觉最有用的就是:降低数据“相关性”可以降低计算难度,下面举例说明:

比如说,上图中,两数据蓝点的在原始坐标系下的坐标分别是(-1,-1)和(1,1),对他进行进行诸如PCA等去"相关性"的方法降低数据两个特征之间的“相关性”。于是,建立了一个新的坐标系(两红线),新坐标系的横轴就是两点之间的连线,所以在不同坐标系下,同样的两点坐标矩阵就发生了如下的变化:

从上面例子我们可以很直观的看到,对数据进行去“相关性”操作后,数据矩阵零更多了,这也就表明计算难度就降低了,所以降低数据“相关性”可以降低计算难度

本文参考:

马同学 (matongxue.com)

概率问题 独立一定不相关,不独立一定相关,相关一定不独立,不相关不一定独立 是这个关系么_百度知道 (baidu.com)

http://www.lryc.cn/news/375315.html

相关文章:

  • MySQL——触发器(trigger)基本结构
  • 数字孪生定义及应用介绍
  • 数据赋能(122)——体系:数据清洗——技术方法、主要工具
  • 【SCAU数据挖掘】数据挖掘期末总复习题库简答题及解析——中
  • 2024年注册安全工程师报名常见问题汇总!
  • JRebel-JVMTI [FATAL] Couldn‘t write to C:\Users\中文用户名-完美解决
  • STM32基于DMA数据转运和AD多通道
  • 安卓应用开发——Android Studio中通过id进行约束布局
  • Elasticsearch过滤器(filter):原理及使用
  • Docker配置与使用详解
  • 触控MCU芯片(1):英飞凌PSoC第6代第7代
  • git pull报错:unable to pull from remote repository due to conflicting tag(s)
  • Python将字符串用特定字符分割并前面加序号
  • 【第16章】Vue实战篇之跨域解决
  • 【PB案例学习笔记】-22制作一个语音朗读金额小应用
  • glmark2代码阅读总结
  • 第 6 章 监控系统 | 监控套路 - 总结
  • VsCode中C文件调用其他C文件函数失败
  • css中content属性你了解多少?
  • JVM-GC-G1垃圾回收器
  • 【Ubuntu通用压力测试】Ubuntu16.04 CPU压力测试
  • Artix Linux 默认不使用 systemd
  • JVM-GC-CMS垃圾回收器
  • 【玩转google云】实战:如何在GKE上使用Helm安装和配置3节点的RabbitMQ集群
  • 【神经网络】深度神经网络
  • 机器学习算法 —— K近邻(KNN分类)
  • Thinkphp5内核流浪猫流浪狗宠物领养平台H5源码
  • c++ 智能指针使用注意事项及解决方案
  • SQLite Delete 语句
  • vue3的基本使用方法