当前位置: 首页 > news >正文

【机器学习 复习】第9章 降维算法——PCA降维

一、概念

1.PCA

(1)主成分分析(Principal ComponentAnalysis,PCA)一种经典的线性降维分析算法。

(2)原理,这里以二维转一维为例,原来的平面变成了一条直线

这是三维变二维:

(3)方差越大,特征的重要程度越大;方差越小,特征的重要程度越小。

如上面的例子中,样本集合中的数据在旋转过后的新的y轴上的方差接近于0,几乎不携带任何信息量,故可将其省去,达到降维的目的。

(所谓找方差最大的方向,就是找长度,面积最大的那条线或者面,因为方差就是离散程度,就是分散程度)

(4)降维对数据的处理主要包含特征筛选特征提取

前者是裁员,后者排列组合。

2.实际问题往往需要研究多个特征,而这些特征存在一定的相关性。

(1)数据量增加了问题的复杂性。

(2)将多个特征综合为少数几个代表性特征:

(3)既能够代表原始特征的绝大数信息,组合后的特征又互不相关,降低相关性。

(4)PCA是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。

3.方差贡献率:

(1)具体量化保留几个主成分往往根据实际情况通过计算累计方差贡献率来决定。

(2)方差的方差贡献率又称为解释方差(explained variance),

(人话就是说这个成分有多大用处)

3.PCA算法步骤:

(1)用特征值表示哪个重要,越大越重要。

(2)特征值是由协方差矩阵求得。

(3)协方差就是数据相关程度,接近1是正相关,接近-1是负相关,0是不相关。

二、习题

单选题

3. 以下属于典型的监督学习的是( C

A、聚类  

B、关联分析  

C、分类  

D、降维  

18. 以下属于典型的无监督学习的是(C

A、支持向量机  

B、k-近邻算法  

C、降维  

D、逻辑回归  

判断题

2. 降维、聚类是无监督学习算法。(P

16. 降维的目的就是降低数据的维度从而方便后续对数据的储存、可视化、建模等操作。(P

17. 特征提取是指对现有特征进行重新组合产生新的特征,例如相对于年龄,出生年月就是冗余特征。(Í

裁员是特征筛选

18. 对于n维特征变量中的每个子变量,主成分分析使用样本集合中对应子变量上取值的方差来表示该特征的重要程度。方差越小,特征的重要程度越高;方差越大,特征的重要程度越低。(Í

方差越大,特征的重要程度越大;方差越小,特征的重要程度越小。

http://www.lryc.cn/news/380010.html

相关文章:

  • Ubuntu系统docker gpu环境搭建
  • 网络安全-如何设计一个安全的API(安全角度)
  • 微积分-导数1(导数与变化率)
  • 最新PHP仿猪八戒任务威客网整站源码/在线接任务网站源码
  • Windows安装配置jdk和maven
  • 电子SOP实施(MQTT协议)
  • 【Unity导航系统】Navigation组件的概念及其使用示例
  • vue-cli 根据文字生成pdf格式文件 jsPDF
  • 【嵌入式DIY实例】-Nokia 5110显示DS3231 RTC数据
  • 【十三】图解mybatis缓存模块之装饰器模式
  • 字节大神强推千页PDF学习笔记,弱化学历问题,已拿意向书字节提前批移动端!
  • Python爬虫-贝壳二手房“改进版”
  • zookeeper学习、配置文件参数详解
  • SVG 模糊效果
  • Electron+vite+vuetify项目搭建
  • 洛谷:P1085 [NOIP2004 普及组] 不高兴的津津
  • Webpack4从入门到精通以及和webpack5对比_webpack现在用的是哪个版本
  • 巴鲁夫MacroBuilder2.0.0.0软件巴鲁夫和使用手侧
  • 分享:Javascript开源桌面环境-Puter
  • 【idea-jdk1.8】使用Spring Initializr 创建 Spring Boot项目没有JDK8
  • 647. 回文子串(leetcode)
  • 【车载开发系列】汽车嵌入式开发常用工具介绍
  • python脚本获取本机IP的方式
  • 查看LabVIEW及各个模块和驱动的版本号
  • LLM主流架构和模型
  • 为企业提供动力:用于大型组织的WordPress
  • Django框架数据库ORM查询操作
  • font-spider按需生成字体文件
  • 双叒叕-一个-Android-MVVM-组件化架构框架?
  • STM32单片机BKP备份寄存器和RTC实时时钟详解