当前位置: 首页 > news >正文

PCA对手写数字数据集的降维

手写数字的数据集结构为(42000, 784),用KNN跑一次半小时,得到准确率在96.6%上下,用随机森林跑一次12秒,准确率在93.8%,虽然KNN效果好,但由于数据量太大,KNN计算太缓慢,所以我们不得不选用随机森林。我们使用了各种技术对手写数据集进行特征选择,最后使用嵌入
法SelectFromModel选出了324个特征,将随机森林的效果也调到了96%以上。但是,因为数据量依然巨大,还是有300多个特征。今天,我们就来试着用PCA处理一下这个数据,看看效果如何。

1. 导入需要的模块和库
 

from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier as RFC
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

2. 导入数据,探索数据
 

data = pd.read_csv(r"C:\work\learnbetter\micro-class\week 3 Preprocessing\digit 
recognizor.csv")
X = data.iloc[:,1:]
y = data.iloc[:,0]
X.shape

3. 画累计方差贡献率曲线,找最佳降维后维度的范围
 

http://www.lryc.cn/news/100252.html

相关文章:

  • Python入门【变量的作用域(全局变量和局部变量)、参数的传递、浅拷贝和深拷贝、参数的几种类型 】(十一)
  • 下级平台级联安防视频汇聚融合EasyCVR平台,层级显示不正确是什么原因?
  • vue : 无法加载文件 C:\Users\jianfei\AppData\Roaming\npm\vue.ps1,因为在此系统上禁止运行脚本。...
  • godot引擎c++源码深度解析系列二
  • 专才or 通才
  • 【小白必看】Python爬虫实战之批量下载女神图片并保存到本地
  • 道本科技||全面建立国有企业合规管理体系
  • CentOS 8上安装和配置Redis
  • 西北乱跑娃 -- CSS动态旋转果冻效果
  • 解决安装office出现1402错误和注册表编辑器无法设置安全性错误
  • Jmeter接口自动化生成测试报告html格式
  • 移动IP的原理
  • uView 在 uni-app 中的使用
  • netcat和netstat使用
  • mybatisPlus高级篇
  • Rust之包、单元包及模块
  • 内存函数讲解
  • C语言假期作业 DAY 01
  • 2023牛客暑期多校-J-Qu‘est-ce Que C‘est?(DP)
  • 【141. 环形链表】
  • ORB特征笔记
  • 12.Netty源码之整体架构脉络
  • 【ArcGIS Pro二次开发】(54):三调名称转用地用海名称
  • 3D Tiles官方示例资源下载链接
  • 【Java】分支结构习题
  • 删除主表 子表外键没有索引的性能优化
  • 面向切面编程AOP
  • 大学生活题解
  • flask的配置项
  • 暑假刷题第16天--7/28