当前位置: 首页 > news >正文

yjs机器学习数据操作01——数据的获取、可视化

数据的获取

1.库与模块:

import sklearnfrom sklearn import datasets

2.数据集获取的API及解释

对于sklearn的数据获取,主要分为两大部分,分别是“小数据集的获取——load_xxx”和“大数据集的获取fetch_xxx”

a.datasets.load_xxx():

load_xxx:这些数据集通常加载到内存中,适合快速实验和模型验证

常见的有   

  • load_iris():加载经典的鸢尾花(Iris)数据集。
  • load_digits():加载手写数字数据集。
  • load_wine():加载葡萄酒分类数据集。
  • load_breast_cancer():加载乳腺癌分类数据集。
  • load_diabetes():加载糖尿病回归数据集。
  • load_linnerud():加载 Linnerud 数据集(多输出回归)。

b.datasets.fetch_xxx()

fetch_xxx:从网络下载数据集,适用于较大规模的真实世界数据集

常见的有:

  • fetch_20newsgroups():加载20类新闻组数据集,用于文本分类任务。
  • fetch_olivetti_faces():加载 Olivetti 人脸数据集,用于图像处理任务。
  • fetch_lfw_people():加载 LFW(Labelled Faces in the Wild)人脸识别数据集。
  • fetch_lfw_pairs():加载 LFW 人脸对数据集,用于人脸匹配。
  • fetch_covtype():加载 Covertype 数据集,用于分类问题。
  • fetch_rcv1():加载 RCV1(Reuters Corpus Volume I)数据集

3.数据集的属性

import sklearn
from sklearn import datasets
data=datasets.load_iris()"""1.数据集的具体数据/本质上也是特征值:"""
data["data"]    """2.数据集的特征名:"""
data.feature_names"""3.数据集的目标名称/标签名称"""
data.target_names"""4.数据集的目标值/标签值"""
data.target"""5.数据集的总体描述"""
data.DESCR

数据的可视化

1.库与模块:

import seaborn as sns
#seaborn是对matplotlib的更高级api的封装

2.可视化的API及解释——lmplot

sns.lmplot(x=   ,   y=   ,    data=    ,hue=   ,  fit_reg=True/False....)

参数说明:

x/y=...     : 是指定画图时的x坐标是啥,y是啥,这里不是将其命名,而是指出以什么参数为x、y轴   ;一般是某一个“属性”,即特征

························································································································

data=       :这里指定数据,并且数据一定要是DataFrame结构

                     这里就涉及到将load_或者fetch获得的数据结构进行变化:

Data_load=pd.DataFrame(data["data"],columns=data.feature_names)

··························································································································

hue=        :这里是指按照什么进行分类,

data【“data”】获取的数据一般是这样的:

一般我们把它再加一列,就是将每个样本的目标值,即标签加入进去

Data_load["target"]=data.target

所以这里的hue一般这样写:

hue=Data_load.target或者["target"]

··························································································································

fit_reg=T/F:是否进行线性拟合



整体代码:

# 将数据用seaborn库进行可视化
data_1=pd.DataFrame(data=dataSet1["data"],columns=dataSet1.feature_names)
data_1["target"]=dataSet1.target
print(data_1)
print(data_1.columns[0])
sns.lmplot(x=data_1.columns[0], y=data_1.columns[1], data=data_1, hue="target")
plt.xlabel("cols1")
plt.ylabel("cols2")
plt.title("鸢尾花")
plt.show()

结果:

注意图的相关显示的属性,如x坐标名称,y坐标名称,图的题目等是同matplotlib那个一样,都是 “plt.xxx”

最后的展示也是“plt.show()”

整体代码:

import matplotlib.pyplot as plt
import pandas as pd
import sklearn
import seaborn as sns
from sklearn import datasets
import numpy as np
plt.rcParams['font.family'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = FalsedataSet1 = datasets.load_iris()
print("鸢尾花数据集如下:")
print(dataSet1)
print("鸢尾花的属性:")
print("特征数据数组:")
print(dataSet1["data"])
print("标签值:")
print(dataSet1.target)
print("标签名:")
print(dataSet1.target_names)
print("特征名:")
print(dataSet1.feature_names)
print("数据描述:")
print(dataSet1.DESCR)# 将数据用seaborn库进行可视化
data_1=pd.DataFrame(data=dataSet1["data"],columns=dataSet1.feature_names)
data_1["target"]=dataSet1.target
print(data_1)
print(data_1.columns[0])
sns.lmplot(x=data_1.columns[0], y=data_1.columns[1], data=data_1, hue="target")
plt.xlabel("cols1")
plt.ylabel("cols2")
plt.title("鸢尾花")
plt.show()

结果:(截取部分片段)

http://www.lryc.cn/news/467206.html

相关文章:

  • w~自动驾驶合集9
  • 232. 用栈实现队列 【复习链表】-用自定义链表实现栈 用栈实现队列
  • G-Set(增长集合,Grow-Only Set)
  • 《Vue.js 组件开发秘籍:从基础到高级》
  • 【Next.js 项目实战系列】03-查看 Issue
  • Android Settings 设置项修改
  • Windows远程桌面到Ubuntu
  • 解释 RESTful API,以及如何使用它构建 web 应用程序(AI)
  • NestJs:处理身份验证和授权
  • Java EE规范
  • Ollama及其Open-WebUI部署更新
  • 手写 | 设计模式
  • 基于深度学习的地形分类与变化检测
  • 进程、线程、协程
  • 嵌入式工程师成长之路(1)——元件基础(完整版)
  • 在Ubuntu 20.04 上安装 CoppeliaSim
  • pulseaudio的相关操作(二)
  • Selenium自动化测试工具
  • 优化UVM环境(九)-将interface文件放在env pkg外面
  • mysql 主从安装
  • 【C++刷题】力扣-#121-买卖股票的最佳时机
  • Python量化交易(二):金融市场的基础概念
  • Java方法的递归调用
  • JavaScript 第30章:综合项目
  • GB/T28181-2022规范解读、应用场景和技术实现探究
  • Docker容器间链路管理
  • python画图|在三维空间的不同平面上分别绘制不同类型二维图
  • 与ai一起作诗(《校园清廉韵》)
  • python matplotlib
  • 秋招面试题记录_半结构化面试