当前位置: 首页 > news >正文

机器学习实战记录(1)

决策树——划分数据集

def splitDataSet(dataSet, axis, value):		retDataSet = []										#创建返回的数据集列表for featVec in dataSet: 							#遍历数据集if featVec[axis] == value:reducedFeatVec = featVec[:axis]				#去掉axis特征reducedFeatVec.extend(featVec[axis+1:]) 	#将符合条件的添加到返回的数据集retDataSet.append(reducedFeatVec)return retDataSet		  							#返回划分后的数据集

这个代码就是按axis划分,然后每次把它去掉。

1.

def splitDataSet(dataSet, axis, value):
  • dataSet:这是输入的数据集,通常是一个二维列表,其中每个子列表代表一个样本,最后一项通常是标签(分类)。
  • axis:这个参数是整数,表示当前划分的特征的索引位置。假设我们的数据集有多个特征(列),axis 就指定了你想要按哪一个特征来划分数据集。
  • value:这个参数是我们在数据集中按 axis 这个特征划分时,要求该特征的取值为 value。即:我们希望选择所有在此特征上值为 value 的样本。

返回的 retDataSet

retDataSet 是一个空列表,用来保存符合条件的子集。函数会遍历 dataSet,每次找到符合条件的样本(即特征 axis 的值为 value),就将该样本的特征信息(去掉当前特征)加入到 retDataSet

2.

retDataSet = []  # 创建返回的数据集列表

  • 创建一个空的列表 retDataSet,用来保存符合条件的子集。
 

python

复制代码

for featVec in dataSet: # 遍历数据集中的每一个样本

  • 使用 for 循环遍历 dataSet 中的每一行数据(每个 featVec)。每个 featVec 是一个样本,它包含多个特征值,通常最后一个元素是标签(类别)

if featVec[axis] == value:

  • 对于每一个样本 featVec,判断该样本的特征 axis 对应的取值是否等于 value。如果该样本在 axis 特征上的取值与 value 相等,就满足条件,应该将该样本加入返回的子集 retDataSet 中。

reducedFeatVec = featVec[:axis] # 去掉当前特征(axis)

  • 通过 featVec[:axis] 获取当前样本的特征,去掉 axis 位置的特征。比如,如果数据集中有5个特征(第0列到第4列),且 axis = 2,那么 featVec[:axis] 就是将样本中第2列之前的特征提取出来(不包括第2列),即 [featVec[0], featVec[1]]

reducedFeatVec.extend(featVec[axis+1:]) # 将符合条件的特征值部分加入返回的数据集

  • featVec[axis+1:] 表示去掉了 axis 位置的特征后的部分,即从 axis+1 到最后的特征。将这部分特征信息添加到 reducedFeatVec 中。extend 方法会将一个列表的元素加入到另一个列表中,确保 reducedFeatVec 包含了除了当前特征 axis 外的所有特征。

return retDataSet # 返回划分后的数据集

  • 最后,函数返回划分后的子集 retDataSet,它包含了所有在特定特征 axis 上取值为 value 的样本(每个样本去掉了 axis 特征)。

假设有如下数据集(dataSet):

dataSet = [['青年', '否', '否', '一般', '不放贷'],['青年', '否', '是', '好', '放贷'],['青年', '是', '否', '好', '放贷'],['青年', '是', '是', '一般', '不放贷'],['中年', '否', '否', '一般', '不放贷'],['中年', '否', '是', '好', '放贷'],['中年', '是', '否', '好', '放贷'],['中年', '是', '是', '一般', '不放贷'],['老年', '否', '否', '一般', '不放贷'],['老年', '否', '是', '好', '放贷'],['老年', '是', '否', '好', '放贷'],['老年', '是', '是', '一般', '不放贷']
]

假设我们希望根据第二个特征“是否有工作”(axis=1)进行划分,我们调用 splitDataSet 函数,并指定取值

result = splitDataSet(dataSet, 1, '否')

在这个例子中,axis=1 表示我们正在根据第二个特征(“是否有工作”)进行划分,value='否' 表示我们选择特征值为“否”的样本。调用 splitDataSet 函数后,返回的 result 是:

[['青年', '否', '否', '一般', '不放贷'],['青年', '否', '是', '好', '放贷'],['中年', '否', '否', '一般', '不放贷'],['中年', '否', '是', '好', '放贷'],['老年', '否', '否', '一般', '不放贷'],['老年', '否', '是', '好', '放贷']
]

这些样本的第二个特征都是“否”。可以看到,函数成功地将数据集按第二个特征值为“否”进行划分,且去除了“是否有工作”这一特征,返回了包含其余特征的子集。

http://www.lryc.cn/news/490423.html

相关文章:

  • PHP8解析php技术10个新特性
  • C++模版特化和偏特化
  • Simulink中Model模块的模型保护功能
  • Linux常用工具的使用(2):文本编辑器的使用
  • 【StarRocks】starrocks 3.2.12 【share-nothing】 多Be集群容器化部署
  • 联想ThinkServer服务器主要硬件驱动下载
  • Ansys Zemax Optical Studio 中的近视眼及矫正
  • 三次握手后的数据传输
  • 企业OA管理系统:Spring Boot技术实现与案例研究
  • (免费送源码)计算机毕业设计原创定制:Java+JSP+HTML+JQUERY+AJAX+MySQL springboot计算机类专业考研学习网站管理系统
  • Go语言工程测试的基本规则和流程
  • 阿里云cdn配置记录和nodejs手动安装
  • PTC在电池中的作用
  • 嵌入式C语言面试题 - 2024/11/18
  • 理解原子变量之四:可见性、memory_order_acquire与 memory_order_release
  • requests的session
  • MySQL面试题补
  • Windows系统编程 - 进程遍历
  • 从零开始创建一个 Vue3+Vite+TS+Eslint项目
  • Python操作neo4j库py2neo使用(一)
  • Oracle - 多区间按权重取值逻辑 ,分时区-多层级-取配置方案(二)
  • leetcode刷题记录(四十二)——101. 对称二叉树
  • AutoDL安装docker问题
  • C++头文件大全(要是还有请帮忙)
  • 深度学习实战人脸识别
  • oracle排查长时间没提交的事务造成的阻塞案例
  • React第七节 组件三大属性之 refs 的用法注意事项
  • 工程企业需要什么样的物资管理系统?为什么需要物资管理系统?
  • 基于网页的大语言模型聊天机器人
  • 深入理解索引(一)