当前位置: 首页 > news >正文

机器学习 决策树

决策树-分类

1 概念

1、决策节点通过条件判断而进行分支选择的节点。如:将某个样本中的属性值(特征值)与决策节点上的值进行比较,从而判断它的流向。

2、叶子节点没有子节点的节点,表示最终的决策结果。

3、决策树的深度所有节点的最大层次数。

决策树具有一定的层次结构,根节点的层次数定为0,从下面开始每一层子节点层次数增加

决策树优点:

​ 可视化 - 可解释能力-对算力要求低

 决策树缺点:

​ 容易产生过拟合,所以不要把深度调整太大了。

集成学习方法之随机森林

机器学习中有一种大类叫集成学习(Ensemble Learning),集成学习的基本思想就是将多个分类器组合,从而实现一个预测效果更好的集成分类器。集成算法可以说从一方面验证了中国的一句老话:三个臭皮匠,赛过诸葛亮。集成算法大致可以分为:Bagging,Boosting 和 Stacking 三大类型。

(1)每次有放回地从训练集中取出 n 个训练样本,组成新的训练集;

(2)利用新的训练集,训练得到M个子模型;

(3)对于分类问题,采用投票的方法,得票最多子模型的分类类别为最终的类别;

随机森林就属于集成学习,是通过构建一个包含多个决策树(通常称为基学习器或弱学习器)的森林,每棵树都在不同的数据子集和特征子集上进行训练,最终通过投票或平均预测结果来产生更准确和稳健的预测。这种方法不仅提高了预测精度,也降低了过拟合风险,并且能够处理高维度和大规模数据集

from sklearn.ensemble import RandomForestClassifier
import pandas as pd 
from sklearn.feature_extraction import DictVectorizer
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_splitdata=pd.read_csv("../src/titanic/titanic.csv")
data["age"].fillna(data["age"].mode()[0],inplace=True)
X=data[["pclass","age","sex"]]
y=data["survived"]
data.drop(["survived"],axis=1,inplace=True)
dict=data.to_dict(orient="records")
vec=DictVectorizer(sparse=False)
x=vec.fit_transform(dict)
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.25,random_state=666)
scaler=StandardScaler()
x_train1=scaler.fit_transform(x_train)
model=RandomForestClassifier(n_estimators=100,max_depth=8,criterion="gini")
model.fit(x_train1,y_train)
x_test=scaler.transform(x_test)
rank=model.score(x_test,y_test)
print(rank)

http://www.lryc.cn/news/485508.html

相关文章:

  • 效益登记册效益管理计划
  • Go语言的零值可用性:优势与限制
  • 【自用】0-1背包问题与完全背包问题的Java实现
  • HTML5实现俄罗斯方块小游戏
  • Mybatis官方生成器使用示例
  • 演员王子辰—专注革命题材 《前行者》后再出发
  • Spring Boot基础教学:创建第一个Spring Boot项目
  • 基于SpringBoot+Vue实现校园多媒体信息共享平台
  • WebRTC API分析
  • ArkTS学习笔记:ArkTS起步
  • spring-gateway网关聚合swagger实现多个服务接口切换
  • 关于 Oracle Database Express Edition 的功能和安装
  • 领夹麦克风哪个品牌好,手机领夹麦克风哪个牌子好,选购推荐
  • 什么是 Go 语言?
  • AI 大模型重塑软件开发流程:定义、应用、优势与挑战
  • 微服务即时通讯系统的实现(客户端)----(1)
  • 【freertos】FreeRTOS时间管理
  • 台式电脑没有声音怎么办?台式电脑没有声音解决详解
  • 机器学习基础02
  • element plus的表格内容自动滚动
  • 哈佛商业评论 | 未来商业的技术趋势:百度李彦宏谈技术如何变革商业
  • Pytorch如何将嵌套的dict类型数据加载到GPU
  • Shell基础2
  • 7z 解压器手机版与解压专家:安卓解压工具对决
  • C++清除所有输出【DEV-C++】所有编辑器通用 | 算法基础NO.1
  • 【Android、IOS、Flutter、鸿蒙、ReactNative 】启动页
  • SpringBoot 2.2.10 无法执行Test单元测试
  • 聊天服务器(8)用户登录业务
  • stm32在linux环境下的开发与调试
  • flinkOnYarn并配置prometheus+grafana监控告警