当前位置: 首页 > news >正文

3.5 认识决策树

3.5 认识决策树

3.5.1 认识决策树

如何高效的进行决策?  特征的先后顺序

3.5.2 决策树分类原理详解

已知有四个特征,预测 是否贷款给某个人。

先看房子,再看工作,是否贷款。

年龄,信贷情况,工作,是否贷款

1 原理

信息熵,信息增益等。

需要用到信息论的知识!问题:通过例子引入信息熵

信息论基础:

1)信息

        香农:消除随机不定性的东西

         小明  年龄 “我今年18岁”   是信息

          小华  “小明明年19岁”   (不是信息,因为我已经知道小明18岁)

2) 信息的衡量  ——信息量——  信息熵

2 信息熵的定义

H的专业术语之为信息熵,单位为比特  bit

3 决策树的划分依据之一信息增益

4 决策树的划分依据——信息增益

当然决策树的原理不止信息增益这一种,还有其他方法,但是原理都类似,我们就不去举例计算。

3.5.3 决策树API

3.5.4 案例:泰坦尼克号乘客生存预测

流程分析:

特征值   目标值

1)获取数据

2)数据处理

        缺失值处理

       特征值——>字典类型

3)准备好特征值  目标值

4)划分数据集

5)特征工程:字典特征抽取

6)决策树预估器流程

7)模型评估

3.5.5 决策树可视化

1 保存树的结构到dot文件

3.5.6 决策树总结

优点:

简单的理解和解释,树木可视化

缺点:

决策树学习者可以创建不能很好推广数据的过于复杂的树,这被称为过拟合。

改进:

减枝cart算法(决策树API当中已经实现,随意森林参数调优有相关介绍)

随机森林

注意:企业重要决策,由于决策树很好的分析能力,在决策过程中应用较多,可以选择特征

3.5.7 总结

信息熵,信息增益的计算

DecisonTreeClassifier进行决策树的划分

export_graphviz导出到dot文件

http://www.lryc.cn/news/499727.html

相关文章:

  • 股市复盘笔记
  • Canal 深入解析:从原理到实践的全面解读
  • SQL SERVER 2016 AlwaysOn 无域集群+负载均衡搭建与简测
  • 解决 Maven 部署中的 Artifact 覆盖问题:实战经验分享20241204
  • 【开源免费】基于SpringBoot+Vue.JS中小型医院网站(JAVA毕业设计)
  • Linux CentOS
  • Android SurfaceFlinger layer层级
  • spark-sql配置教程
  • 生成表格pdf格式
  • C++ 游戏开发的前沿趋势:从光线追踪到人工智能的全新挑战
  • 微信小程序3-显标记信息和弹框
  • EasyNVR中HTTP-FLV协议无法播放怎么解决?
  • spring cloud之ribbon复习回顾
  • RFT 强化微调
  • SpringBoot教程(三十二) SpringBoot集成Skywalking链路跟踪
  • 分布式搜索引擎Elasticsearch
  • 在Vue.js中生成二维码(将指定的url+参数 生成二维码)
  • 统信桌面专业版部署postgresql-14.2+postgis-3.2方法介绍
  • 数字图像处理(16):RGB与HSV互转
  • web组态可视化编辑器
  • 数组 - 八皇后 - 困难
  • 【分布式】Redis分布式缓存
  • Ubuntu——extrepo添加部分外部软件源
  • 评估大语言模型(LLM)在分子预测任务能够理解分子几何形状性能
  • 如何查看电脑刷新率
  • mysql集群MHA方式部署
  • 第十七章 使用 MariaDB 数据库管理系统
  • rabbitmq 安装延时队列插件rabbitmq_delayer_message_exchange(linux centOS 7)
  • Unity性能优化---动态网格组合(一)
  • Appium:安装uiautomator2失败