当前位置: 首页 > news >正文

集成学习-树模型

可以分为三部分学习树模型:

  1. 基本树(包括 ID3、C4.5、CART).
  2. Random Forest、Adaboost、GBDT
  3. Xgboost 和 LightGBM。

基本树

选择特征的准则

ID3:信息增益max

C4.5:信息增益比max

CART:基尼指数min

优缺点

ID3

核心思想是奥卡姆剃刀(决策树小优于大)

缺点:

  • ID3 没有剪枝策略,容易过拟合;
  • 信息增益准则对可取值数目较多的特征有所偏好,类似“编号”的特征其信息增益接近于 1;
  • 只能用于处理离散分布的特征;
  • 没有考虑缺失值。

C4.5

有剪枝策略。最大的特点是克服了 ID3 对特征数目的偏重这一缺点,引入信息增益率来作为分类标准。

缺点:

  • C4.5 只能用于分类;
  • C4.5 使用的熵模型拥有大量耗时的对数运算,连续值还有排序运算;
  • C4.5 在构造树的过程中,对数值属性值需要按照其大小进行排序,从中选择一个分割点,所以只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时,程序无法运行。

CART

ID3 和 C4.5 虽然在对训练样本集的学习中可以尽可能多地挖掘信息,但是其生成的决策树分支、规模都比较大,CART 算法的二分法可以简化决策树的规模,提高生成决策树的效率。

集成学习/决策树

常见的集成学习框架有三种&

http://www.lryc.cn/news/171082.html

相关文章:

  • 代码随想录算法训练营第一天(C)| 704. 二分查找 27. 移除元素
  • 重构优化第三方查询接口返回大数据量的分页问题
  • Cento7 Docker安装Zabbix,定制自定义模板
  • 网络防御--防火墙
  • 淘宝商品详情数据采集
  • mac安装virtualenv和virtualenvwrapper
  • 利用PCA科学确定各个指标的权重系数
  • 代码随想录 -- day55 --392.判断子序列 、115.不同的子序列
  • mysql5升级到mysql8的血泪教训
  • Unity 开发人员转CGE(castle Game engine)城堡游戏引擎指导手册
  • 卷运维不如卷网络安全
  • Digger PRO - Voxel enhanced terrains
  • 文字处理工具 word 2019 mac中文版改进功能
  • LeetCode 54. 螺旋矩阵
  • 每天几道Java面试题:集合(第四天)
  • 【论文解读】Faster sorting algorithm
  • latexocr安装过程中遇到的问题解决办法
  • 如何判断linux 文件(或lib)是由uclibc还是glibc编译出来的?
  • WorkPlus | 好用、专业、安全的局域网即时通讯及协同办公平台
  • ARM Linux DIY(十二)NES 游戏
  • MOEA算法的背景知识
  • 【rtp-benchmarks】读取本地文件基于uvgRtp实现多线程发送
  • fire-voc 火光 烟火 火灾 目标检测数据集
  • 【力扣1462】课程表(拓扑排序+bitset优化到O(n))
  • 【AI】机器学习——支持向量机(非线性及分析)
  • 2023-09-20 LeetCode每日一题(拿硬币)
  • Java21的新特性
  • 测试-----selenuim webDriver
  • 21天学会C++:Day12----初始化列表
  • OpenAI开发系列(二):大语言模型发展史及Transformer架构详解