当前位置: 首页 > news >正文

机器学习——集成学习

引言

集成学习:让机器学习效果更好,单个不行,群殴走起。

分类

1. Bagging:训练多个分类器取平均(m代表树的个数)。

2.Boosting(提升算法):从弱学习器开始加,通过加权来进行训练。(它与上面的不同在于它不是随机几颗树取平均,而是加入一棵树要比原来强)

 3.Stacking:聚合多个分类或回归模型(可以分阶段来做)

介绍

Bagging全称(bootstrap aggregation)在其算法中训练每一棵树之间是没有影响的,说白了就是并行训练一堆分类器。

典型代表随机森林:随机代表数据采样随机,特征选择随机,为了避免重复,但算法已经固定为了增加多样性则就是数据的采样要随机。森林代表很多个决策树并行放在一起。

随机森林中分类和回归的做法:

 在做分类任务的时候两个类别被分为A一个被分为B,那么则选择少数服从多数最后类别为A。

在做回归任务的时候分别为100、200、300,则最终结果为(100+200+300)/3

随机森林的优点:

1.可解释性强,便于分析。(对于神经网络、深度学习都是黑盒子,我们只能得到输入和输出内部很复杂看不到。)

2.在训练结束,它能够给出特征重要型排序,如下图:

 3.并行化方法,速度快

软投票和硬投票

一、硬投票:直接用类别值,少数服从多数

(1)准备数据并且可视化

%matplotlib inline
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_moons
X,y=make_moons(n_samples=500,noise=0.30,random_state=42)
X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=42)
plt.plot(X[:,0][y==0],X[:,1][y==0],'yo',alpha=0.6)#alpha 代表透明程度
plt.plot(X[:,0][y==0],X[:,1][y==1],'bs',alpha=0.6)

结果如图所示:

(2)硬投票

from sklearn.ensemble import RandomForestClassifier,VotingClassifier #随机森林和投票器
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
#进行实例化
log_clf=LogisticRegression()
rnd_clf=RandomForestClassifier()
svm_clf=SVC()
voting_clf=VotingClassifier(estimators=[('lr',log_clf),('rf',rnd_clf),('svc',svm_clf)],voting='hard')
voting_clf.fit(X_train,y_train)

(3)模型评价

from sklearn.metrics import accuracy_score
for clf in (log_clf,rnd_clf,svm_clf,voting_clf):clf.fit(X_train,y_train)y_pred=clf.predict(X_test)print(clf.__class__.__name__,accuracy_score(y_test,y_pred))

结果如下:

 二、软投票:各自分类器的概率值进行加权平均

数据不变,只需要将上面代码进行修改。代码如下:

from sklearn.ensemble import RandomForestClassifier,VotingClassifier #随机森林和投票器
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
#进行实例化
log_clf=LogisticRegression()
rnd_clf=RandomForestClassifier()
svm_clf=SVC(probability=True)
voting_clf=VotingClassifier(estimators=[('lr',log_clf),('rf',rnd_clf),('svc',svm_clf)],voting='soft')
voting_clf.fit(X_train,y_train)
from sklearn.metrics import accuracy_score
for clf in (log_clf,rnd_clf,svm_clf,voting_clf):clf.fit(X_train,y_train)y_pred=clf.predict(X_test)print(clf.__class__.__name__,accuracy_score(y_test,y_pred))

模型评价结果如图:

 明显比上一个效果好。

http://www.lryc.cn/news/21986.html

相关文章:

  • VS编译系统 实用调试技巧
  • 【华为OD机试模拟题】用 C++ 实现 - GPU 调度(2023.Q1)
  • 腾讯前端必会react面试题合集
  • Linux搭建SVN服务器,并内网穿透实现公网远程访问
  • C++STL之list的模拟实现
  • 为什么硬件性能监控很重要
  • HTTP缓存
  • SPI设备树处理过程
  • 数据有哪些重要的作用?
  • spring面试题总结
  • 使用MUI与H5+构建移动端app
  • 第17篇:Java变量总结
  • 使用51单片机的GPIO输出占空比可调节的PWM波
  • 从产品经理的角度如何提升项目的交付质量?
  • JavaScript BOM【快速掌握知识点】
  • 【算法】哈希表
  • 彻底搞懂React-hook链表构建原理
  • 【数据挖掘实战】——应用系统负载分析与容量预测(ARIMA模型)
  • 【华为OD机试模拟题】用 C++ 实现 - 九宫格按键输入(2023.Q1)
  • Linux: config: CONFIG_SYN_COOKIES
  • 【笔记】C# 数据类型转换
  • JavaWeb JavaBean,MVC三层架构
  • JavaEE简单实例——MyBatis一对多关联映射的嵌套结果集查询
  • 大数据框架之Hadoop:MapReduce(三)MapReduce框架原理——OutputFormat数据输出
  • Linux搜索、编辑
  • Git Commit提交规范总结
  • 【ESP 保姆级教程】疯狂毕设篇 —— 案例:基于ESP8266和EMQX的教室灯光控制系统
  • SpringBoot (一) 项目构建、配置读取、静态资源定义
  • <JVM上篇:内存与垃圾回收篇>12 - 垃圾回收相关概念
  • new操作符做了什么?