当前位置: 首页 > news >正文

Kaggle实践之《Home Credit Default Risk》的逐步优化

记录下每一次的改进及其score。

1、只用训练集的特征+简单处理

特征只用训练集的特征,把string型的特征全部进行one-hot转化,然后随机1:4分成测试集训练集,模型也调参直接出结果。

最终的score是训练集80.13%、验证集76.33%、线上74.28%。
在这里插入图片描述

实验2:SK_ID_CURR作为唯一的ID,特征重要性能排在第12位?
处理方法:做个消融实验,去掉这个特征,80.44%、75.82%、74.62%。
结论:虽然训练集auc相比上一次实验下降了0.51pt,但是线上score却增加了0.34pt,可见虽然SK_ID_CURR的特征重要性较高,但对模型的泛化性有负向作用。

实验3:很多flag特征也被当做string类型进行了one-hot处理,导致其实是两个一样的特征?
处理方法:在做特征one-hot的时候,去掉一个特征。81.66、76.08、74.42%。

实验下来差异都没什么增益,明天增加bureau的数据试试

http://www.lryc.cn/news/303556.html

相关文章:

  • django rest framework 学习笔记-实战商城2
  • WEB 3D技术 three.js 3D贺卡(4) 添加鼠标滚轮移动屏幕 改变贺卡文字功能
  • 爬虫在网页抓取的过程中可能会遇到哪些问题?
  • Eclipse中Run As On Server和Run As Java Application
  • 【MySQL】库的操作——MySQL数据库 、库的操作、表的操作、字符集和校验规则、备份和恢复
  • pytorch 用F.normalization的逆归一化如何操作
  • LabVIEW多通道压力传感器实时动态检测
  • Jenkins解决Host key verification failed (2)
  • C#,数值计算,矩阵的乔莱斯基分解(Cholesky decomposition)算法与源代码
  • docker 备份 mysql
  • 使用C# Net6连接国产达梦数据库记录
  • docker (八)-dockerfile制作镜像
  • springcloud-网关(gateway)
  • 2.20 day2 QT
  • 【C++语法基础】4.分支和循环结构(✨新手推荐阅读)
  • 朋友圈程序全开源版源码,附带系统搭建教程
  • 思维方式系列文章目录 -《清单革命》实践
  • RAID 创建使用以及ubuntu安装和使用zfs文件系统及Ubuntu软件安装
  • yarn常用命令小记
  • 防御保护---内容保护
  • jquery将网页html文档导出为pdf图片
  • opengl 学习着色器
  • 【数据结构】18 二叉搜索树(查找,插入,删除)
  • 力扣日记2.20-【回溯算法篇】491. 非递减子序列
  • Android 13.0 SystemUI下拉状态栏定制二 锁屏页面横竖屏解锁图标置顶显示功能实现
  • FPGA_简单工程_拨码开关
  • LaunchPad 市场的复苏,Penpad 成新兴生力军
  • 知识图谱实战应用30-基于py2neo的天文学中的恒星、行星与卫星之间的关系知识图谱研究与应用
  • 笔试题详解(C语言进阶)
  • ClickHouse快速上手