当前位置: 首页 > news >正文

OneHotEncoder一个不太合理的地方

OneHotEncoder,在Xtrain上fit,在Xtest上transform
如果遇到某个值出现在Xtest,而没有在Xtrain出现过时,会抛出如下错误:

OneHotEncoder Found unknown categories [xxx] in column xx during transform

OneHotEncoder 只能对在训练阶段见过的类别进行编码

在这里插入图片描述
在这里插入图片描述
解决这个问题的其中一个办法是,在OneHotEncoder实例化的时候设置参数handle_unknown='ignore',即表示忽略未知类别值
在转换过程中,如遇到未知类别值时,编码器会将对应的编码位置全部设置为 0

encoder = OneHotEncoder(handle_unknown='ignore')

但是,OneHotEncoder的编码默认又是从0开始的,导致一个问题:
假如某个特征有3种取值,正常经过OneHotEncoder编码后还是3种取值,即0,1,2;但一旦遇到上述问题设置handle_unknown='ignore后,编码就变成了0,1,这就会丢失部分信息。
如果要更改Onehotencoder handle_unknown='ignore时的默认值,还得通过继承OneHotEncoder类并覆盖相关方法来实现

http://www.lryc.cn/news/432636.html

相关文章:

  • 如何修复软件中的BUG
  • 分享一个基于微信小程序的医院挂号就诊一体化平台uniapp医院辅助挂号应用小程序设计(源码、调试、LW、开题、PPT)
  • HTML生日蛋糕
  • 【软件逆向】第27课,软件逆向安全工程师之(二)寄存器寻址,每天5分钟学习逆向吧!
  • 前缀和 — 利用前缀信息解决子数组问题
  • 2024年最新版Ajax+Axios 学习【包含原理、Promise、报文、接口等...】
  • 【Qt线程】—— Qt线程详解
  • Golang | Leetcode Golang题解之第391题完美矩形
  • 〖open-mmlab: MMDetection〗解析文件:mmdet/models/detectors/two_stage.py
  • 【最新华为OD机试E卷-支持在线评测】机器人活动区域(100分)多语言题解-(Python/C/JavaScript/Java/Cpp)
  • C语言:刷题日志(1)
  • ios私钥证书(p12)导入失败,Windows OpenSSl 1.1.1 下载
  • 嵌入式面试经典30问:二
  • 目标检测-YOLOv1
  • python基础语法八-异常
  • 【堆的应用--C语言版】
  • 【微信小程序】搭建项目步骤 + 引入Tdesign UI
  • android系统源码12 修改默认桌面壁纸--SRO方式
  • Echarts可视化
  • 验证linux gpu是否可用
  • JavaScript( 简介)
  • Linux中的编译器gcc/g++
  • RK3568安装部署Docker容器
  • Ubuntu 常用指令和作用解析
  • 2024国赛数学建模C题完整论文:农作物的种植策略
  • 【语音告警】博灵智能语音报警灯JavaScript循环播报场景实例-语音报警灯|声光报警器|网络信号灯
  • 指针与函数(三)
  • 锐捷网络2025届校园招聘正式启动,【NTA6dni】!
  • 共享内存喜欢沙县小吃
  • 五、Build构建配置:jar包换名、自行定义编译规则