当前位置: 首页 > news >正文

【Python】pandas连续变量分箱


路过了学校花店
荒野到海边
有一种浪漫的爱
是浪费时间
徘徊到繁华世界
才发现你背影
平凡得特别
绕过了城外边界
还是没告别
爱错过了太久
反而错得完美无缺
幸福兜了一个圈

                     🎵 林宥嘉《兜圈》


import pandas as pd
import numpy as np
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression# 示例数据
data = {'feature1': np.random.rand(1000),'feature2': np.random.rand(1000),'feature3': np.random.rand(1000),'target': np.random.randint(0, 2, 1000)
}
df = pd.DataFrame(data)# 自动选择最佳分箱数量的函数
def find_best_bins(df, feature, target, max_bins=10):best_bins = 2best_score = -np.inffor bins in range(2, max_bins + 1):df['bin'] = pd.cut(df[feature], bins=bins, labels=False)model = LogisticRegression()# 使用分箱后的特征进行交叉验证评分scores = cross_val_score(model, df[['bin']], df[target], scoring='roc_auc', cv=5)mean_score = scores.mean()if mean_score > best_score:best_score = mean_scorebest_bins = binsreturn best_bins# 计算 WoE 和 IV 的函数
def calculate_woe_iv(df, feature, target, bins):epsilon = 1e-6  # 平滑处理,避免除零df['bin'] = pd.cut(df[feature], bins=bins)# 计算每个箱的总数、正样本数和负样本数binned = df.groupby('bin')[target].agg(['count', 'sum'])binned.columns = ['total', 'positive']binned['negative'] = binned['total'] - binned['positive']# 计算每个箱或类别的正负样本比例binned['positive_ratio'] = (binned['positive'] + epsilon) / (binned['positive'].sum() + epsilon)binned['negative_ratio'] = (binned['negative'] + epsilon) / (binned['negative'].sum() + epsilon)# 计算 WoE 和 IVbinned['woe'] = np.log(binned['positive_ratio'] / binned['negative_ratio'])binned['iv'] = (binned['positive_ratio'] - binned['negative_ratio']) * binned['woe']# 计算总 IViv = binned['iv'].sum()return iv# 对 DataFrame 中每个特征列进行分箱,并选择最佳分箱数量
def binning_dataframe(df, target, max_bins=10):binned_df = df.copy()bin_info = {}iv_info = {}for feature in df.columns:if feature != target:best_bins = find_best_bins(df, feature, target, max_bins)bin_info[feature] = best_binsbinned_df[feature] = pd.cut(df[feature], bins=best_bins, labels=False)# 计算 IV 值iv = calculate_woe_iv(df, feature, target, best_bins)iv_info[feature] = ivreturn binned_df, bin_info, iv_info# 进行分箱并选择最佳分箱数量
binned_df, bin_info, iv_info = binning_dataframe(df, 'target', max_bins=10)print("分箱信息:")
print(bin_info)
print("\nIV 信息:")
print(iv_info)
print("\n分箱后的 DataFrame:")
print(binned_df.head())
http://www.lryc.cn/news/351774.html

相关文章:

  • Qt 打卡小程序总结
  • 【qt】标准项模型
  • 一文深度剖析 ColBERT
  • css左右滚动互不影响
  • 【linux-uboot移植-mmc及tftp启动-IMX6ULL】
  • Python-温故知新
  • 绿联NAS DXP系列发布:内网穿透技术在私有云的应用分析
  • 力扣:242. 有效的字母异位词
  • 设计模式14——组合模式
  • MyBatis面试题(Mybaits的优点、缺点、适用场合、与Hibernate有哪些不同)
  • python写接口性能测试
  • 《暮色将尽》跨越世纪的历程,慢慢走向并完善自我
  • python-鸡兔同笼问题:已知鸡和兔的总头数与总脚数。求笼中鸡和兔各几只?
  • 【NumPy】关于numpy.transpose()函数,看这一篇文章就够了
  • 什么是住宅IP代理?为什么需要家庭 IP 代理
  • Java方法的重载
  • RabbitMQ 消息队列安装及入门
  • K8S认证|CKA题库+答案| 14. 排查故障节点
  • Linux:网络管理命令之ss
  • 数据结构-队列(带图详解)
  • python文件名通常以什么结尾
  • 前端javascript 中 JSON.parse() 的作用
  • 【Linux学习】进程基础API
  • 音视频及H264/H256编码相关原理
  • 查看cpu进程数
  • MySQL优化篇
  • Python3 笔记:部分专有名词解释
  • javaAPI文档中文版(JDK11在线版)java帮助文档,掌握文档java学习事半功倍。
  • 移动端适配:vw适配方案
  • 实战Java虚拟机-实战篇