当前位置: 首页 > news >正文

Datawhale AI夏令营 机器学习2.1

主要优化点:

  1. 设备品牌分桶

    • 将低频设备品牌归类为"Other"

    • 解决长尾分布问题,减少噪声

  2. 重叠用户策略

    test_df['is_new_did'] = test_df['did'].apply( lambda x: user_label_dict[x] if x in user_label_dict else test_df.loc[test_df['did'] == x, 'pred_model'].values[0] )
    • 对于训练集中出现过的用户,直接使用已知标签

    • 充分利用数据特点(测试集93%用户出现在训练集中)

  3. 模型参数优化

    • 减小max_depth(8)和num_leaves(31)防止过拟合

    • 降低learning_rate(0.05)提高稳定性

    • 增加正则化项(lambda_l1lambda_l2)

    • 增加num_boost_round(2000)配合早停

  4. 阈值搜索优化

    thresholds = np.arange(0.1, 0.5, 0.01) # 更精细的阈值搜索
    • 以0.01为步长搜索最佳阈值

    • 更精确地平衡精确率和召回率

分数结果:

http://www.lryc.cn/news/589230.html

相关文章:

  • AWS中国区资源成本优化全面指南:从理论到实践
  • 从零开始的python学习(八)P115+P116+P117+P118+P119+P120+P121+P122
  • 第十三讲 | map和set的使用
  • Windows内核对象
  • 【AutoCAD保姆级安装教程】AutoCAD 2025 版详细图文下载安装教程
  • wkhtmltopdf导出pdf调试参数
  • 【08】MFC入门到精通——MFC模态对话框 和 非模态对话框 解析 及 实例演示
  • 农村养老模式:乡土智慧与时代创新的共生之路
  • Gitlab跑CICD的时候,maven镜像和pom.xml使用的maven版本冲突导致没办法build成功的解决方法
  • 【C#地图显示教程:实现鼠标绘制图形操作】
  • jmeter之随机读取csv文件
  • jmeter提取接口返回值,对比去重
  • 说下对mysql MVCC的理解
  • LeetCode|Day13|88. 合并两个有序数组|Python刷题笔记
  • 记录一条面试sql题目
  • 《每日AI-人工智能-编程日报》--2025年7月15日
  • vue实现el-table-column中自定义label
  • 对象数组列表转成树形结构--树形结构转成列表(处理菜单)
  • 牛客:HJ21 简单密码[华为机考][哈希]
  • T8332AD这是一款多拓扑芯片质量很硬朗?
  • 【jvm|基本原理】第四天
  • 力扣 hot100 Day45
  • LeetCode Hot100 【1.两数之和、2.两数相加、3.无重复字符的最长子串】
  • 拼多多笔试题目一
  • 人机协作系列(四)AI编程的下一个范式革命——看Factory AI如何重构软件工程?
  • 力扣——1071. 字符串的最大公因子
  • 基于Alpine构建MySQL镜像
  • sublime如何支持换行替换换行
  • PHP安全漏洞深度解析:文件包含与SSRF攻击的攻防实战
  • Azure FXmsv2 系列与 Azure FXmdsv2 系列虚拟机正式发布