当前位置：首页 > news >正文

DataWhale 机器学习夏令营第三期——任务二：可视化分析

news 2025/7/29 19:45:19

DataWhale 机器学习夏令营第三期

学习记录二 (2023.08.23)——可视化分析
- 1.赛题理解
- 2. 数据可视化分析
- - 2.1 用户维度特征分布分析
  - 2.2 时间特征分布分析

DataWhale 机器学习夏令营第三期
——用户新增预测挑战赛

学习记录二 (2023.08.23)——可视化分析

2023.08.17
已跑通baseline，换为lightgbm基线，不加任何特征线上得分0.52214；
添加baseline特征，线上得分0.78176；
暴力衍生特征并微调模型参数，线上得分0.86068
2023.08.23
数据分析、衍生特征：0.87488
衍生特征、模型调参：0.89817

交流分享视频：
【DataWhale“用户新增预测挑战赛”交流分享-哔哩哔哩】 https://b23.tv/zZMLtFG

1.赛题理解

在这里插入图片描述

这次比赛特征主要可以分为以下三个维度：

行为维度：eid、udmap
- udmap的key处理成了类别特征
时间维度：common_ts
- 进行了时间戳特征的提取：day, hour, minute
用户维度：x1~x8

2. 数据可视化分析

使用以下代码绘制前还需做一些设置，具体可以参考如下链接：
https://www.kaggle.com/code/jcaliz/ps-s03e02-a-complete-eda/notebook
该notebook内提供了丰富的可视化分析代码和思路，值得参考。

绘制代码：

def plot_cate_large(col):data_to_plot = (all_df.groupby('set')[col].value_counts(True)*100)fig, ax = plt.subplots(figsize=(10, 6))sns.barplot(data=data_to_plot.rename('Percent').reset_index(),hue='set', x=col, y='Percent', ax=ax,orient='v',hue_order=['train', 'test'])x_ticklabels = [x.get_text() for x in ax.get_xticklabels()]# Secondary axis to show mean of targetax2 = ax.twinx()scatter_data = all_df.groupby(col)['target'].mean()scatter_data.index = scatter_data.index.astype(str)ax2.plot(x_ticklabels,scatter_data.loc[x_ticklabels],linestyle='', marker='.', color=colors[4],markersize=15)ax2.set_ylim([0, 1])# Set x-axis tick labels every 5th valuex_ticks_indices = range(0, len(x_ticklabels), 5)ax.set_xticks(x_ticks_indices)ax.set_xticklabels(x_ticklabels[::5], rotation=45, ha='right')# titlesax.set_title(f'{col}')ax.set_ylabel('Percent')ax.set_xlabel(col)# remove axes to show only one at the endhandles = []labels = []if ax.get_legend() is not None:handles += ax.get_legend().legendHandleslabels += [x.get_text() for x in ax.get_legend().get_texts()]else:handles += ax.get_legend_handles_labels()[0]labels += ax.get_legend_handles_labels()[1]ax.legend().remove()plt.legend(handles, labels, loc='upper center', bbox_to_anchor=(0.5, 1.08), fontsize=12)plt.tight_layout()plt.show()