当前位置：首页 > news >正文

基于数据挖掘的短视频点赞影响因素分析【LightGBM、XGBoost、随机森林、smote】

news 2025/7/25 8:20:14

文章目录

- ==有需要本项目的代码或文档以及全部资源，或者部署调试可以私信博主==
- - 项目介绍
  - 总结
  - 每文一语

有需要本项目的代码或文档以及全部资源，或者部署调试可以私信博主

项目介绍

随着短视频行业的高速发展，尤其是以抖音为代表的平台不断壮大，每日吸引着大量用户上传视频内容以记录生活、表达观点。在此过程中，不仅有海量普通用户的参与，也出现了诸如内容营销机构、流量运营团队等专业化群体，他们通过构建流量矩阵、内容优化等方式，实现账号曝光度与影响力的持续增长。

本研究以用户是否对短视频作品点赞为目标变量，深入挖掘影响其行为决策的关键因素。为此，我们在和鲸数据、CSDN 以及 Kaggle 等数据平台上采集了与短视频点赞行为相关的多个数据集，样本总量约为170万条。数据内容涵盖用户的观看行为特征、作者的基础属性、以及作品维度等多个方面，具备较强的代表性与多样性。

在数据预处理环节，首先对重复记录与缺失值进行了清洗和补全，同时统一字段格式与类型。随后将原始数据划分并构建为三大类特征数据集，分别为用户行为特征集、作品属性特征集与作者基本信息特征集。基于这些结构化数据，展开深入的分析与可视化研究。

在数据分析方面，采用了 Pyecharts 可视化工具，对各类维度进行统计分析与画像建模。例如，在用户行为分析中，关注用户浏览量分布、完整播放率、平均观看时长等指标；在作者特征分析中，探讨作者浏览量分布、城市地域分布与创作活跃度等维度；在作品维度中，分析点赞量、播放量、使用背景音乐频率、作品发布时间与发布城市等内容。

此外，研究还对短视频平台的整体画像进行了刻画，如不同地域用户分布、时间段播放行为、点赞率与完播率的时间趋势、一周内播放变化、作品时长与PV/UV等关键指标的统计分布。为进一步理解用户和作者群体特征，本文还应用聚类算法对其进行分群，挖掘不同群体在互动行为上的差异。

在建模部分，基于用户是否点赞这一标签，结合前述多维特征，构建了多种二分类预测模型。采用的机器学习算法包括 LightGBM、XGBoost 与随机森林，并针对样本不平衡问题引入 SMOTE 过采样技术进行处理。模型训练过程中，通过网格搜索等方法对参数进行调优。最终，使用准确率、召回率、F1 分数、混淆矩阵等评估指标，对模型效果进行全面评估，并结合特征重要性排序，深入探究影响用户点赞行为的关键驱动因素。

本研究不仅为理解短视频用户的点赞行为提供数据支持，也为内容创作者、平台运营者在优化内容策略、提升用户互动率等方面提供理论依据与实践参考。

在这里插入图片描述

总结

本研究的创新性主要体现在三个方面：数据选取的广度与多源融合、特征工程的深度构建与维度创新、以及模型优化策略的针对性与实用性。

在数据采集方面，本研究首次联合整合来自国内外多个主流数据平台（如和鲸数据、CSDN、Kaggle等）的短视频用户行为数据，构建了一个包含约170万条记录的大规模数据集。该数据集不仅覆盖了用户的观看行为、作者属性与作品特征，还具有广泛的地域代表性。这种多源融合的数据策略显著提升了研究数据的广度与多样性，更贴近真实的用户互动行为，为后续分析提供坚实的数据基础。

在特征构建环节，研究在传统用户行为特征（如浏览量、点赞数等）基础上，进一步引入了一系列具有辨识度的新型特征。例如：用户曾观看过的作者数量、浏览作品所覆盖的城市数量、作品的完整观看比例等。这些新增维度能够更精准地描绘用户在平台上的行为轨迹，有助于挖掘点赞行为背后的潜在动机和倾向。同时，针对作者侧的分析也引入了如作品发布时间的跨度、配乐使用的数量与频次等变量，从时间序列和内容丰富度角度量化创作活跃度和稳定性，从而更全面地刻画创作者画像。

在模型构建与优化方面，本研究针对点赞行为标签在数据集中分布极度不平衡的实际问题，引入了SMOTE过采样算法以增强少数类样本，提高模型在识别“点赞”行为方面的敏感性和泛化能力。在此基础上，研究还采用了系统化的参数调优策略，对LightGBM、XGBoost等多种集成学习算法进行了性能对比与优化。最终模型在保持整体准确率的同时，实现了召回率的显著提升，有效缓解了实际应用场景中“易漏检、难预测”的问题。

综上所述，本研究在短视频用户行为预测领域的多个关键环节均实现了方法创新，不仅提升了模型预测能力，也为短视频平台在提升内容分发效率、优化推荐算法及提升用户体验等方面提供了理论依据与实践路径。