当前位置: 首页 > news >正文

数据分析—双十一

电商双11美妆数据分析报告

一、数据清洗与预处理

  1. 数据类型识别与统计量计算
    首先识别数据中各列的数据类型,并计算统计量,包括标准差、最小值、最大值、四分位数等,为后续分析提供基础数据支持。

  2. 处理重复值
    检测到数据中共有86条重复记录,将其删除后重置行索引,数据量从27598条减少至27512条,确保数据的唯一性。

  3. 处理缺失值
    发现“销售数量”和“评论数量”两列存在缺失值。经过分析后,决定用零填充这些空值,以保证数据的完整性。

二、数据特征扩充与分析

  1. 新增分析维度

    • 销售额:通过“单价 × 销售数量”计算销售额,为分析商品的经济价值提供依据。

    • 品牌分析:从商品标题中提取品牌名,分析不同品牌的销售表现,了解市场占有率和消费者偏好。

    • 产品分类:将产品分为护肤品和化妆品两大类,并进一步细分小类,如护肤品中的眼部护理、面膜等,化妆品中的口红、底妆等,以便更精准地分析市场需求。

    • 价格区间:分析平价产品(0-300元)与贵价产品(>300元)对销量的影响,探究价格与销售的关系。

    • 适用人群:根据商品标题中的关键词,如“男”“女士”等,划分产品适用人群,了解不同性别的消费偏好。
      强调通过数据挖掘扩充特征,而非无中生有,例如无法新增“浏览量”字段。

  2. 中文分词与文本处理
    使用结巴库(jieba)对商品标题(title列)进行中文分词,采用“搜索引擎模式”切分长词语,提高分词的准确性。
    创建分类字典,主类分为“护肤品”和“化妆品”,子类进一步细化。通过关键词匹配将分词结果映射到主类和子类,确保关键词覆盖全面,避免分类错误。

  3. 后续处理逻辑
    遍历分词结果,根据分类字典为每条数据标注主类和子类。例如,若标题包含“面膜”关键词,则主类为“护肤品”,子类为“面膜”。对未识别的关键词归类为“其他”,确保数据分析的完整性。新增“是否为男士专用”列,通过关键词筛选(如“男”“男士”且排除“女”“斩男”等)标记男性专用产品。计算销售额(单价×数量),观察到高销售额商品(如面霜)的数值表现突出。

三、数据分析与可视化

              1.男士专用产品中清洁类(61.54%)和补水类(16.87%)为主。

              2.非男士专用产品品类分布更均衡。

              3.女性消费者贡献81.83%的销量,男性仅占18.16%。

 1.每日销售量分析

       趋势:从11月5日到11月9日,销售量呈现上升趋势,达到峰值后在11月10日急剧下降,之后逐渐回升。峰值:11月9日的销售量达到最高点,约为3300万。低谷:11月11日的销售量达到最低点,约为2800万。回升:从11月12日开始,销售量逐渐回升,到11月14日接近3000万。

2.每日销售额分析

趋势:销售额的趋势与销售量相似,从11月5日到11月9日逐渐上升,11月10日急剧下降,之后逐渐回升。峰值:11月9日的销售额达到最高点,约为46亿。低谷:11月11日的销售额达到最低点,约为34亿。回升:从11月12日开始,销售额逐渐回升,到11月14日接近40亿。

  1. 品牌分析

    • 相宜本草销量和销售额均领先,但单价亲民(200元以内)。

    • 雅诗兰黛单价最高(>500元),但销量低。

    • SK-II、玉兰油等品牌商品数量在500-1500件,但销量趋近于零。

  2. 价格区间影响
    将商品按均价分为A(0-100元)、B(100-200元)、C(200-300元)、D(>300元)四类。分析发现,平价商品(A、B类)销售额占比最高,高价商品(D类)占比最低。

  3. 品类分析

    • 大类中护肤品占比最高(71.7%),化妆品次之(18.77%)。

    • 小类中清洁类和补水类销量占比最高,修容、眼部护理等占比低。

  4. 性别分析 

  5. 时间分析

  6. 评论数分析

  1. 每个店铺总评论数(左图)

    • 横轴:店铺名称。

    • 纵轴:评论总数。

    • 观察:某些店铺的评论数量明显高于其他店铺,可能这些店铺的销售额较高或客户互动较多。

  2. 每个店铺平均多少单一条评论(右图)

    • 横轴:店铺名称。

    • 纵轴:平均多少单一条评论(销售总数与评论总数的比值)。

    • 观察:不同店铺的平均评论率差异较大,某些店铺可能更注重客户反馈和互动,而其他店铺可能销售量较高但评论较少。

四、结论与建议

  1. 平价商品优势
    平价商品(尤其是清洁、补水类)更易获得高销售额,建议优先开发性价比高的产品,满足大众消费需求。

  2. 品类开发建议

    • 针对女性消费者需提供多样化品类,如彩妆、护肤全系列,以满足其广泛需求。

    • 男性产品可聚焦清洁和补水功能,开发针对性强的产品。

  3. 可视化优化
    可视化需结合分析结论,明确图表服务于业务决策,如定价策略、品类规划等。使用matplotlib绘制柱状图、饼图,通过排序和分组优化图表可读性,强调代码中自适应调整、中文显示等细节设置的重要性。例如,df.groupby('店名')['销售额'].sum().sort_values().plot.bar()用于品牌销售额排序展示。

五、后续方向

  1. 探索单价与销量的非线性关系
    分析促销活动对单价与销量关系的影响,挖掘潜在的销售增长点。

  2. 细分品类增长空间
    深入分析细分品类(如“眼部护理”)的潜在增长空间,为品类拓展提供数据支持

import numpy as np
import pandas as pd
df = pd.read_csv('双十一淘宝美妆数据.csv')
df.head()
df.info()#数据特征
df.shape
df.describe()

数据初步了解:数据集数据数量

示例代码 对数据进行处理,查看数据分布,使得数据更加直观。

数据可视化处理,更加直观。

http://www.lryc.cn/news/619006.html

相关文章:

  • B.10.02.3-分布式一致性:电商业务场景下的理论与工程实践
  • IDEA插件开发实践
  • 从阶段演进到智能跃迁:企业合同管理的发展与趋势
  • SynAdapt:通过合成连续思维链实现大语言模型的自适应推理
  • @Rancher简介部署使用 - Docker Compose
  • Spring MVC 处理请求的完整流程详解
  • 【Unity】Spine重新播放动画时会闪烁上次动画的残影
  • 秋招笔记-8.12
  • Tauri Qt孰优孰劣
  • 【Unity】Unity中ContentSizeFitter有时无法及时自适应大小问题解决
  • 终端安全检测和防御技术总结
  • Python初学者笔记第二十四期 -- (面向对象编程)
  • SpringBoot集成MyBatis的SQL拦截器
  • MES系统怎么实现数字化闭环与设备预测性维护?
  • SQL180 每类试卷得分前3名
  • 单例模式,动态代理,微服务原理
  • 大数据技术入门精讲(Hadoop+Spark)
  • 当机械臂装上「智能大脑」:Deepoc具身智能模型如何重构传统自动化​
  • JavaEE 初阶第十八期:叩开网络世界的大门(上)
  • 自己动手造个球平衡机器人
  • 13.深度学习——Minst手写数字识别
  • 【自动化运维神器Ansible】playbook文件内变量定义全流程解析
  • 实时域自适应检测SOTA方案RT-DATR,刷新多个跨域检测榜单!
  • wordpress数据库文件sql导入时出现#1253错误
  • Java数据结构之ArrayList
  • 嵌入式分享合集136
  • 移动端调用大模型详解
  • 关于淘宝双十一
  • 数据分析小白训练营:基于python编程语言的Numpy库介绍(第三方库)(上篇)
  • DuckDB读取xlsx格式数据的方法比较