当前位置: 首页 > news >正文

电商双 11 美妆数据分析总结

数据概况与清洗

1. 数据基础

  • 原始数据包含 27598 条双 11 美妆商品记录,共 7 个特征:update_time(更新时间)、id(商品 ID)、title(商品标题)、price(价格)、sale_count(销量)、comment_count(评论数)、店名(店铺名称)。
  • 数据类型:3 个数值型(pricesale_countcomment_count),4 个字符型。

2. 核心清洗代码

python

运行

import numpy as np
import pandas as pd# 读取数据
df = pd.read_csv('双十一淘宝美妆数据.csv')# 去重
data = df.drop_duplicates(inplace=False)  # 删除重复行,保留27512条
data.reset_index(inplace=True, drop=True)  # 重置索引# 缺失值处理(用0填补销量和评论数的缺失)
data = data.fillna(0)

特征工程(新增关键特征)

1. 文本分词(标题解析)

python

运行

import jieba# 对标题分词(搜索引擎模式)
subtitle = []
for each in data['title']:k = jieba.lcut_for_search(each)  # 细粒度分词,适合提取商品特征subtitle.append(k)
data['subtitle'] = subtitle  # 新增分词列

2. 商品分类(大类 / 小类)

python

运行

# 定义分类规则(大类、小类、关键词映射)
basic_data = """护肤品	乳液类	乳液	美白乳	润肤乳	...化妆品	口红类	唇釉	口红	唇彩	唇膏	..."""  # 完整分类见原文# 构建分类字典
dcatg = {}
catg = basic_data.split('\n')
for i in catg:main_cat = i.strip().split('\t')[0]  # 大类(如护肤品)sub_cat = i.strip().split('\t')[1]   # 小类(如乳液类)o_cat = i.strip().split('\t')[2:]    # 关键词(如乳液、美白乳)for j in o_cat:dcatg[j] = (main_cat, sub_cat)# 为商品匹配分类
sub_type = []  # 小类
main_type = []  # 大类
for i in range(len(data)):exist = Falsefor j in data['subtitle'][i]:if j in dcatg:sub_type.append(dcatg[j][1])main_type.append(dcatg[j][0])exist = Truebreakif not exist:sub_type.append('其他')main_type.append('其他')
data['sub_type'] = sub_type
data['main_type'] = main_type

3. 性别标识与销售额

python

运行

# 标记是否男士专用
sex = []
for i in range(len(data)):if '男士' in data['subtitle'][i] or '男生' in data['subtitle'][i] or \('男' in data['subtitle'][i] and '女' not in data['subtitle'][i] and '斩男' not in data['subtitle'][i]):sex.append('是')else:sex.append('否')
data['是否男士专用'] = sex# 计算销售额
data['销售额'] = data['price'] * data['sale_count']

核心分析结论(附关键代码)

1. 品牌表现分析

python

运行

# 各品牌销量、销售额对比
brand_sale = data.groupby('店名')['sale_count'].sum().sort_values()  # 销量排名
brand_rev = data.groupby('店名')['销售额'].sum().sort_values()      # 销售额排名# 关键发现:
# - 相宜本草销量、销售额均第一(低价策略见效)
# - 悦诗风吟商品数量最多,但销量仅第三
# - SKII、植村秀销量为0(定位或活动问题)

2. 价格与销量关系

python

运行

# 按均价分组(0-100元/A类,100-200元/B类,等)
avg_price = data.groupby('店名')['销售额'].sum() / data.groupby('店名')['sale_count'].sum()
A = avg_price[(avg_price <= 100) & (avg_price > 0)].index  # 低价品牌
# 结论:A类品牌销售额占比最高,低价更受消费者青睐

3. 时间趋势(双 11 前后销量)

python

运行

import matplotlib.pyplot as plt
from datetime import datetime# 每日销量趋势
sale_day = data.groupby('update_time')['sale_count'].sum()
sale_day.index = [datetime.strptime(i, '%Y/%m/%d') for i in sale_day.index]
sale_day.plot()  # 9日达峰,11日骤降(预热提前消费)

4. 性别细分市场

python

运行

# 男士专用商品销量占比
male_sale_ratio = data.groupby('是否男士专用')['sale_count'].sum() / data['sale_count'].sum()
# 结论:男士专用商品占比低(约8%),核心为清洁类和补水类,妮维雅、欧莱雅主导市场

http://www.lryc.cn/news/618156.html

相关文章:

  • CTO如何通过录音转写和音频降噪,提升企业远程协作效率?
  • 数据分析与可视化
  • 阿里巴巴开源多模态大模型-Qwen-VL系列论文精读(一)
  • Spring Cloud系列—Config配置中心
  • B树索引和B+树索引有什么区别?
  • TinyVue表格重构性能优化详解
  • 从基础编辑器到智能中枢:OpenStation 为 VSCode 注入大模型动力
  • 人工智能+虚拟仿真,助推医学检查技术理论与实践结合
  • MySQL 索引:索引为什么使用 B+树?(详解B树、B+树)
  • 零知开源——基于STM32F407VET6和INA219的功率监测器设计与实现
  • ZKmall开源商城的容灾之道:多地域部署与故障切换如何守护电商系统
  • 【新启航】从人工偏差到机械精度:旋转治具让三维扫描重构数据重复精度提升至 ±0.01mm
  • 解决 HTTP 请求 RequestBody 只能被读取一次的问题
  • 医美产业科技成果展陈中心:连接微观肌肤世界与前沿科技的桥梁
  • 【机器学习】什么是DNN / MLP(全连接深度神经网络, Deep Neural Network / Multilayer Perceptron)?
  • 01. maven的下载与配置
  • http网页部署
  • 微算法科技(NASDAQ:MLGO)开发经典增强量子优化算法(CBQOA):开创组合优化新时代
  • 聆思duomotai_ap sdk适配dooiRobot
  • 基于SpringBoot的课程作业管理系统
  • 【论文阅读】从表面肌电信号中提取神经信息用于上肢假肢控制:新兴途径与挑战
  • iOS 签名证书全生命周期实战,从开发到上架的多阶段应用
  • 数据可视化交互深入理解
  • 论文阅读:Agricultural machinery automatic navigation technology
  • 【论文阅读】RestorerID: Towards Tuning-Free Face Restoration with ID Preservation
  • LeetCode 分割回文串
  • 增加vscode 邮件菜单
  • 论文阅读(九)Locality-Aware Zero-Shot Human-Object Interaction Detection
  • Openlayers基础教程|从前端框架到GIS开发系列课程(24)openlayers结合canva绘制矩形绘制线
  • iOS 签名证书实践日记,我的一次从申请到上架的亲历