当前位置：首页 > news >正文

电商双 11 美妆数据分析总结

news 2025/8/14 17:53:14

数据概况与清洗

1. 数据基础

原始数据包含 27598 条双 11 美妆商品记录，共 7 个特征：update_time（更新时间）、id（商品 ID）、title（商品标题）、price（价格）、sale_count（销量）、comment_count（评论数）、店名（店铺名称）。
数据类型：3 个数值型（price、sale_count、comment_count），4 个字符型。

2. 核心清洗代码

python

运行

import numpy as np
import pandas as pd# 读取数据
df = pd.read_csv('双十一淘宝美妆数据.csv')# 去重
data = df.drop_duplicates(inplace=False)  # 删除重复行，保留27512条
data.reset_index(inplace=True, drop=True)  # 重置索引# 缺失值处理（用0填补销量和评论数的缺失）
data = data.fillna(0)

特征工程（新增关键特征）

1. 文本分词（标题解析）

python

运行

import jieba# 对标题分词（搜索引擎模式）
subtitle = []
for each in data['title']:k = jieba.lcut_for_search(each)  # 细粒度分词，适合提取商品特征subtitle.append(k)
data['subtitle'] = subtitle  # 新增分词列

2. 商品分类（大类 / 小类）

python

运行

# 定义分类规则（大类、小类、关键词映射）
basic_data = """护肤品	乳液类	乳液	美白乳	润肤乳	...化妆品	口红类	唇釉	口红	唇彩	唇膏	..."""  # 完整分类见原文# 构建分类字典
dcatg = {}
catg = basic_data.split('\n')
for i in catg:main_cat = i.strip().split('\t')[0]  # 大类（如护肤品）sub_cat = i.strip().split('\t')[1]   # 小类（如乳液类）o_cat = i.strip().split('\t')[2:]    # 关键词（如乳液、美白乳）for j in o_cat:dcatg[j] = (main_cat, sub_cat)# 为商品匹配分类
sub_type = []  # 小类
main_type = []  # 大类
for i in range(len(data)):exist = Falsefor j in data['subtitle'][i]:if j in dcatg:sub_type.append(dcatg[j][1])main_type.append(dcatg[j][0])exist = Truebreakif not exist:sub_type.append('其他')main_type.append('其他')
data['sub_type'] = sub_type
data['main_type'] = main_type

3. 性别标识与销售额

python

运行

# 标记是否男士专用
sex = []
for i in range(len(data)):if '男士' in data['subtitle'][i] or '男生' in data['subtitle'][i] or \('男' in data['subtitle'][i] and '女' not in data['subtitle'][i] and '斩男' not in data['subtitle'][i]):sex.append('是')else:sex.append('否')
data['是否男士专用'] = sex# 计算销售额
data['销售额'] = data['price'] * data['sale_count']

核心分析结论（附关键代码）

1. 品牌表现分析

python

运行

# 各品牌销量、销售额对比
brand_sale = data.groupby('店名')['sale_count'].sum().sort_values()  # 销量排名
brand_rev = data.groupby('店名')['销售额'].sum().sort_values()      # 销售额排名# 关键发现：
# - 相宜本草销量、销售额均第一（低价策略见效）
# - 悦诗风吟商品数量最多，但销量仅第三
# - SKII、植村秀销量为0（定位或活动问题）

2. 价格与销量关系

python

运行

# 按均价分组（0-100元/A类，100-200元/B类，等）
avg_price = data.groupby('店名')['销售额'].sum() / data.groupby('店名')['sale_count'].sum()
A = avg_price[(avg_price <= 100) & (avg_price > 0)].index  # 低价品牌
# 结论：A类品牌销售额占比最高，低价更受消费者青睐

3. 时间趋势（双 11 前后销量）

python

运行

import matplotlib.pyplot as plt
from datetime import datetime# 每日销量趋势
sale_day = data.groupby('update_time')['sale_count'].sum()
sale_day.index = [datetime.strptime(i, '%Y/%m/%d') for i in sale_day.index]
sale_day.plot()  # 9日达峰，11日骤降（预热提前消费）

4. 性别细分市场

python

运行

# 男士专用商品销量占比
male_sale_ratio = data.groupby('是否男士专用')['sale_count'].sum() / data['sale_count'].sum()
# 结论：男士专用商品占比低（约8%），核心为清洁类和补水类，妮维雅、欧莱雅主导市场

查看全文

http://www.lryc.cn/news/618156.html

CTO如何通过录音转写和音频降噪，提升企业远程协作效率？

数据分析与可视化

阿里巴巴开源多模态大模型-Qwen-VL系列论文精读（一）

Spring Cloud系列—Config配置中心

B树索引和B+树索引有什么区别？

TinyVue表格重构性能优化详解

从基础编辑器到智能中枢：OpenStation 为 VSCode 注入大模型动力

人工智能+虚拟仿真，助推医学检查技术理论与实践结合

MySQL 索引：索引为什么使用 B+树？（详解B树、B+树）

零知开源——基于STM32F407VET6和INA219的功率监测器设计与实现

ZKmall开源商城的容灾之道：多地域部署与故障切换如何守护电商系统

【新启航】从人工偏差到机械精度：旋转治具让三维扫描重构数据重复精度提升至 ±0.01mm

解决 HTTP 请求 RequestBody 只能被读取一次的问题

医美产业科技成果展陈中心：连接微观肌肤世界与前沿科技的桥梁

【机器学习】什么是DNN / MLP（全连接深度神经网络, Deep Neural Network / Multilayer Perceptron）？

01. maven的下载与配置

http网页部署

微算法科技（NASDAQ:MLGO）开发经典增强量子优化算法（CBQOA）：开创组合优化新时代

聆思duomotai_ap sdk适配dooiRobot

基于SpringBoot的课程作业管理系统

【论文阅读】从表面肌电信号中提取神经信息用于上肢假肢控制：新兴途径与挑战

iOS 签名证书全生命周期实战，从开发到上架的多阶段应用

数据可视化交互深入理解

论文阅读：Agricultural machinery automatic navigation technology

【论文阅读】RestorerID: Towards Tuning-Free Face Restoration with ID Preservation

LeetCode 分割回文串

增加vscode 邮件菜单

论文阅读（九）Locality-Aware Zero-Shot Human-Object Interaction Detection

Openlayers基础教程|从前端框架到GIS开发系列课程（24）openlayers结合canva绘制矩形绘制线

iOS 签名证书实践日记，我的一次从申请到上架的亲历

数据概况与清洗

1. 数据基础

2. 核心清洗代码

特征工程（新增关键特征）

1. 文本分词（标题解析）

2. 商品分类（大类 / 小类）

3. 性别标识与销售额

核心分析结论（附关键代码）

1. 品牌表现分析

2. 价格与销量关系

3. 时间趋势（双 11 前后销量）

4. 性别细分市场

相关文章：