Datawhale AI夏令营大模型 task2.1
Datawhale AI夏令营第一期:带货视频评论用户洞察挑战赛笔记
一、项目核心目标与价值
本次「基于带货视频评论的用户洞察挑战赛」的核心是将电商直播带货的碎片化用户评论转化为可量化的商业洞察,最终服务于品牌方的三大业务需求:
- 优化选品策略:精准把握消费者对商品的真实态度和需求痛点
- 评估网红带货效能:科学分析网红的种草效果与转化潜力
- 提升全链路价值:打通从内容营销到消费决策的价值闭环
项目强调“理解业务逻辑的重要性”——避免AI模型沦为“准确但没用”的工具,需从商业价值出发设计技术方案(如“吐槽”可能隐藏真实需求,需精准提取而非简单分类)。
二、赛题与数据解读
1. 赛题背景
电商直播的爆发式增长积累了海量视频及评论数据,这些数据是消费者体验的直接反馈。通过挖掘视频内容与评论的关联,可构建消费者偏好画像,为选品、网红合作提供数据支撑。
2. 输入与输出
-
输入:两类脱敏数据
origin_videos_data.csv
:85条带货视频数据(需识别对应商品)origin_comments_data.csv
:6477条用户评论文本数据(需情感分析与聚类)- 数据包含少量人工标注的训练集(商品识别、情感分析)和未标注的测试集。
-
输出:提交
submit.zip
压缩包,内含submit
文件夹,包含两个CSV文件:submit_videos.csv
:需包含video_id
(视频标识)和product_name
(识别的商品名)submit_comments.csv
:需包含评论标识、情感分类结果、聚类主题词等字段(具体字段见下表)
字段类别 | 核心要求 |
---|---|
情感分类结果 | sentiment_category (1-正面/2-负面/3-混合/4-中性/5-不相关) |
场景/疑问/建议标识 | user_scenario /user_question /user_suggestion (0-否/1-是) |
聚类主题词 | 按正面/负面/场景/疑问/建议分别聚类的主题词(如positive_cluster_theme ) |
三、核心技术任务链条
项目包含三个递进式技术任务,前序任务结果直接影响后续任务有效性,需按优先级处理:
1. 任务一:商品识别(文本编码)
- 目标:基于视频内容识别对应的商品(
product_name
) - 优先级:高(基础任务,识别错误会导致后续分析失去意义)
- 技术本质:文本编码——将视频文本内容转化为可关联商品的特征表示
2. 任务二:情感分析(文本分类)
- 目标:从评论中提取情感倾向及用户属性(是否涉及场景、疑问、建议)
- 优先级:高(数据最丰富,是后续聚类的关键输入)
- 技术本质:文本分类——对评论进行多维度标签划分(如
sentiment_category
的5类划分、user_scenario
的0/1划分等)
3. 任务三:聚类洞察(文本聚类)
- 目标:基于情感分析结果,对评论按正面/负面/场景/疑问/建议进行聚类,提炼主题词
- 优先级:次高(依赖前两步结果的准确性)
- 技术本质:文本聚类——将语义相似的评论归为一类,并总结核心主题(如“负面聚类主题词”可能是“质量差”“物流慢”等)
四、Baseline方案分析
Baseline采用“分阶段处理”思路,针对三个任务分别设计简单高效的技术方案,核心逻辑如下:
任务 | 技术工具 | 作用 | 优点 | 局限性 |
---|---|---|---|---|
文本编码 | TfidfVectorizer | 将文本转化为TF-IDF向量 | 计算资源需求低 | 无法捕捉上下文语义、多义词差异 |
文本分类 | LinearSVC (线性分类器) | 对情感倾向等标签进行分类 | 适合高维稀疏数据(如TF-IDF) | 线性模型难以处理复杂语义关系 |
文本聚类 | KMeans | 对评论按主题聚类 | 实现简单、速度快 | 依赖初始质心,对非凸形簇效果差 |
五、优化方向与上分思路
Baseline方案虽基础,但可从以下角度提升效果:
-
聚类参数优化:
聚类数量(n_clusters
)需在5-8之间迭代测试,选择轮廓系数最高的数值(轮廓系数越高,聚类效果越优),且不同聚类类型(正面/负面/场景等)可单独调整。 -
提升前序任务准确性:
- 商品识别和情感分析是核心输入,需优先优化(如使用更优的文本表示方法替代TF-IDF)。
- 错误的商品识别会导致后续分析“张冠李戴”;错误的情感分类会向聚类输入噪音数据。
-
引入语义向量表示:
用大模型嵌入(如BGE-m3)替代TF-IDF,捕捉文本语义信息(如区分“苹果手机”和“吃苹果”中的“苹果”),提升分类和聚类的精度。 -
大模型应用:
利用大模型的语义理解能力,直接进行商品识别、情感分析或主题词提炼(尤其适合小样本场景,弥补训练集不足的问题)。
六、关键知识点补充
- 文本编码(Text Encoding):将非结构化文本转化为结构化向量的过程(如TF-IDF、大模型Embedding),是后续任务的基础。
- 文本分类(Text Classification):有监督学习,基于标注数据将文本分配到预定义类别(如情感倾向、是否为用户建议)。
- 文本聚类(Text Clustering):无监督学习,基于文本相似性自动分组,使同一组内文本相似、不同组文本差异大。
- 大模型在项目中的作用:通过生成高质量语义向量(Embedding)提升文本表示能力,或直接通过提示词(Prompt)完成分类、聚类等任务,尤其适合小样本场景。
总结
本项目的核心是“技术服务于业务”,需围绕“商品识别-情感分析-聚类洞察”的完整链条,从数据出发选择合适技术,避免脱离商业目标的“纯技术优化”。Baseline提供了基础框架,后续可通过优化文本表示、调整模型参数、引入大模型等方式提升效果,最终输出有实际价值的商业洞察。