当前位置：首页 > news >正文

“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛2

news 2025/7/18 9:52:59

本次是“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛的打卡文章2，文章1详见链接：“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛_xfaiyx smart translator-CSDN博客

前面的文章里面有赛事相关详细的背景，自此不再赘述。
由于最近只有晚上才有时间弄这个竞赛，然后分数也没提上去，这里就主要讲一讲自己的一些思考和尝试吧，写的简单一些，以后有新的想法再补充。

本次竞赛有三个任务，贴一下自己的分数，主要是看一下各部分的分数情况。

商品识别：96.92分，这个大概就是63/65的水平，总的测试集65个，正确63个，错误2个。值得一提的是：这个我是完全基于传统机器学习来做的，使用TF-IDF来向量化的，主要起作用的还是特征工程，只要特征工程做的好，那么不使用大模型，也是完全可以达到SOTA水平的，后面再仔细调一调，看看能不能冲击商品识别满分。

情感分析这个基本就是baseline的分数，这两天主要也是在处理这块，但还没处理完，没出结果。这块目前的方案主要是基于BERT的微调，使用的是XLM-R多语言模型，更多的精力需要放在数据处理上，最终效果取决于数据清洗质量和超参数调优。

核心思路框架

多任务学习 + 多语言处理 + 类别不平衡优化
采用共享编码器的多任务模型，统一处理所有分类目标，结合多语言预训练模型解决语言多样性问题，通过加权损失和采样策略缓解不平衡分布。

聚类任务，还没开始考虑，baseline也就是50分的水平，这一块貌似提升空间不大，因为大家普遍就是50多分的水平，可能和评测指标有关，当然赛事结束还早，也许后面这个任务会有突破。

目前及时排行榜，前三名已经快刷到250分了，所以聚类这块期待后续的突破了。