“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛2
本次是“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛的打卡文章2,文章1详见链接:“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛_xfaiyx smart translator-CSDN博客
前面的文章里面有赛事相关详细的背景,自此不再赘述。
由于最近只有晚上才有时间弄这个竞赛,然后分数也没提上去,这里就主要讲一讲自己的一些思考和尝试吧,写的简单一些,以后有新的想法再补充。
本次竞赛有三个任务,贴一下自己的分数,主要是看一下各部分的分数情况。
商品识别:96.92分,这个大概就是63/65的水平,总的测试集65个,正确63个,错误2个。值得一提的是:这个我是完全基于传统机器学习来做的,使用TF-IDF来向量化的,主要起作用的还是特征工程,只要特征工程做的好,那么不使用大模型,也是完全可以达到SOTA水平的,后面再仔细调一调,看看能不能冲击商品识别满分。
情感分析这个基本就是baseline的分数,这两天主要也是在处理这块,但还没处理完,没出结果。这块目前的方案主要是基于BERT的微调,使用的是XLM-R多语言模型,更多的精力需要放在数据处理上,最终效果取决于数据清洗质量和超参数调优。
核心思路框架
多任务学习 + 多语言处理 + 类别不平衡优化
采用共享编码器的多任务模型,统一处理所有分类目标,结合多语言预训练模型解决语言多样性问题,通过加权损失和采样策略缓解不平衡分布。
聚类任务,还没开始考虑,baseline也就是50分的水平,这一块貌似提升空间不大,因为大家普遍就是50多分的水平,可能和评测指标有关,当然赛事结束还早,也许后面这个任务会有突破。
目前及时排行榜,前三名已经快刷到250分了,所以聚类这块期待后续的突破了。
好了,简单写一些,后面等这个赛事做完,再来做个总结好了。