当前位置: 首页 > news >正文

“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛2

本次是“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛的打卡文章2,文章1详见链接:“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛_xfaiyx smart translator-CSDN博客

前面的文章里面有赛事相关详细的背景,自此不再赘述。
由于最近只有晚上才有时间弄这个竞赛,然后分数也没提上去,这里就主要讲一讲自己的一些思考和尝试吧,写的简单一些,以后有新的想法再补充。

本次竞赛有三个任务,贴一下自己的分数,主要是看一下各部分的分数情况。

商品识别:96.92分,这个大概就是63/65的水平,总的测试集65个,正确63个,错误2个。值得一提的是:这个我是完全基于传统机器学习来做的,使用TF-IDF来向量化的,主要起作用的还是特征工程,只要特征工程做的好,那么不使用大模型,也是完全可以达到SOTA水平的,后面再仔细调一调,看看能不能冲击商品识别满分。

情感分析这个基本就是baseline的分数,这两天主要也是在处理这块,但还没处理完,没出结果。这块目前的方案主要是基于BERT的微调,使用的是XLM-R多语言模型,更多的精力需要放在数据处理上,最终效果取决于数据清洗质量和超参数调优。

核心思路框架

多任务学习 + 多语言处理 + 类别不平衡优化
采用共享编码器的多任务模型,统一处理所有分类目标,结合多语言预训练模型解决语言多样性问题,通过加权损失和采样策略缓解不平衡分布。

聚类任务,还没开始考虑,baseline也就是50分的水平,这一块貌似提升空间不大,因为大家普遍就是50多分的水平,可能和评测指标有关,当然赛事结束还早,也许后面这个任务会有突破。

目前及时排行榜,前三名已经快刷到250分了,所以聚类这块期待后续的突破了。

好了,简单写一些,后面等这个赛事做完,再来做个总结好了。

http://www.lryc.cn/news/590156.html

相关文章:

  • lesson15:Python的文件操作
  • Docker 中的动态配置:docker update 命令与环境变量管理
  • Hadoop架构演进:从1.0到2.0的深度对比与优化解析
  • Docker 安装和配置 MySQL 8.0.36 的详细步骤
  • 力扣-146.LRU缓存机制
  • Linux-局域网构建+VLAN 划分 + 端口 MAC-IP 绑定 + 静态 DHCP
  • 【前端】在Vue3中绘制多系列柱状图与曲线图
  • (nice!!!)(LeetCode 每日一题) 3201. 找出有效子序列的最大长度 I (动态规划dp)
  • 产品经理笔试考试回忆集(2025湖南某国企)
  • 电力政策解读:山东电网新型储能集中调用的能源管理系统实现点
  • 百炼Agent MCP与IoT实战(二):阿里云MQTT Broker配置
  • arm版本的ubuntu安装git或者vim等方法
  • TypeScript的export用法
  • Linux LVS集群技术详解与实战指南
  • Vue + React 联合开发指南:跨越框架边界的前端实践
  • 第二章【vue】基础(超详细)
  • 佰力博检测与您探讨高温压电d33测试的操作步骤与选购建议
  • go项目实战
  • 自学中医笔记(一)
  • PowerBI实现仅在需要图表时显示图表
  • 时序大模型为时序数据库带来的变革与机遇
  • 从零开始的云计算生活——番外3,LVS+KeepAlived+Nginx高可用实现方案
  • AWS权限异常实时告警系统完整实现指南
  • 自动化框架 Selenium 的使用
  • 74、搜索二维矩阵
  • 随机链表的复制数据结构oj题(力口138)
  • Mybatis的SQL编写—XML方式
  • 3分钟实战!用DeepSeek+墨刀AI生成智能对话APP原型图
  • 035_ClaudeCode_MCP_介绍
  • 电脑安装 Win10 提示无法在当前分区上安装Windows的解决办法