当前位置: 首页 > news >正文

【 建模分析回顾】[MultiOutputClassifier]MAP - Charting Student Math Misunderstandings

根据描述,及train.csv及Submission File的信息,建模分析过程如下。

✅ 一、目标特征类型:分类变量(Categorical Target)

要预测的是两个字段:

  • Category:通常是表示题目或概念所属的大类(如物理、数学、化学等),是一个有限的离散标签集合 → 属于多类分类
  • Misconception:表示学生回答中可能体现出的错误理解类型(如 “认为速度等于加速度”),也是有限枚举标签集合 → 同样是多类分类

🔍 这两个特征都是有限集合中的类别标签,不是连续变量,所以它不是回归问题,而是分类问题。


✅ 二、输入特征类型:自由文本(Text Features)

输入主要是两个列:

  • QuestionText(问题文本)
  • StudentExplanation(学生解释)

这两个字段都是自然语言文本,不是数值型变量,典型的输入形式为:

Q: “Why does the ball fall down?”
A: “Because it wants to touch the ground.”

所以需要用 TF-IDF、BERT、GPT 等 NLP 模型将其转化为向量表示后,再进行建模。


✅ 三、建模任务匹配:文本多类分类

任务类型输入形式输出形式建模目标
文本分类文本(字符串)类别标签预测哪个类别
文本生成文本(字符串)文本(字符串)自动生成句子
文本回归文本(字符串)实数值预测一个连续变量

这里的任务非常典型地属于第一种:文本分类问题


✅ 四、评估指标选择也支持分类建模

可以用到的评估指标:

  • accuracy
  • macro-F1
  • classification_report
  • confusion_matrix

这些都是为分类问题设计的评估方法

注意这里 本项目提出了一个评估指标Mean Average Precision @ 3 (MAP@3):

✅ 五、总结:这里面对的问题是这样一个结构:

  • 输入 X:自然语言文本(问题和学生回答)
  • 输出 Y:离散的标签值(概念分类,误解分类)
  • 目标:学习一个映射函数 f(text) → category→ misconception
  • 任务类型:多类文本分类(Multiclass Text Classification)

http://www.lryc.cn/news/605126.html

相关文章:

  • mac升级安装python3
  • LeetCode 53 - 最大子数组和
  • 【Unity3D实例-功能-移动】复杂移动(Blend Tree方式)
  • JeecgBoot(1):前后台环境搭建
  • 【Excel】制作双重饼图
  • Linux设备驱动架构相关文章
  • 学习日志22 python
  • CUDA编程9 - 卷积实践
  • Python - 元类
  • 离散扩散模型在数独问题上的复现与应用
  • RAG工作流程总览
  • 解析非法获取计算机信息系统数据罪中的其他技术手段
  • 《超级秘密文件夹》密码遗忘?试用版/正式版找回教程(附界面操作步骤)
  • IATF 16949详解(腾讯混元)
  • Oracle11g数据库迁移达梦8数据库方案
  • 论文阅读|CVPR 2025|Mamba进一步研究|GroupMamba
  • 领域驱动设计(DDD)在分布式系统中的架构实践
  • cpp实现音频重采样8k->16k及16k->8k
  • 不同环境安装配置redis
  • 网络端口号全景解析:从基础服务到特殊应用的完整指南
  • 代码随想录算法训练营第三十六天
  • 【git】GitHub 的专用代理地址
  • day21-Excel文件解析
  • uvm-tlm-port-export-imp
  • 在VS2022中调试ASP.NET项目时修改DLL或ASPX动态页面的原理及实现方法
  • STM32CubeIDE新建项目过程记录备忘(二) GPIO输出demo:LED闪烁
  • 2025 IT专业人才培养趋势与职业发展指南:技术+数据复合型能力的构建路径
  • 【Kubernetes 指南】基础入门——Kubernetes 201(一)
  • OpenEuler 安装 apache + php8 不解析php文件的处理
  • 微信小程序中实现页面跳转的方法