【 建模分析回顾】[MultiOutputClassifier]MAP - Charting Student Math Misunderstandings
根据描述,及train.csv及Submission File的信息,建模分析过程如下。
✅ 一、目标特征类型:分类变量(Categorical Target)
要预测的是两个字段:
Category
:通常是表示题目或概念所属的大类(如物理、数学、化学等),是一个有限的离散标签集合 → 属于多类分类。Misconception
:表示学生回答中可能体现出的错误理解类型(如 “认为速度等于加速度”),也是有限枚举标签集合 → 同样是多类分类。
🔍 这两个特征都是有限集合中的类别标签,不是连续变量,所以它不是回归问题,而是分类问题。
✅ 二、输入特征类型:自由文本(Text Features)
输入主要是两个列:
QuestionText
(问题文本)StudentExplanation
(学生解释)
这两个字段都是自然语言文本,不是数值型变量,典型的输入形式为:
Q: “Why does the ball fall down?”
A: “Because it wants to touch the ground.”
所以需要用 TF-IDF、BERT、GPT 等 NLP 模型将其转化为向量表示后,再进行建模。
✅ 三、建模任务匹配:文本多类分类
任务类型 | 输入形式 | 输出形式 | 建模目标 |
---|---|---|---|
文本分类 | 文本(字符串) | 类别标签 | 预测哪个类别 |
文本生成 | 文本(字符串) | 文本(字符串) | 自动生成句子 |
文本回归 | 文本(字符串) | 实数值 | 预测一个连续变量 |
这里的任务非常典型地属于第一种:文本分类问题。
✅ 四、评估指标选择也支持分类建模
可以用到的评估指标:
accuracy
macro-F1
classification_report
confusion_matrix
这些都是为分类问题设计的评估方法。
注意这里 本项目提出了一个评估指标Mean Average Precision @ 3 (MAP@3):
✅ 五、总结:这里面对的问题是这样一个结构:
- 输入 X:自然语言文本(问题和学生回答)
- 输出 Y:离散的标签值(概念分类,误解分类)
- 目标:学习一个映射函数
f(text) → category
或→ misconception
- 任务类型:多类文本分类(Multiclass Text Classification)