机器阅读理解(MRC)全面解析:任务分类、评估指标与57个数据集资源盘点
机器阅读理解(MRC)全面解析:任务分类、评估指标与57个数据集资源盘点
一文读懂MRC领域核心框架与最新进展,附论文作者整理的GitHub资源站
一、为什么需要这篇综述?
近年来,机器阅读理解(MRC)在BERT等预训练模型推动下取得突破性进展,模型在SQuAD等数据集上甚至超越人类表现。然而,现有模型仍面临三大挑战:
理解鸿沟:模型依赖文本表层特征,缺乏深度推理与常识理解能力(如对抗样本鲁棒性差)
数据局限:多数数据集聚焦单一文本模态,缺乏多模态与复杂推理任务
评估缺陷:传统分类方法无法精确描述任务特性(如同一任务被分到多个类别)
为此,中国科学院团队在《Applied Sciences》发表综述论文,首次完成:
✅ 57个MRC数据集的系统梳理
✅ 提出四维任务分类法替代传统框架
✅ 总结9大评估指标与数据集7大属性
✅ 配套开源资源导航网站(mrc-datasets.github.io)
二、突破性框架:四维任务分类法
传统方法将MRC任务分为四类(完形填空/多选/片段预测/自由形式),但存在类别重叠问题(如Facebook CBT同时属于完形填空与多选)。
作者提出新分类框架,用四个正交维度定义任务:
维度 | 类别 | 代表数据集 |
---|---|---|
语料类型 | 文本/多模态 | TQA(图文)、RecipeQA |
问题形式 | 自然问题/完形填空/合成形式 | Qangaroo(属性词合成问题) |
答案形式 | 自然文本/多选 | SQuAD(自然文本)、RACE(多选) |
答案来源 | 文本片段/自由生成 | NewsQA(片段)、CoQA(自由生成) |
优势:
解决29/57个数据集的分类模糊问题
多模态任务占比仅10.5%,揭示未来研究方向
可视化分析(旭日图)直观展示任务分布
三、评估指标全景图:从Accuracy到HEQ
论文统计57个数据集的评估指标使用频率:
评估指标 | 使用率 | 适用场景 |
---|---|---|
Accuracy | 61.4% | 多选/完形任务(如CLOTH) |
F1-score | 36.8% | 片段预测任务(如SQuAD) |
Exact Match (EM) | 22.8% | 答案需完全匹配(如HotpotQA) |
ROUGE/BLEU | <10% | 自由答案生成(如NarrativeQA) |
HEQ (人类等效分数) | 1.8% | 对话式理解(如QuAC) |
关键结论:
多选任务中83%使用Accuracy,自由生成任务偏好ROUGE
新兴指标HEQ评估模型是否达到人类水平,成对话系统新基准
四、57个数据集深度解析(附资源链接)
作者建立首个MRC数据集属性表,涵盖:
规模对比:最大WikiReading(1887万问题) vs 最小ProPara(488问题)
生成方式:众包(65%)、自动生成(25%)、专家构建(10%)
语料来源:维基百科(19.3%)、科学考试、电影剧本、医学报告
特性标签:多跳推理(HotpotQA)、常识推理(CommonsenseQA)、不可回答问题(SQuAD 2.0)
精选5个特色数据集:
DuoRC:
同一电影的双版本剧本(IMDb vs Wikipedia),词汇重叠率极低
需跨句推理与常识理解,SQuAD模型在此F1值暴跌至37.4%
TQA(教科书问答):
首个多模态科学教材数据集,含图表与文本
问题需分析实验流程(如“细胞核外层结构名称?”)
DROP:
要求离散推理(计算/排序等),如“两队得分差是多少?”
现有模型F1仅38.5%,远低于人类96%
ShARC:
对话式MRC,模型需主动追问缺失信息
示例:用户问“我能申请退税吗?” → 模型反问“您的年收入多少?”
ReCoRD:
基于新闻的常识推理数据集,入选SuperGLUE评测
问题隐含常识(如“特朗普签署法案” → 需知他是总统)
五、未来方向:认知科学与多模态融合
论文指出MRC的终极瓶颈:
“人类通过多模态观察世界获取常识,而当前模型仅从文本学习符号关联”
突破路径:
多模态MRC
认知科学研究证实:视觉意象能力显著提升阅读理解(儿童实验)
现有数据集仅简单拼接图文,需建立跨模态语义关联注释
常识知识库构建
心理学框架分类常识(直觉物理/心理推理)
推荐工具:ConceptNet 5.5 + 多模态预训练(如ViLBERT)
脑科学启发架构
fMRI研究揭示:人类存在双重知识编码系统(感官衍生 vs 语言衍生)
启示:模型需融合视觉特征与语言描述
六、开发者资源推荐
作者同步开放资源网站:
🔗 mrc-datasets.github.io
一键访问57个数据集下载链接
集成Leaderboard与基线项目
分类检索(按语料类型/问题形式等)
加入讨论:您认为多模态与常识推理哪个对MRC突破更重要?欢迎在评论区分享观点!