当前位置：首页 > news >正文

模型学习系列之考试

news 2025/8/5 11:01:05

背景

Task & Benchmark

Task列

定义：描述的是「人工智能模型需要完成的具体任务类型」
何时用：在训练后或发布前，用于统一测试模型的能力。
怎么用：在公开的基准测试平台（如MMBench、MMMU) 或实验室环境中。
作用：为了量化比较不同模型在特定领域（如OCR、视频理解、数学推理）的表现差异。
分类（根据能力维度分组）
- General VQA：通用视觉问答（看图回答开放问题）
  - 例：给一张猫戴帽子的照片，问「图中猫戴的是什么颜色的帽子？」模型答「红色」。
- STEM：科学、技术、工程、数学综合任务（如AI2D解科学图）
  - 例：输入一张电路图，问「R2 电阻的阻值是多少欧姆？」模型答「220 Ω」。
- OCR & Chart：文字识别与图表分析（如OCRBench测文字提取精度）
  - 例：给一张柱状图，问「2023 年销售额最高的月份是哪月？」模型答「12 月」。
- Long Document: 长文档理解
  - 例：上传一份 80 页 PDF 报告，问「第三章第二节提到的核心结论是什么？」模型给出摘要。
- Visual Grounding：视觉定位
  - 例：在街景图中指出「请用红框标出所有交通信号灯」。
- GUI Agents: 图形界面智能体（如OS World模拟手机、电脑操作）
  - 例：指令「帮我在 Android 手机上把闹钟设为明早 7:00」，模型自动点击完成设置。
- Coding：代码生成与理解
  - 例：给一张网页设计稿，要求「生成对应的 HTML+CSS 代码」，模型输出可运行源码。
- Video Understanding: 视频理解
  - 例：播放一段 30 秒篮球视频，问「谁在最后一秒投进了三分球？」模型答「23 号球员」。

Benchmark

定义： Benchmark是「标准化的测试数据集或指标」，用于量化Task的表现。
何时创建：多数在2023-2024年发布
怎么用：在论文、排行榜或产品报告中作为权威参考（如Hugging Face的模型卡）
作用：解决“如何公平比较模型”的问题，避免厂商自话自说。
运作（数据集）
- MMBench-V1.1-EN: 英文视觉问答基准测试-版本1.1，包含3,000多对图文对。
- MMBench-V1.1-CN: 中文视觉问答基准测试-版本1.1。
- MMSTAR: 多模态标准测试
- BLINK: 眨眼测试
- MUIRBENCH: 多模态理解基准测试
- MMMU: 多模态数学理解
- MMMU-Pro: 多模态数学理解专业版
- Video MMMU: 视频多模态数学理解
- AI2D：人工智能文档
- MathVista: 数学视野
- WeMath: 视觉数学推理
- ChartQAPro: 图表问答专业版
- ChartMuseum: 图表博物馆
- OCRBench: 光学字符识别基准测试
- MMLongBench-Doc: 多模态长文档基准测试
- RefCOCO+avg(val): 参考COCO+平均值（验证集）
- OSWorld: 操作系统数据集
- AndroidWorld: 安卓数据集
- WebVoyageSom: 网页航行Som
- Webquest-SingleQA: 网页任务-单一问题问答
- Webquest-MultiQA: 网页任务-多问题问答
- Design2Code: 设计转代码
- Flame-VLM-Code: 火焰-视觉语言模型-代码
- VideoMME(w/o): 视频多模态理解（画面）
- VideoMME(w): 视频多模态理解（画面+音频）
- MMVU: 多模态视频理解
- LVBench: 长视频基准测试
- MotionBench: 运动基准测试