当前位置: 首页 > news >正文

模型学习系列之考试

背景

Task & Benchmark

Task & Benchmark

Task列
  • 定义:描述的是「人工智能模型需要完成的具体任务类型」
  • 何时用:在训练后或发布前,用于统一测试模型的能力。
  • 怎么用:在公开的基准测试平台(如MMBench、MMMU) 或实验室环境中。
  • 作用:为了量化比较不同模型在特定领域(如OCR、视频理解、数学推理)的表现差异。
  • 分类(根据能力维度分组)
    • General VQA: 通用视觉问答(看图回答开放问题)
      • 例:给一张猫戴帽子的照片,问「图中猫戴的是什么颜色的帽子?」模型答「红色」。
    • STEM:科学、技术、工程、数学综合任务(如AI2D解科学图)
      • 例:输入一张电路图,问「R2 电阻的阻值是多少欧姆?」模型答「220 Ω」。
    • OCR & Chart: 文字识别与图表分析(如OCRBench测文字提取精度)
      • 例:给一张柱状图,问「2023 年销售额最高的月份是哪月?」模型答「12 月」。
    • Long Document: 长文档理解
      • 例:上传一份 80 页 PDF 报告,问「第三章第二节提到的核心结论是什么?」模型给出摘要。
    • Visual Grounding: 视觉定位
      • 例:在街景图中指出「请用红框标出所有交通信号灯」。
    • GUI Agents: 图形界面智能体(如OS World模拟手机、电脑操作)
      • 例:指令「帮我在 Android 手机上把闹钟设为明早 7:00」,模型自动点击完成设置。
    • Coding:代码生成与理解
      • 例:给一张网页设计稿,要求「生成对应的 HTML+CSS 代码」,模型输出可运行源码。
    • Video Understanding: 视频理解
      • 例:播放一段 30 秒篮球视频,问「谁在最后一秒投进了三分球?」模型答「23 号球员」。
Benchmark
  • 定义: Benchmark是「标准化的测试数据集或指标」,用于量化Task的表现。
  • 何时创建:多数在2023-2024年发布
  • 怎么用:在论文、排行榜或产品报告中作为权威参考(如Hugging Face的模型卡)
  • 作用:解决“如何公平比较模型”的问题,避免厂商自话自说。
  • 运作(数据集)
    • MMBench-V1.1-EN: 英文视觉问答基准测试-版本1.1,包含3,000多对图文对。
    • MMBench-V1.1-CN: 中文视觉问答基准测试-版本1.1。
    • MMSTAR: 多模态标准测试
    • BLINK: 眨眼测试
    • MUIRBENCH: 多模态理解基准测试
    • MMMU: 多模态数学理解
    • MMMU-Pro: 多模态数学理解专业版
    • Video MMMU: 视频多模态数学理解
    • AI2D:人工智能文档
    • MathVista: 数学视野
    • WeMath: 视觉数学推理
    • ChartQAPro: 图表问答专业版
    • ChartMuseum: 图表博物馆
    • OCRBench: 光学字符识别基准测试
    • MMLongBench-Doc: 多模态长文档基准测试
    • RefCOCO+avg(val): 参考COCO+平均值(验证集)
    • OSWorld: 操作系统数据集
    • AndroidWorld: 安卓数据集
    • WebVoyageSom: 网页航行Som
    • Webquest-SingleQA: 网页任务-单一问题问答
    • Webquest-MultiQA: 网页任务-多问题问答
    • Design2Code: 设计转代码
    • Flame-VLM-Code: 火焰-视觉语言模型-代码
    • VideoMME(w/o): 视频多模态理解(画面)
    • VideoMME(w): 视频多模态理解(画面+音频)
    • MMVU: 多模态视频理解
    • LVBench: 长视频基准测试
    • MotionBench: 运动基准测试

总结

  • Task是“考什么”, Benchmark是“用什么考”
  • Task定义模型能力方向,Benchmark提供量化标尺。
http://www.lryc.cn/news/610090.html

相关文章:

  • day15 SPI
  • 疏老师-python训练营-Day35模型可视化推理
  • Golang中的`io.Copy()`使用场景
  • #C语言——刷题攻略:牛客编程入门训练(四):运算(二)
  • 网站从HTTP升级到HTTPS网址方法
  • 北京JAVA基础面试30天打卡01
  • 【多智能体cooragent】CoorAgent 系统中 5 个核心系统组件分析
  • 力扣-1.两数之和
  • 腾讯混元重磅开源:四款小尺寸模型全面发布
  • Git如何为多平台配置密钥和用户信息?
  • 互联网医院整体项目套表整理过程文档全流程分析
  • 【MySQL基础篇】:MySQL常用内置函数以及实用示例
  • Flask + HTML 项目开发思路
  • MySQL中COUNT(\*)、COUNT(1)和COUNT(column),到底用哪个?
  • 从零认识OpenFlow
  • 【SAM】Segment Anything 论文翻译笔记
  • opencv引入libavif
  • 模拟IC设计提高系列8-运算跨导放大器OTA Operational Transconduct Amplifiers
  • 家事速配西安项目启动会圆满举行,开启社区服务新篇章
  • 决策树(回归树)全解析:原理、实践与应用
  • 【动态规划 | 回文字串问题】动态规划解回文问题的核心套路
  • 打卡day28
  • Memcached缓存与Redis缓存的区别、优缺点和适用场景
  • Java 大视界 -- Java 大数据在智能交通智能停车诱导与车位共享优化中的应用(381)
  • 【C#】操作Execl和Word文件-1
  • orchestrator部署
  • 11.Linux 权限管理,控制对文件的访问(ACL)
  • git操作命令和golang编译脚本
  • 【Spring】SpringBoot 自动配置,@ComponentScan、@Import、ImportSelector接口
  • 【QT】安装与配置