当前位置: 首页 > news >正文

GPT-4V被超越?SEED-Bench多模态大模型测评基准更新

image.png

📖 技术报告

SEED-Bench-1:https://arxiv.org/abs/2307.16125 

SEED-Bench-2:https://arxiv.org/abs/2311.17092 

🤗 测评数据

SEED-Bench-1:https://huggingface.co/datasets/AILab-CVC/SEED-Bench 

SEED-Bench-2:https://huggingface.co/datasets/AILab-CVC/SEED-Bench-2 

🔗 项目主页

https://github.com/AILab-CVC/SEED-Bench

🏆 在线排行榜

https://huggingface.co/spaces/AILab-CVC/SEED-Bench_Leaderboard

大语言模型(LLM)的蓬勃发展离不开健全的评测体系,而对于多模态大语言模型(MLLM)而言,一直缺乏类似MMLU、ARC等全面且客观的评测基准。腾讯AI Lab联手腾讯ARC Lab推出了SEED-Bench系列评测基准,有效弥补了这一缺陷,目前已成为测评MLLM的主流基准之一。

SEED-Bench评测基准在2023年7月首次发布,它包含了19K道经过人工标注正确答案的选择题,涵盖了图像和视频的12个评估维度;并在11月发布了v2版本,扩充至24K选择题和27个维度!🤩 值得一提的是,Hugging Face CEO Clément Delangue也对在线榜单进行了点赞。

image.png

随着MLLM的迅速发展,短短四个月内,SEED-Bench-1评测榜单的排名(见下图)已经全部焕然一新。最近,备受瞩目的GPT-4V模型也推出,引发了社区对其在SEED-Bench上表现的关注。然而,出人意料的是,在单张图像的评估维度上,GPT-4V竟然并未位居榜首。

image.png
SEED-Bench-1在线排行榜(排序依据单张图像的评分结果)

01. GPT-4V被超越?🤯

现在下这个结论还为时过早。我们可以看到,GPT-4V在SEED-Bench-1视频(即图像序列)的评估维度上显著超越第二名(见下图),可以体现出GPT-4V较强的多模态推理能力。

image.png
SEED-Bench-1在线排行榜(排序依据视频的评分结果)

事实上,不止于多模态理解(输入图文,输出文),近期的研究(如CM3leon、Next-GPT、Emu、SEED-LLaMA等)进一步赋予了MLLM生成图像(输入图文,输出图乃至图文) 的能力,使其能够表现得像GPT-4V和DALL-E 3的组合一样实现任意形式的输入和输出。

然而,目前的多模态测评基准(如SEED-Bench-1、MMBench、MME等)仅评估MLLM的理解能力,滞后于MLLM的飞速发展。SEED-Bench-2,这一全新的评测基准在SEED-Bench首度发布四个月后,以其全新的评估视角,重磅登场,首次对MLLM的层级化能力进行评估。

02. SEED-Bench-2 🧐

如下图所示,SEED-Bench-2由三个层级构成(L1-3),每个层级都对模型的不同能力进行了深度评估:

在这一金字塔评估层级中,高层级会覆盖低层级的评估维度,即L3级模型应同时具备L1-2的能力。

image.png
MLLM功能分层图

SEED-Bench-2任务分类图
SEED-Bench-2任务分类图

下图分别展示了SEED-Bench-2中不同维度的题目示例:

image.png
L1单张图片以及文本理解题目示例图
image.png
L1多张图片\视频以及文本理解题目示例图
image.png
L2-3图文交叉数据、图像生成和图像文本生成题目示例图

那么GPT-4V在全新的SEED-Bench-2表现如何?

image.png
SEED-Bench-2 Learderboard

SEED-Bench-2目前已测评了23个开源MLLM的性能,它们在各个层级和维度的具体表现如下图。欢迎大家持续向在线leaderboard贡献自己的结果!

image.png
模型评测结果图
image.png
能力热力图

SEED-Bench-2的层级化评测结果展示了如下的发现

03. Q&A

Q: SEED-Bench-2评测方式 🏁

A: 针对文本输出的测评,我们参考相关工作:GPT-3,InstructBLIP和TruthfulQA,通过计算模型对于各个选项的ppl,来获取模型选择题的答案。

针对图片输出的测评,我们计算模型生成图像和groundtruth图像的CLIP相似分数,来获取模型选择题的答案。(注:我们目前侧重关注语义的正确性)

此外我们发现社区的模型在测评SEED-Bench时,使用了ppl以外的测评方式(如直接generate),我们在leaderboard上新增了不同测评方式(Evaluation Method)的说明和赛道。

Q: SEED-Bench-1和SEED-Bench-2的关系 💎

A: SEED-Bench-1的测评维度构成了SEED-Bench-2 层级的部分维度。

🎯 SEED-Bench-2的测评数据和代码已经开源,欢迎社区更新自己的模型在SEED-Bench-2上的结果。

📢 如果您有相关问题,或者对于SEED-Bench系列测评基准有什么建议,欢迎在项目链接的issue中联系我们。


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区 

http://www.lryc.cn/news/262680.html

相关文章:

  • 数据库_mongoDB
  • Layui实现自定义的table列悬停事件并气泡提示信息
  • Tomcat从认识安装到详细使用
  • 07-Eventing及实践
  • Linux下Netty实现高性能UDP服务
  • Ubuntu 22.04 Tesla V100s显卡驱动,CUDA,cuDNN,MiniCONDA3 环境的安装
  • FFmpeg转码流程和常见概念
  • 【01】GeoScene生产海图或者电子航道图
  • TWS蓝牙耳机的船运模式
  • Vue系列之指令 v-html
  • Mac如何安装stable diffusion
  • Kubernetes (k8s) 快速认知
  • Electron V28主进程与渲染进程互相通信总结
  • MySQL主从复制详解
  • verilog基础语法-计数器
  • 有SCL,SDA,TRIG,I2C的元器件是什么?在哪找?proteus
  • 再谈低代码开发——值得所有程序设计和开发者重视的建议!
  • Docker部署MinIO对象存储服务器结合内网穿透实现远程访问
  • USB2.0 Spec
  • prbs测试
  • 计算机网络:数据链路层(VLAN)
  • C# WPF上位机开发(动态添加控件)
  • MySQL进阶|MySQL中的事务(一)
  • 设计模式策略模式讲解和代码示例
  • Qt容器QStackedWidget小部件堆栈
  • 设计模式 简单工厂 工厂方法模式 抽象工厂模式 Spring 工厂 BeanFactory 解析
  • 【Hive_03】单行函数、聚合函数、窗口函数、自定义函数、炸裂函数
  • RabbitMQ手动应答与持久化
  • java使用枚举类型解决if-else大量堆积
  • 【数据结构】八大排序之直接插入排序算法