当前位置: 首页 > news >正文

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

本文也是LLM系列相关文章,针对《MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models》的翻译。

MME:一个多模态大型语言模型的综合评估基准

  • 摘要
  • 1 引言
  • 2 MME评估套件
  • 3 实验
  • 4 分析
  • 5 结论

摘要

多模态大语言模型(MLLM)依靠强大的LLM来执行多模态任务,在最近的研究中显示出惊人的涌现能力,例如基于图像写诗。然而,这些案例研究很难完全反映MLLM的表现,缺乏全面的评估。在本文中,我们填补了这一空白,提出了第一个MLLM评估基准MME。它测量了总共14个子任务的感知和认知能力。为了避免直接使用公共数据集进行评估可能导致的数据泄露,指令-答案对的注释都是手动设计的。简洁的指令设计使我们能够公平地比较MLLM,而不是在提示工程中苦苦挣扎。此外,有了这样的指示,我们也可以很容易地进行定量统计。在我们的MME上,共对12种先进的MLLM进行了全面评估,这不仅表明现有的MLLM仍有很大的改进空间,而且揭示了后续模型优化的潜在方向。

1 引言

2 MME评估套件

3 实验

4 分析

我们总结了四个在很大程度上影响MLLMs性能的常见问题。第一个问题是没有遵循指令。尽管我们采用了非常简洁的指令设计,但也有MLLM可以自由回答,而不是遵循指令。例如,如图4的第一行所示,指令声称“请回答是或否”,但MLLM只做了一个声明性表达式。如果在生成的语言的开头没有出现“是”或“否”,则判断模型做出了错误的回答。我们认为,一个好的MLLM(尤其是在指令调整之后)应该能够遵循这样一个简单的指令,这在日常生活中也很常见。
第二个问题是缺乏认识。如图4的第二行所示,MLLM错误识别了第一张图像中香蕉的数量,并误读了第二张图像中的字符,导致了错误的答案。我们注意到,感知的表现容易受到指令的细微差别的影响,因为同一图像的两个指令只在一个词上不同,但会导致完全不同甚至矛盾的感知结果。
第三个问题是缺乏推理。在图4的第三行中,我们可以从红色文本中看到,MLLM已经知道第一个图像不是办公场所,但仍然给出了“是”的错误答案。类似地,在第二张图像中,MLLM计算出了正确的算术结果,但最终给出了错误的答案。这些现象表明,在MLLM的推理过程中,逻辑链是断裂的。添加CoT提示,例如“让我们一步一步思考” ,可能会产生更好的结果。我们期待着进一步深入的研究。
第四个问题是遵循指令的对象幻觉,如图4第四行所示。当指令包含未出现在图像中的对象的描述时,MLLM将假设该对象存在,并最终给出“是”的答案。如表1、表2和表3所示,这种不断回答“是”的情况导致大约50%的准确度和大约0的准确度。这表明迫切需要抑制幻觉,社区应该考虑生成答案的可靠性。

5 结论

本文提出了第一个MLLM评估基准MME,它在任务类型、数据源、指令设计和定量统计方面具有四个不同的特点。我们在MME上评估了12种先进的MLLMs,实验结果表明仍有很大的改进空间。我们还总结了实验结果中提出的常见问题,为MLLM的发展提供了有价值的指导。

http://www.lryc.cn/news/134478.html

相关文章:

  • 学习开发振弦采集模块的注意事项
  • 抵御时代风险:高级安全策略与实践
  • (3)、SpringCache源码分析
  • 如何在 Ubuntu 中安装最新的 Python 版本
  • 等保测评--安全物理环境--测评方法
  • 解决jmeter导入jmx文件报错方法
  • CH32V307 开启浮点后rtthread的修改
  • 网络面试题(172.22.141.231/26,该IP位于哪个网段? 该网段拥有多少可用IP地址?广播地址是多少?)
  • macOS nginx部署前端项目
  • 管理类联考——逻辑——真题篇——按知识分类——汇总篇——二、论证逻辑——削弱——第一节 推理论证
  • LoRa 网络的高效自适应数据链路层架构
  • Ubuntu软件源、pip源大全,国内网站网址,阿里云、网易163、搜狐、华为、清华、北大、中科大、上交、山大、吉大、哈工大、兰大、北理、浙大
  • 4 Python的函数
  • Claude 2 国内镜像站
  • MySQL的基础操作
  • Dockerfile快速搭建自己专属的LAMP环境
  • 秒懂算法│博弈论
  • Springboot整合RabbitMQ消息中间件
  • 基于springboot+vue的食材商城(前后端分离)
  • Maven解析
  • 如何使用数学将 NumPy 函数的性能提高 50%
  • 群狼调研(长沙政策第三方评估)| 社情民意调查的内容
  • 【三维重建】【深度学习】NeuS代码Pytorch实现--测试阶段代码解析(上)
  • day-24 代码随想录算法训练营(19)回溯part01
  • Redis之SYNC与PSYNC命令
  • 共创无线物联网数字化新模式|协创数据×企企通采购与供应链管理平台项目成功上线
  • 【深入理解jvm读书笔记】jvm如何进行内存分配
  • OpenCV使用CMake和MinGW-w64的编译安装
  • 亚马逊买家怎么留评
  • 并查集 size 的优化(并查集 size 的优化)