当前位置: 首页 > news >正文

多模态大语言模型arxiv论文略读(133)

请添加图片描述

Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See

➡️ 论文标题:Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See
➡️ 论文作者:Zeliang Zhang, Phu Pham, Wentian Zhao, Kun Wan, Yu-Jhe Li, Jianing Zhou, Daniel Miranda, Ajinkya Kale, Chenliang Xu
➡️ 研究机构: University of Rochester、Purdue University、Adobe Inc.、UIUC
➡️ 问题背景:多模态大语言模型(MLLMs)在多种视觉理解任务中取得了显著进展,但随着视觉令牌数量的增加,计算成本急剧上升,成为进一步扩展MLLMs的主要瓶颈。尽管已有研究尝试通过减少视觉令牌或使用更轻量的LLM架构来解决这一问题,但这些方法往往会导致性能下降。
➡️ 研究动机:现有的方法在减少视觉令牌数量时,通常会牺牲模型的性能。为了更有效地解决这一问题,研究团队深入分析了MLLMs中的视觉计算冗余,并提出了一系列策略来减少计算负担,同时保持模型性能。
➡️ 方法简介:研究团队通过分析LLaVA模型中的视觉计算模式,发现视觉注意力和表示计算中存在大量冗余。基于这一发现,他们提出了三种策略:邻域感知的视觉注意力、非活跃视觉注意力头的删除、稀疏投影的前馈网络(FFN)和视觉处理的懒层删除。这些策略能够显著减少视觉计算的计算成本,同时保持模型性能。
➡️ 实验设计:研究团队在多个基准数据集上进行了实验,包括视觉问答(VQA)、科学推理(ScienceQA)、文本识别(TextVQA)和细粒度视觉推理(GQA)等任务。实验结果表明,通过实施这些策略,可以在减少88%计算成本的同时,保持模型的性能。此外,这些策略在其他MLLMs(如Qwen2-VL-7B和InternVL-2.0)上也表现出类似的效果。

Multimodal Situational Safety

➡️ 论文标题:Multimodal Situational Safety
➡️ 论文作者:Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Anderson Compalas, Dawn Song, Xin Eric Wang
➡️ 研究机构: University of California, Santa Cruz、University of California, Berkeley
➡️ 问题背景:多模态大型语言模型(Multimodal Large Language Models, MLLMs)在作为多模态助手与人类和环境互动方面展现了强大的能力。然而,这些模型在处理多模态任务时的安全性问题日益凸显,特别是在评估用户查询的安全性时,视觉上下文对安全判断的影响至关重要。
➡️ 研究动机:当前的MLLMs在回答用户查询时,往往缺乏对视觉上下文中的安全线索的敏感性,尤其是在不安全的情况下。为了评估和提高MLLMs在多模态助手场景中的安全性,研究团队提出了一个新的安全问题——多模态情境安全(Multimodal Situational Safety),并开发了相应的评估基准(MSSBench)。
➡️ 方法简介:研究团队构建了MSSBench,包含1820个语言查询-图像对,其中一半的图像上下文是安全的,另一半是不安全的。该基准涵盖了两种多模态助手场景:多模态聊天助手和多模态实体助手。通过这个基准,研究团队评估了MLLMs在不同情境下的安全性能,包括显式安全推理、视觉理解能力和情境安全推理。
➡️ 实验设计:研究团队在MSSBench上评估了8种领先的MLLMs,包括开源模型和专有模型。实验结果表明,所有MLLMs在不安全情境下的表现都较差,尤其是在实体任务场景中。此外,专有模型在不安全情境下的表现优于开源模型,能够更频繁地检测到用户查询中的不安全意图,并指出潜在的不安全结果或拒绝回答。为了提高MLLMs的情境安全意识,研究团队还提出了多代理情境推理管道,通过将任务分解为不同的子任务,由不同的代理执行,以提高每个子任务的准确性。

ING-VP: MLLMs cannot Play Easy Vision-based Games Yet

➡️ 论文标题:ING-VP: MLLMs cannot Play Easy Vision-based Games Yet
➡️ 论文作者:Haoran Zhang, Hangyu Guo, Shuyue Guo, Meng Cao, Wenhao Huang, Jiaheng Liu, Ge Zhang
➡️ 研究机构: M-A-P, Bytedance.Inc, MBZUAI
➡️ 问题背景:多模态大语言模型(MLLMs)在多种任务中展示了越来越强的性能,但其在多模态推理和规划方面的能力仍不明确。现有研究指出,视觉-语言训练可能会降低MLLMs的文本能力,这表明基于LLMs构建的MLLMs在适应多模态推理和规划任务时可能受损。因此,迫切需要一个能够评估MLLMs在复杂多模态推理和规划方面能力的测试。
➡️ 研究动机:为了填补这一空白,研究团队开发了ING-VP(INteractive Game-based Vision Planning benchmark),这是一个专门设计用于评估MLLMs在空间想象和多步推理能力的基准测试。ING-VP包含6个不同的游戏,每个游戏有50个关卡,每个关卡都包含图像和文本表示,以提供视觉和文本输入。通过这些游戏,研究团队旨在系统地识别目标模型在不同设置下的优势和局限性。
➡️ 方法简介:ING-VP基准测试包括6个游戏,每个游戏有50个关卡,共300个关卡,每个关卡都有6种不同的配置。研究团队设计了6种实验设置,包括单步推理、多步推理(无历史记录和有历史记录),以全面评估模型的空间想象和规划能力。模型与游戏环境进行交互,直到完成任务或达到步数限制。
➡️ 实验设计:研究团队在ING-VP基准测试上评估了15个开源和闭源的MLLMs。实验设计了不同的设置,包括图像-文本输入与纯文本输入、单步推理与多步推理、有历史记录与无历史记录条件,以全面评估模型的多步推理和空间想象能力。评估指标包括准确性、完成度和动作效率。实验结果显示,即使是表现最好的模型Claude-3.5 Sonnet,其平均准确率也只有3.37%,远低于预期标准。这表明当前的MLLMs在空间想象和多步规划方面的能力仍然非常有限。

To Preserve or To Compress: An In-Depth Study of Connector Selection in Multimodal Large Language Models

➡️ 论文标题:To Preserve or To Compress: An In-Depth Study of Connector Selection in Multimodal Large Language Models
➡️ 论文作者:Junyan Lin, Haoran Chen, Dawei Zhu, Xiaoyu Shen
➡️ 研究机构: Digital Twin Institute, Eastern Institute of Technology, Ningbo, China; Saarland University, Saarland Informatics Campus
➡️ 问题背景:近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)在工业界和学术界受到了广泛关注。然而,关于MLLM架构的构建,特别是在感知任务中选择合适的连接器(connectors)方面,仍存在较大争议。连接器在多模态数据对齐中起着关键作用,研究团队系统地探讨了不同连接器对MLLM性能的影响。
➡️ 研究动机:尽管先前的研究探讨了影响MLLM性能的各种因素,但在详细分析连接器对不同感知粒度任务的影响方面仍存在空白。为了填补这一空白,研究团队对不同类型的连接器在粗粒度感知、细粒度感知和推理任务中的表现进行了全面评估,旨在为未来的MLLM架构设计提供指导。
➡️ 方法简介:研究团队将连接器分为特征保留型(feature-preserving connectors)和特征压缩型(feature-compressing connectors)。通过统一的分类标准,将来自MMBench、MME和SEED-Bench三个基准测试的子任务分为粗粒度感知、细粒度感知和推理任务,并评估了不同连接器在这些任务中的性能。研究还分析了不同池化方法对特征压缩型连接器的影响。
➡️ 实验设计:实验在三个公开数据集上进行,包括MMBench、MME和SEED-Bench。实验设计了不同因素(如图像分辨率、压缩的token数量)的变化,以及不同类型的感知任务(如粗粒度感知、细粒度感知和推理任务),以全面评估连接器在不同条件下的表现。研究发现,特征保留型连接器在细粒度感知任务中表现优异,而特征压缩型连接器在粗粒度感知任务中表现相当,但在细粒度感知任务中表现较差。此外,简单的池化方法通常能带来更有效的训练和更好的整体性能。

HERM: Benchmarking and Enhancing Multimodal LLMs for Human-Centric Understanding

➡️ 论文标题:HERM: Benchmarking and Enhancing Multimodal LLMs for Human-Centric Understanding
➡️ 论文作者:Keliang Li, Zaifei Yang, Jiahe Zhao, Hongze Shen, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen
➡️ 研究机构: 中国科学院计算技术研究所
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉理解和指令跟随方面取得了显著进展,为广泛的人类中心场景应用开辟了更多可能性。然而,现有的图像-文本数据可能无法支持精确的模态对齐和多粒度信息的整合,这对于人类中心的视觉理解至关重要。
➡️ 研究动机:现有的MLLMs在理解复杂的人类中心场景方面存在严重限制。为了全面评估这些模型在人类中心理解任务中的表现,研究团队引入了HERM-Bench基准测试,旨在揭示现有MLLMs的局限性,并为未来的改进提供方向。
➡️ 方法简介:研究团队构建了HERM-100K,这是一个包含多层级人类中心注释的全面数据集,旨在增强MLLMs的训练。HERM-100K的数据涵盖了图像级密集描述、实例级注释和属性级注释,提供了更广泛和更细致的人类中心视觉信息。
➡️ 实验设计:研究团队在HERM-Bench上进行了评估,该基准测试包括8个评价维度,涵盖了基本感知和复杂理解任务。实验设计了多种类型的问题,包括多项选择题和定位题,以全面评估模型在人类中心任务中的表现。实验结果表明,HERM-7B在所有评价维度上均显著优于现有的MLLMs,展示了其在人类中心理解任务中的优越性能。

http://www.lryc.cn/news/574081.html

相关文章:

  • 【nvidia-H100-ib排障实战2】:服务器 InfiniBand 网络性能问题深度分析
  • 学习Linux进程冻结技术
  • 科技资讯杂志科技资讯杂志社科技资讯编辑部2025年第9期目录
  • 微算法科技(NASDAQ:MLGO)研发可信共识算法TCA,解决区块链微服务中的数据一致性与安全挑战
  • 笔试强训:Day8
  • Qt for OpenHarmony 编译鸿蒙调用的动态库
  • MCU双分区方案,如何优雅地获知当前运行分区?
  • 开发上门按摩APP应具备哪些安全保障功能?
  • 实时预警!机场机坪井室无线智能液位监测系统助力安全降本
  • 【设计模式精讲 Day 12】代理模式(Proxy Pattern)
  • WebSocket 进阶全攻略:心跳机制、断线重连、socket.io、鉴权与WSS配置
  • LeetCode热题100—— 160. 相交链表
  • 拼多多API限流机制破解:分布式IP池搭建与流量伪装方案
  • Re:从零开始的地址映射基本分页存储管理方式(考研向)
  • 京东金融API支付链路剖析:白条分期接口的安全加固方案
  • ​​FFmpeg命令全解析:三步完成视频合并、精准裁剪​​、英伟达显卡加速
  • 飞往大厂梦之算法提升-7
  • vue | vue-macros 插件升级以及配置
  • OSC靶机练习 PG ZenPhoto
  • 华为HN8145V光猫改华为蓝色公版界面,三网通用,xgpon公版光猫
  • redis如何使用IO多路复用
  • 深入理解PHP中的面向对象编程
  • 医疗B端系统布局创新:医护操作界面与患者数据的差异化呈现
  • 347. 前 K 个高频元素
  • 洛谷P1217 [USACO1.5] 回文质数 Prime Palindromes
  • Rust 切片类型(slice type)
  • 关于华为Pura70Pro+升级鸿蒙NEXT和回退
  • 第三章---需求分析
  • JavaScript 中 async/await 的工作原理
  • Chromium 136 编译指南 macOS篇:编译优化技巧(六)