当前位置：首页 > news >正文

Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

news 2025/9/13 14:59:56

大开眼界？探索多模态模型种视觉编码器的缺陷。
在这里插入图片描述
论文中指出，上面这些VQA问题，人类可以瞬间给出正确的答案，但是多模态给出的结果却是错误的。是哪个环节出了问题呢？视觉编码器的问题？大语言模型出现了幻觉？还是视觉特征与语言模型间的特征没有对齐？
作者将上述问题分成了9个类别（通过将涉及的问题和选项提供chatgpt,让chatgpt将这些问题归类）
在这里插入图片描述

通过实验发现，增加模型规模/训练数据的数量，多模态模型仅在颜色/外观任务和物体状态/状况这两项任务上的表现有提升。
通过实验发现，两张很相似的图片（如下图的两只蝴蝶），视觉编码器（CLIP）给出两张图片的相似度很高，但是自编码器（DINO）给出的相似度不是很高，作者定义这两幅图片为CLIP-blind pairs

clip和多模态模型在这9项任务上的表现

通过增加自监督特征，多模态模型的能力有了提升
在这里插入图片描述
上图种左边是目前的多模态结构，中间部分是两部分特征线性相加，右边是交错混合的方式。
为了评价多模态模型在这些任务上的表现，建立了MMVP-VLM的测试集。

MMVP-VLM的建立过程
在这里插入图片描述

http://www.lryc.cn/news/287536.html

相关文章：

汤姆·齐格弗里德《纳什均衡与博弈论》笔记（4）博弈论与人性

MacOS平台翻译OCR软件，双管齐下，还可自定义插件，为其添砖加瓦！

使用docker配置semantic slam

面试常问的Spring AOP底层原理

C++拾遗（四）引用与指针

k8s架构、工作流程、集群组件详解

CF1362C Johnny and Another Rating Drop（二进制、复杂度考虑）

1 - 搭建Redis数据库服务器｜LNP+Redis

米贸搜|Facebook“精准营销”越来越难？或许是“受众定位”没彻底搞清！

【C++】内存分区模型

通过strings二进制文件分析工具排查 version ‘GLIBC_2.25‘ not found 报错

基于 MQTT 的开源桥接器：自由控制物联网设备 | 开源日报 No.151

【QT+QGIS跨平台编译】之七：【libjpeg+Qt跨平台编译】（一套代码、一套框架，跨平台编译）

VI / VIM的使用

第十二站(20天):C++泛型编程

【Docker】Dokcer学习① - 简介

PostgreSQL 100条命令

HTTP动态代理的原理及其对网络性能的影响

69.使用Go标准库compress/gzip压缩数据存入Redis避免BigKey

JavaScript实现的一些小案例

Java中的代理模式（一）

跳跃游戏-算法

ERP系统哪个好用？用友，金蝶，ORACLE，SAP综合测评

外汇天眼：美国证券交易委员会（SEC）采纳了一系列规定，以加强与特殊目的收购公司（SPACs）相关的投资者保护

kotlin map 与 flatmap

nginx-rtmp-module 支持 Enhancing RTMP HEVC(H.265)

2024最新JDK1.8+JDK17+JDK21安装包下载+文档

如何利用chatgpt提升工作效率

WinSCP下载安装并实现远程SSH本地服务器上传文件