当前位置: 首页 > news >正文

Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

大开眼界?探索多模态模型种视觉编码器的缺陷。
在这里插入图片描述
论文中指出,上面这些VQA问题,人类可以瞬间给出正确的答案,但是多模态给出的结果却是错误的。是哪个环节出了问题呢?视觉编码器的问题?大语言模型出现了幻觉?还是视觉特征与语言模型间的特征没有对齐?
作者将上述问题分成了9个类别(通过将涉及的问题和选项提供chatgpt,让chatgpt将这些问题归类)
在这里插入图片描述

  • 通过实验发现,增加模型规模/训练数据的数量,多模态模型仅在颜色/外观任务和物体状态/状况这两项任务上的表现有提升。
  • 通过实验发现,两张很相似的图片(如下图的两只蝴蝶),视觉编码器(CLIP)给出两张图片的相似度很高,但是自编码器(DINO)给出的相似度不是很高,作者定义这两幅图片为CLIP-blind pairs
    在这里插入图片描述
    clip和多模态模型在这9项任务上的表现
    在这里插入图片描述

通过增加自监督特征,多模态模型的能力有了提升
在这里插入图片描述
上图种左边是目前的多模态结构,中间部分是两部分特征线性相加,右边是交错混合的方式。
为了评价多模态模型在这些任务上的表现,建立了MMVP-VLM的测试集。
在这里插入图片描述
在这里插入图片描述

MMVP-VLM的建立过程
在这里插入图片描述

http://www.lryc.cn/news/287536.html

相关文章:

  • 汤姆·齐格弗里德《纳什均衡与博弈论》笔记(4)博弈论与人性
  • MacOS平台翻译OCR软件,双管齐下,还可自定义插件,为其添砖加瓦!
  • 使用docker配置semantic slam
  • 面试常问的Spring AOP底层原理
  • C++拾遗(四)引用与指针
  • k8s架构、工作流程、集群组件详解
  • CF1362C Johnny and Another Rating Drop(二进制、复杂度考虑)
  • 1 - 搭建Redis数据库服务器|LNP+Redis
  • 米贸搜|Facebook“精准营销”越来越难?或许是“受众定位”没彻底搞清!
  • 【C++】内存分区模型
  • 通过strings二进制文件分析工具排查 version ‘GLIBC_2.25‘ not found 报错
  • 基于 MQTT 的开源桥接器:自由控制物联网设备 | 开源日报 No.151
  • 【QT+QGIS跨平台编译】之七:【libjpeg+Qt跨平台编译】(一套代码、一套框架,跨平台编译)
  • VI / VIM的使用
  • 第十二站(20天):C++泛型编程
  • 【Docker】Dokcer学习① - 简介
  • PostgreSQL 100条命令
  • HTTP动态代理的原理及其对网络性能的影响
  • 69.使用Go标准库compress/gzip压缩数据存入Redis避免BigKey
  • JavaScript实现的一些小案例
  • MVC模式
  • Java中的代理模式(一)
  • 跳跃游戏-算法
  • ERP系统哪个好用?用友,金蝶,ORACLE,SAP综合测评
  • 外汇天眼:美国证券交易委员会(SEC)采纳了一系列规定,以加强与特殊目的收购公司(SPACs)相关的投资者保护
  • kotlin map 与 flatmap
  • nginx-rtmp-module 支持 Enhancing RTMP HEVC(H.265)
  • 2024最新JDK1.8+JDK17+JDK21安装包下载+文档
  • 如何利用chatgpt提升工作效率
  • WinSCP下载安装并实现远程SSH本地服务器上传文件