当前位置: 首页 > news >正文

llava1.5论文阅读

Improved Baselines with Visual Instruction Tuning
通过视觉指令微调增强的基线方法

论文摘要: 我们发现,LLaVA中的全连接视觉语言连接器非常强大且数据效率高。

3.3 数据和模型的scaling

受到将线性投影转变为多层感知机(MLP)在自我监督学习中提高性能的启发[9, 10],

我们发现通过使用两层MLP来增强视觉-语言连接器的表征能力,可以提升LLaVA的多模态功能,相比原始的线性投影有所增强。

QA

LLaVA1.5 的 跨模态连接器

LLaVA 1.5使用的是视觉-语言连接方案,具体如下:

  1. 视觉编码器:采用 CLIP 的视觉编码器(CLIP-ViT-L/14),并且将输入图像的分辨率从 224px 提升到 336px,这使得模型对图像细节的理解能力更强,能够提取更高质量的视觉特征。

  2. 跨模态连接器:由原来的单个线性层替换为多层感知机(MLP)层作为跨模态连接器。MLP 包含两层线性层并使用 GELU 激活函数,这种结构增强了连接器的表达能力,能够更好地融合视觉和语言信息。相比原始的线性投影架构,MLP 跨模态连接器显著提升了 LLaVA 的多模态能力。

  3. 语言模型:使用 Vicuna v1.5 13b 作为语言模型,语言模型参数量更大,效果更好。在输入方面,视觉和语言的指令在同一个特征空间,一起拼接后送进模型进行处理,实现了图像和语言在模型中的交互和融合。

CogVLM

CogVLM的跨模态连接器主要是通过视觉专家模块(Visual Expert Module)来实现的。具体情况如下:

  1. 结构组成

    • QKV矩阵:每一层的视觉专家模块都包含一个QKV矩阵,其形状与预训练语言模型中的形状相同,并从预训练模型中初始化。该矩阵用于将图像特征转换为与语言模型不同注意力头相匹配的形式,使得图像特征能够更好地与语言模型进行交互和融合。
    • MLP层:除了QKV矩阵,视觉专家模块还包含一个MLP(多层感知机)层。MLP层可以对经过QKV矩阵处理后的特征进行进一步的处理和转换,增强模型对视觉和语言特征的深度理解和融合能力。
  2. 作用原理:在模型的每一层中,图像特征和文本特征一起进入到新的不同的QKV矩阵和MLP层进行处理。这样的设计使得视觉信息能够在语言模型的各个层中得到充分的交互和融合,而不是仅仅在输入层进行简单的映射。通过这种深度融合的方式,CogVLM能够更好地理解图像和文本之间的关系,提高模型在各种视觉语言任务上的性能。

  3. 优势特点

    • 增强特征融合:可训练的视觉专家模块能够缩小图像特征和语言特征之间的差异,提高信息的质量和准确性,实现视觉语言特征的深度融合,避免了浅层对齐方法中信息损失和噪声干扰的问题。
    • 保持语言模型性能:在保持语言模型原有参数固定的情况下,当输入序列不包含图像时,模型的表现与原语言模型相同,不会影响语言模型在纯文本任务上的性能。同时,利用冻结的预训练语言模型还可以降低计算成本和内存消耗,提高计算效率和可扩展性。
http://www.lryc.cn/news/458918.html

相关文章:

  • 【学术会议投稿链接】React前端框架:构建现代Web应用的强大工具
  • Linux: network: tcp: sk_tx_skb_cache;4.18.0-283.el8;多分配内存
  • 电脑报错msvcp100.dll丢失怎么办?这些方法快速修复
  • pymc的安装还是pymc3?
  • 汉语言文学做大数据七年实际工作经验分享普通人快来围观
  • Linux使用Docker部署Paperless-ngx结合内网穿透打造无纸化远程办公
  • PointNet系列论文阅读与理解
  • 反转链表解题思路
  • 【MySQL 保姆级教学】数据库基础(重点)(2)
  • Nginx从入门到实战(八):版本平滑无感知,不停机升级
  • jQuery 用户登录页面非空校验与登录测试
  • 《Linux从小白到高手》综合应用篇:深入理解Linux进程调优
  • Linux安装elasticsearch单机版
  • el-table表头加红色星标
  • 2.1 HTML5 - Canvas标签
  • T-Box联网安全定义
  • 7. 整数反转【数学】
  • Windows环境NodeJS下载配置安装运行
  • 石化巡检必备神器,AORO A30防爆手机让“跑冒滴漏”无处藏身!
  • Smartfusion2开发环境的搭建
  • 使用C++编写一个语音播报时钟(Qt)
  • 架构师之路-学渣到学霸历程-11
  • Java Mail腾讯企业邮箱或其他邮箱发送邮件失败bug记录
  • 【大数据】HBase集群断电文件坏块导致集群无法启动处理
  • 400行程序写一个实时操作系统(三):Sparrow的学习方法
  • 为什么人工智能用 Python?
  • 【C++差分数组】P1672何时运输的饲料
  • Go基础知识:切片
  • Redis配置篇 - 指定Redis配置的三种方式,以及Redis配置文件介绍
  • 探索scikit-learn的datasets模块:数据集的加载与使用