当前位置: 首页 > news >正文

MaPLe: Multi-modal Prompt Learning

本文也是LLM系统的文章,主要是面向多模态的大语言模型,针对《MaPLe: Multi-modal Prompt Learning》的翻译。

MaPLe:多模态提示学习

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 方法
  • 4 实验
  • 5 结论

摘要

CLIP等预先训练的视觉语言(V-L)模型对下游任务表现出了出色的泛化能力。但是,它们对输入文本提示的选择很敏感,需要仔细选择提示模板才能执行良好的操作。受自然语言处理(NLP)文献的启发,最近的CLIP自适应方法学习提示作为文本输入,以微调CLIP用于下游任务。我们注意到,在CLIP的单个分支(语言或视觉)中使用提示来调整表示是次优的,因为它不允许在下游任务上动态调整两个表示空间的灵活性。在这项工作中,我们提出了视觉和语言分支的多模式提示学习(MaPLe),以提高视觉和语言表征之间的一致性。我们的设计促进了视觉语言提示之间的强耦合,以确保相互协同,并阻止学习独立的单一模式解决方案。此外,我们在不同的早期阶段学习不同的提示,以逐步建立阶段特征关系的模型,从而实现丰富的上下文学习。我们评估了我们的方法在三个代表性任务上的有效性,即对新类的泛化、新的目标数据集和看不见的领域迁移。与最先进的方法CoCoOp相比,MaPLe表现出良好的性能,在11个不同的图像识别数据集上平均,在新类别上实现了3.45%的绝对增益,在总体谐波平均值上实现了2.72%的绝对增益。我们的代码和预训练模型可在https://github.com/muzairkhattak/multimodalprompt-learning找到.

1 引言

2 相关工作

3 方法

4 实验

5 结论

由于大量可调参数和下游数据集的大小有限,大规模V-L模型(例如CLIP)对下游任务的适应是一个具有挑战性的问题。提示学习是一种高效且可扩展的技术,可以根据新的下游任务定制V-L模型。为此,目前的提示学习方法要么只考虑视觉方面的提示,要么只考虑语言方面的提示。我们的工作表明,对视觉和语言分支进行提示是至关重要的,以使V-L模型适当地适应下游任务。此外,我们提出了一种策略,通过在不同的转换阶段明确地将视觉提示条件化为文本提示,来确保视觉语言模式之间的协同作用。我们的方法提高了对新类别、跨数据集转移和具有域转移的数据集的泛化能力。

http://www.lryc.cn/news/160532.html

相关文章:

  • 软件测试/测试开发丨Jenkins Pipeline 学习笔记
  • java多线程——线程池
  • Linux文件操作
  • Tomcat多实例 + Tomcat负载均衡、动静分离(Nginx联动)
  • bootstrap和application的区别
  • 【狂神】SpringMVC笔记(一)之详细版
  • vue 对axios进行封装
  • 第十二章 YOLO的部署实战篇(下篇-cuda)
  • 原生JavaScript+PHP多图上传实现
  • 企业架构LNMP学习笔记30
  • 数学建模算法汇总(全网最全,含matlab案例代码)
  • openpnp - 底部相机高级矫正后,底部相机看不清吸嘴的解决方法
  • 怎么提高自己当众讲话的能力?
  • 孙哥Spring源码第20集
  • 【计算机网络】HTTP(上)
  • Maven学习记录
  • H5游戏开发H5休闲小游戏定制H5软件定制
  • Spring基础及IoC容器的理解
  • 护网行动为什么给的钱那么多
  • 软考知识汇总-计算机系统
  • OpenCV 11(图像金字塔)
  • Linux学习笔记-Ubuntu系统用户、群组、权限管理
  • 文章预览 安防监控/视频存储/视频汇聚平台EasyCVR播放优化小tips
  • Nand Flash的特性及烧录问题
  • 【React 】useLayoutEffect 和 useEffect的区别
  • oracle数据库常见的优化步骤与脚本
  • 并发内存池(C++)
  • 本地起一个VUE 前端项目
  • Python爬虫:Selenium的介绍及简单示例
  • 每日刷题|回溯法解决全排列问题第二弹之解决字符串、字母大小排列问题