当前位置: 首页 > news >正文

已读论文创新点合集

系列文章目录


文章目录

  • 系列文章目录
  • 一、《LAMM: Label Alignment for Multi-Modal Prompt Learning》
  • 二、《MaPLe: Multi-modal Prompt Learning》
  • 三、《Learning to Prompt for Vision-Language Models》CoOp


一、《LAMM: Label Alignment for Multi-Modal Prompt Learning》

第一、本文提出了一种标记对齐技术LAMM,它通过梯度优化来自动搜索最优嵌入。据论文作者所知,可训练类别标记的概念是在预训练的VL模型中首次提出的。
第二、为了避免整个提示模板的语义特征偏离太远,作者在训练阶段引入了层次丢失。层次损失便于在参数、特征和logit空间之间对齐类别表示。通过这些操作,CLIP模型的泛化能力在LAMM中得以保留,使得LAMM在下游任务中更好地区分不同的类别,同时保留了原始类别描述的语义。
第三、假定LAMM仅微调下游数据集中的标签嵌入,则它不会遇到在连续学习期间传统方法中通常遇到的灾难性遗忘问题。

二、《MaPLe: Multi-modal Prompt Learning》

(1)我们建议在CLIP中采用多模态快速学习,以使其视觉语言表征更好地保持一致。据我们所知,这是第一个用于微调CLIP的多模态提示方法.
(2)为了将在文本和图像编码器中学习到的提示联系起来,我们提出了一个耦合函数,以明确地将视觉提示条件化到它们的语言对应物上。它是两种模式之间的桥梁,允许梯度的相互传播,以促进协同作用。
(3)我们的多模态提示是在视觉和语言分支的多个Transformer模块中学习的,以逐步学习两种模态的协同行为。这种深度提示策略允许独立地对上下文关系建模,从而提供更大的灵活性来对齐视觉-语言表示。

三、《Learning to Prompt for Vision-Language Models》CoOp

(1)我们提出了一项关于在下游应用中调整最近提出的视觉语言模型的及时研究,并确定了与部署效率相关的一个关键问题,即,提示工程。
(2)为了实现针对预训练的视觉语言模型的提示工程的自动化,我们提出了一种基于连续提示学习的简单方法,并提供了两种可以处理不同识别任务的实现。
(3)我们首次证明了所提出的基于即时学习的方法在大型视觉语言模型的下游迁移学习性能和域转移下的鲁棒性方面优于手工制作的提示和线性探测模型。
(4)我们在github上开放了我们的项目的源代码。

http://www.lryc.cn/news/439163.html

相关文章:

  • 12_持久化数据结构
  • 【计算机网络】IP, 以太网, ARP, DNS
  • OpenCore Legacy Patcher 2.0.0 发布,83 款不受支持的 Mac 机型将能运行最新的 macOS Sequoia
  • 爆改YOLOv8|使用MobileNetV4替换yolov8的Backbone
  • C语言 | Leetcode C语言题解之第406题根据身高重建队列
  • 【Git】初识Git
  • vue3 透传 Attributes
  • 4.接口测试基础(Jmter工具/场景二:一个项目由多个人负责接口测试,我只负责其中三个模块,协同)
  • electron react离线使用monaco-editor
  • Python 的 WSGI 简单了解
  • 基于stm32使用ucgui+GUIBuilder开发ui实例
  • Spring扩展点系列-ApplicationContextAwareProcessor
  • 基于Keil软件实现实时时钟(江协科技HAL库)
  • dedecms靶场(四种webshell姿势)
  • PHP:强大的Web开发语言
  • 06_Python数据类型_元组
  • 【Vue】- ref获取DOM元素和购物车案例分析
  • 【AI大模型】ChatGPT模型原理介绍(下)
  • Python数据分析与可视化实战指南
  • react18基础教程系列-- 框架基础理论知识mvc/jsx/createRoot
  • 牛客周赛 Round 60 折返跑(组合数学)
  • 深入浅出Java匿名内部类:用法详解与实例演示
  • 数据库MySQL、Mariadb、PostgreSQL、MangoDB、Memcached和Redis详细介绍
  • 【ArcGIS Pro实操第七期】栅格数据合并、裁剪及统计:以全球不透水面积为例
  • 【Linux】Image、zImage与uImage的区别
  • 算子加速(3):自定义cuda扩展
  • 信息安全数学基础(14)欧拉函数
  • 7-17 汉诺塔的非递归实现
  • word文档无损原样转pdf在windows平台使用python调用win32com使用pip安装pywin32
  • 海康威视相机在QTcreate上的使用教程