当前位置: 首页 > news >正文

Self-regulating Prompts: Foundational Model Adaptation without Forgetting

本文也是大模型系列的文章,主要是与Prompt Learning有关。针对《Self-regulating Prompts: Foundational Model Adaptation without Forgetting》的翻译。

自我调节的提示:不遗忘的基础模型适应

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 提出的方法
    • 3.1 前言
    • 3.2 提示学习的自正则化
      • 3.2.1 相互协议最大化
      • 3.2.2 提示自集成的规范化
      • 3.2.3 规范具有文本多样性的提示
  • 4 实验
    • 4.1 评估设置
    • 4.2 自律提示的有效性
    • 4.3 从基础到新颖的泛化
    • 4.4 小样本实验
    • 4.5 跨数据集评估
    • 4.6 领域泛化实验
    • 4.7 消融分析
  • 5 结论

摘要

提示学习已成为微调各种下游任务的基础模型(如CLIP)的有效替代方案。使用任务特定目标(即交叉熵损失)进行常规训练的提示往往会过度拟合下游数据分布,并发现从冻结的CLIP中捕获任务不可知的一般特征具有挑战性。这导致了模型原有泛化能力的丧失。为了解决这个问题,我们的工作引入了一个用于提示的自正则化框架,称为PromptSRC(具有自调节约束的提示)。PromptSRC使用三管齐下的方法指导提示优化特定任务和不可知任务的一般表示,方法是:(a)通过与冻结模型的相互协议最大化来调节提示表示,(b)在训练轨迹上用提示的自集成来调节,以编码其互补优势,以及(c)用文本多样性进行调节,以减轻与视觉分支的样本多样性失衡。据我们所知,这是第一个用于提示学习的正则化框架,通过共同关注预训练的模型特征、提示期间的训练轨迹和文本多样性来避免过度拟合。PromptSRC显式地引导提示学习一个表示空间,该空间在不影响CLIP泛化的情况下最大限度地提高下游任务的性能。我们在4个基准上进行了广泛的实验,其中PromptSRC与现有方法相比总体表现良好。我们的代码和预训练模型可在以下网站上公开获取:https://github.com/muzairkhattak/PromptSRC.

1 引言

2 相关工作

3 提出的方法

3.1 前言

3.2 提示学习的自正则化

3.2.1 相互协议最大化

3.2.2 提示自集成的规范化

3.2.3 规范具有文本多样性的提示

4 实验

4.1 评估设置

4.2 自律提示的有效性

4.3 从基础到新颖的泛化

4.4 小样本实验

4.5 跨数据集评估

4.6 领域泛化实验

4.7 消融分析

5 结论

提示学习已经成为适应CLIP等基础VL模型的有效范例。然而,大多数现有方法学习的提示固有地倾向于过度拟合特定任务的目标,从而损害CLIP固有的泛化能力。我们的工作提出了一个自我调节的提示学习框架,该框架解决了提示过拟合问题,以更好地泛化。我们表明,通过引入文本多样性补充的自一致性约束,明确鼓励提示与冻结模型的相互一致,从而指导提示的训练轨迹是至关重要的。我们还提出了一种提示的自组装策略,该策略在训练过程中通过高斯加权方法适当地聚合提示。对多个基准的广泛评估表明,我们的自我调节方法对快速学习有好处。

http://www.lryc.cn/news/108505.html

相关文章:

  • 平时工资不够用?推荐4种适合工作之余做的兼职副业!
  • 21.Netty源码之编码器
  • Linux 快速创建桌面图标
  • 数据结构—哈夫曼树及其应用
  • NeRF-SLAM: Real-Time Dense Monocular SLAM with Neural Radiance Fields 论文阅读
  • 机器学习之弹性网络(Elastic Net)
  • 嵌入式入门教学——C51
  • 2023-08-03力扣每日一题
  • 【蓝桥杯备考资料】如何进入国赛?
  • QtWebApp开发https服务器,完成客户端与服务器基于ssl的双向认证
  • 动态IP代理的优势展现与应用场景
  • ad+硬件每日学习十个知识点(22)23.8.2(LDO datasheet手册解读)
  • 这可是全网最全的网络工程师零基础实战视频整理,最新版分享
  • 笔记本WIFI连接无网络【实测有效解决方案,不用重启电脑】
  • js 正则表达式配合replace进行过滤html字符串遇到的性能问题
  • 2022牛客寒假算法基础集训营1
  • API对接:构建连接不同系统的技术桥梁
  • 【MySQL】仓储--维护出入库流水、库存,去重数量逻辑修正
  • 用Log4j 2记录日志
  • 【Java面试】Paxos和Raft协议的区别?
  • 手机浏览器H5打开微信小程序支付,自定义传参
  • Aligning Large Language Models with Human: A Survey
  • windows图标白了,刷新图标
  • C++ 左值和右值
  • c++学习(智能指针)[29]
  • B站高播放又涨粉的带货UP主怎么做?
  • AD21 PCB设计的高级应用(四)FPGA的管脚交换功能
  • 超低功耗LCD段码屏驱动显示芯片VK1621原厂芯片
  • 【深入探索Docker】:开启容器化时代的技术奇迹
  • 【Ajax】笔记-JQuery发送jsonp请求