当前位置: 首页 > news >正文

Black-Box Tuning for Language-Model-as-a-Service

本文是LLM系列的文章,针对《Black-Box Tuning for Language-Model-as-a-Service》的翻译。

语义模型即服务的黑盒调整

  • 摘要
  • 1 引言
  • 2 背景
  • 3 方法
  • 4 实验
  • 5 讨论与未来工作

摘要

GPT-3等超大的预训练语言模型(PTM)通常作为服务发布。它允许用户设计特定于任务的提示,通过一些黑盒API查询PTM。在我们称之为Language-Model-a-Service(LMaaS)的这种情况下,PTM的梯度通常不可用。我们是否可以通过仅访问模型推理API来优化任务提示?本文提出了黑盒调整框架,通过无导数优化来优化输入文本前的连续提示。我们不是在原始的高维提示空间中进行优化(这对于传统的无导数优化来说是难以解决的),而是在随机生成的子空间中执行优化,因为大型PTM的本征维数较低。实验结果表明,在少数标记样本上使用RoBERTa的黑匣子调整不仅在上下文学习中显著优于手动提示和GPT3,而且超过了基于梯度的对应方法,即提示调整和全模型调整。

1 引言

2 背景

3 方法

4 实验

5 讨论与未来工作

在本节中,我们分别在(1)无导数优化和(2)基于提示的学习的背景下讨论我们提出的方法。通过与这两条研究线进行比较,我们强调了未来可以改进这项工作的一些方向。
与以前的无导数方法的比较。我们提出的方法与之前通过随机嵌入解决高维无导数优化问题的工作框架相同。相反,我们通过从均匀分布而不是正态分布采样来设置随机嵌入A,并使用CMA-ES在生成的子空间中执行优化。在以前的工作中,目标黑盒函数通常是合成函数,其中只有少数维度可以影响函数值,因此大多数维度都是严格无效的。在我们的现实世界场景中,内在维度可以是近似的。在PTM的背景下,对术语内在维度的更合适的替代可以是 ϵ \epsilon ϵ-有效维度。考虑到PTM的内在维度的松弛,在未来的工作中应该探索更合适的方法,如顺序随机嵌入和其他更先进的构建随机投影矩阵的方法。此外,由随机投影生成的子空间可以是次优的。如Qin等人所示,用多任务监督训练投影A可以产生更好、更小的子空间。此外,较大的PTM通常具有较低的内在维度,因此,我们可以在较大的PTMs上使用较小的子空间和更有效的DFO算法,如贝叶斯优化。
与以前基于提示的学习方法的比较。从基于提示的学习的角度来看,我们的方法类似于提示调整,其中只调整输入文本前的连续提示,因此我们的方法还保留了高效服务和混合任务推理的优点。除了连续提示外,我们还在输入文本中插入一些硬提示标记(例如,“It was[MASK]”),这在以前的工作中以混合提示调整的名义被证明是有效的。与以前的基于提示的学习方法不同,我们的提示调整不需要反向传播和梯度下降。考虑到我们使用的模板和标签词是手工制作的,没有试错,本文报告的性能只是一个下限。更先进的技术,如提示工程、标签词工程、提示预训练和提示组合与这项工作正交,因此可以进一步提高性能。为了简单起见,我们不集成这些方法,留待将来工作。

http://www.lryc.cn/news/152766.html

相关文章:

  • 通用的ARM64架构镜像
  • git大文件推送报错
  • RDMA性能优化经验浅谈
  • day 44 | ● 309.最佳买卖股票时机含冷冻期 ● 714.买卖股票的最佳时机含手续费
  • 电子科大软件系统架构设计——系统分析与设计概述(含课堂作业、练习答案)
  • 【SpringMVC】@RequestMapping注解(详解)
  • 8.(Python数模)马尔科夫链预测
  • 什么是浏览器缓存(browser caching)?如何使用HTTP头来控制缓存?
  • 谁需要了解学习RPA?什么地方可以使用RPA?
  • Qt各个版本下载及安装教程(离线和非离线安装)
  • 使用爬虫代码获得深度学习目标检测或者语义分割中的图片。
  • 代码随想录算法训练营第39天 | ● 62.不同路径 ● 63. 不同路径II
  • 《网站建设:从规划到发布的全过程详解》
  • 1分钟实现 CLIP + Annoy + Gradio 文搜图+图搜图 系统
  • 用树形dp+状压维护树上操作的计数问题:0902T3
  • 【python爬虫】批量识别pdf中的英文,自动翻译成中文上
  • Android笔记--Hilt
  • Oracle常用权限处理
  • Stable Diffuse 之 本地环境部署 WebUI 进行汉化操作
  • r 安装源码包 安装本地r包
  • webservice调用对接第三方系统
  • 实现不同局域网文件共享的解决方案:使用Python自带HTTP服务和端口映射
  • [Android 四大组件] --- Activity
  • shell中for循环输出1-6
  • docker 04.更加重要的命令
  • 【理解线性代数】(二)线性运算和线性空间
  • 专业的视觉特效处理包,FxFactory 8 Pro for Mac助您打造精彩视频
  • Darshan日志分析
  • python中如何不修改字符串的前提,使其对大小写字母不敏感
  • 聊聊Http服务化改造实践