当前位置: 首页 > news >正文

2021-arXiv-The Power of Scale for Parameter-Efficient Prompt Tuning

2021-arXiv-The Power of Scale for Parameter-Efficient Prompt Tuning


Paper: https://arxiv.org/abs/2104.08691
Code: https://github.com/google-research/ text-to-text-transfer-transformer/ blob/main/released_checkpoints.md# lm-adapted-t511lm100k

在这项工作中,作者探索了“提示调整”,这是一种简单而有效的机制,用于学习“软提示”来调节冻结的语言模型以执行特定的下游任务。与 GPT-3 使用的离散文本提示不同,软提示是通过反向传播学习的,并且可以调整以合并来自任意数量的标记示例的信号。端到端学习方法大大优于 GPT-3 的小样本学习方法。更值得注意的是,通过使用 T5 对模型大小进行消融,表明Prompt Tuning在规模上变得更具竞争力:随着模型超过数十亿个参数,该的方法“缩小了差距”并匹配了模型调优的强大性能(其中所有模型权重都被进行了调整)。并且展示了使用软提示对冻结模型进行调节可以提高域迁移的鲁棒性,并实现高效的“提示集成”。

论文第一次证明仅提示调整(没有中间层前缀或特定于任务的输出层)足以与模型调整竞争的人。 通过实验证明语言模型能力是这些方法成功的关键因素。 如图 1 所示,**随着规模的扩大,即时调优变得更具竞争力。**如下图所示:T5 的标准模型调优实现了强大的性能,但需要为每个最终任务存储单独的模型副本。 随着大小的增加,T5 快速调整与模型调整的质量相匹配,同时能够为所有任务重用单个冻结模型。 该方法明显优于使用 GPT-3 的fewshot prompt 设计。

本文贡献:

1. 提出了快速调优,并在大型语言模型体系中展示了其与模型调优的竞争力。

2. 消融许多设计选择,显示质量和稳健性随着规模的增长而提高。

3. 在域转移问题上显示快速调优优于模型调优。

4. 提出“即兴合奏”并显示其有效性。

Prompt Tuning

Discrete prompt

Discrete prompt更多是通过先验知识来添加prompt,比如通过人类手工设计,将pretraining的只是和dowm stream的任务结合起来;另一种则是通过从trigger(触发) token的方法,这种方法假设所有的先验知识都存在于pretraining的模型之中,然后,设计某种trigger方法在下游任务中将prompt提取出来。

Soft/continuous prompts

Prompt Tuning 以 T5 为基础,将所有任务转化成文本生成任务,表示为 P r θ ( Y ∣ X ) Pr_{\theta}(Y|X) Prθ(YX)。Prompt Tuning 在输入 X X X 前额外添加一系列特殊 tokens P P P,输入语言模型生成 Y Y Y,即 P r θ [ P ; X ] Pr_{\theta}[P;X] Prθ[P;X]。其中, θ \theta θ为预训练模型参数,在训练过程被固定, θ p \theta_p θp为 prompts 的专有参数,在训练过程被更新优化。通过将输入 X X X的 embedding 矩阵 X e X_e Xe与 prompts 的 embedding 矩阵进行拼接 [ P e , X e ] [P_e,X_e] [Pe,Xe]输入 T5 模型,最大化 Y Y Y的概率训练模型,但是只有 prompt 参数被更新。

http://www.lryc.cn/news/206571.html

相关文章:

  • 计算机视觉与深度学习 | 非线性优化理论:图优化、高斯牛顿法和列文伯格-马夸尔特算法
  • 一文说尽零售数据分析指标体系
  • AT2659一款卫星导航低噪声放大器芯片(LNA)
  • GoLong的学习之路(二)语法之基本数据类型
  • 网关概念及java项目中用使用网关场景
  • 网页禁止右键 禁止F12 JavaScript禁止F12 禁止右键菜单 包含 js、Jquery、Vue
  • Linux系统编程07
  • html web前端 登录,短信验证码登录
  • (免费领源码)php#Thinkphp#MYSQL校园二手交易app 99211-计算机毕业设计项目选题推荐
  • 用Python做数据分析之数据筛选及分类汇总
  • RabbitMQ高级篇 笔记
  • javaEE -9(7000字详解TCP/IP协议)
  • 在mybatis的xml中使用枚举来做判断条件
  • scala集合的partition方法使用
  • 18 Transformer 的动态流程
  • Android Studio新功能-设备镜像Device mirroring-在电脑侧显示手机实时画面并可控制
  • MySQL身份验证绕过漏洞
  • 0基础学习PyFlink——不可以用UDTAF装饰器装饰function的原因分析
  • Spring Boot Endpoints:端点
  • 漏洞复现--用友 畅捷通T+ .net反序列化RCE
  • PHP 共享茶室棋牌室无人软硬件结合开发小程序系统的开发优势
  • kibana监控
  • 基于 ARM+FPGA+AD平台的多类型同步信号采集仪开发及试验验证(二)板卡总体设计
  • uniapp: 本应用使用HBuilderX x.x.xx 或对应的cli版本编译,而手机端SDK版本是 x.x.xx。不匹配的版本可能造成应用异常。
  • sqoop和flume简单安装配置使用
  • 什么是React Router?它的作用是什么?
  • 界面控件DevExtreme v23.1 - UI组件 UI模板库增强
  • Fedora Linux 38下Mariadb数据库设置utf8mb4字符编码
  • 【单元测试】--高级主题
  • 面向对象程序设计(2023年10月)