当前位置: 首页 > news >正文

【论文笔记】Prefix-Tuning: Optimizing Continuous Prompts for Generation

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: Prefix-Tuning: Optimizing Continuous Prompts for Generation
作者: Xiang Lisa Li, Percy Liang
发表: ACL 2021
arXiv: https://arxiv.org/abs/2101.00190

基本信息

摘要

微调是利用大型预训练语言模型进行下游任务的事实上的方法。

然而,微调会修改所有语言模型参数,因此需要为每个任务存储一个完整副本。

在本文中,我们提出了Prefix-tuning,这是一种轻量级的自然语言生成任务微调替代方案,它保持语言模型参数冻结,并优化一系列连续的任务特定向量,我们称之为Prefix。

Prefix-tuning从语言模型的提示中汲取灵感,允许后续标记将此Prefix视为“虚拟token”。

我们将Prefix-tuning应用于GPT-2进行表格到文本生成,以及应用于BART进行摘要。

我们表明,通过仅修改0.1%的参数,Prefix-tuning在全数据设置中获得了可比的性能,在低数据设置中优于微调,并且更好地推广到训练期间未见过的主题示例。

Fine-tuning (top) updates all LM parameters (the red Transformer box) and requires storing a full model copy for each task

全量微调(上方)更新所有LM参数(红色Transformer框)并需要为每个任务存储完整模型副本。我们提出Prefix-tuning(下方),冻结LM参数,仅优化Prefix(红色Prefix块)

Prefix-Tuning

Prefix-Tuning

实验

Metrics (higher is better, except for TER) for table-to-text generation on E2E (left), WebNLG (middle) and DART (right)

性能指标(除TER外,数值越高越好)用于E2E(左侧)、WebNLG(中间)和DART(右侧)的表格到文本生成。

(Left) qualitative examples in lowdata settings. (Right) prefix-tuning (orange) outperforms fine-tuning (blue) in low-data regimes in addition to requiring many fewer parameters.

(左)低数据环境中的定性示例。(右)前缀调整(橙色)在低数据机制中优于微调(蓝色),并且需要更少的参数。

Performance of methods on the XSUM summarization dataset

XSUM摘要数据集上方法的性能。

Extrapolation performance on XSUM

XSUM上的外推性能。

Prefix length vs. performance on summerization (left) and table-to-text (right)

XSUM上的外推性能。前缀长度与摘要(左)和表格到文本(右)的性能对比。

Intrinsic evaluation of Embedding-only and Infixing

内嵌式和插入式的内在评估。

Initializing the prefix with activations of real words significantly outperforms random initialization, in low-data settings

初始化前缀时,使用真实单词的激活效果显著优于随机初始化,尤其是在低数据集环境下。

Data efficiency curves: percentage of training set vs. performance on table-to-text (E2E)

数据效率曲线:训练集百分比与表格到文本(端到端)性能对比。

http://www.lryc.cn/news/481796.html

相关文章:

  • GNN系统学习:消息传递图神经网络
  • 基于gewe制作第一个微信聊天机器人
  • 【Python】python使用Moviepy库对mp3文件进行剪切,并设置输出文件的码率
  • 海外云手机在出海业务中的优势有哪些?
  • 这10款PDF转Word在线转换工具的个人使用经历!!
  • 认识QT以及QT的环境搭建
  • Rollup failed to resolve import “destr“ from ***/node_modules/pinia-plugin-pers
  • Python小白学习教程从入门到入坑------第三十课 文件定位操作(语法进阶)
  • 人工智能、机器学习与深度学习:层层递进的技术解读
  • Code Inspector——页面开发提效的神器
  • 如何定制RockyLinux ISO
  • python基于深度学习的音乐推荐方法研究系统
  • 机器学习系列----介绍前馈神经网络和卷积神经网络 (CNN)
  • vue.js组件和传值以及微信小程序组件和传值
  • c语言编程题(函数)
  • 华为eNSP:QinQ
  • JAVA基础-多线程线程池
  • HarmonyOS 沉浸式状态实现的多种方式
  • Python3.11.9下载和安装
  • 简简单单的UDP
  • 减少 try...catch,定义全局统一异常处理器!
  • 多点支撑:滚珠导轨的均匀分布优势!
  • 电气火灾探测器在商场火灾隐患监测和火灾预防中的应用
  • 速盾:如何有效防止服务器遭受攻击?
  • 【今日更新】使用Python辅助处理WebGIS
  • Linux 消息队列
  • 十大经典排序算法-冒泡算法详解介绍
  • delphi 编译多语言工程 error RC2104 : undefined keyword or key name:
  • [python] 如何debug python脚本中C++后端的core dump
  • Ecmascript(ES)标准