当前位置: 首页 > news >正文

[论文阅读72]Parameter-Efficient Transfer Learning for NLP

1. 基本信息

题目论文作者与单位来源年份
Parameter-Efficient Transfer Learning for NLPNeil Houlsby等Google Research,雅盖隆大学-波兰PMLR2019

Houlsby N, Giurgiu A, Jastrzebski S, et al. Parameter-efficient transfer learning for NLP[C]//International Conference on Machine Learning. PMLR, 2019: 2790-2799.

论文链接:http://proceedings.mlr.press/v97/houlsby19a.html

论文代码:

2. 要点

研究主题问题背景核心方法流程亮点数据集结论论文类型关键字
大模型微调微调参数不高效或无效提出Adapter模块。基于Bert模型来进行实验,26个不同的分类任务。针对每个任务仅添加少量可训练参数,之前网络的参数固定,参数高度复用。26个分类。包括GLUE benchmark。在训练很少的参数的情况下,可以接近训练全参数的效果。Adapter的GLUE得分为80.0,而完全微调为80.4。模型方法PETL,Adapter

引入Adapter的目标:对于N个任务,完全微调模型需要N x 预训练模型的参数数量。可是Adapter的目标是达到微调相当的性能,但总参数训练更少,理想情况下接近1 ×。

3. 模型(核心内容)

Adapter与transformer的结合框架。

在Transformer中的两个地方增加,一个地方在projection后面,一个地方在两个前向层后面;

对于每个Adapter层像一个瓶颈。它的参数比较原始模型少很多,也包含skip-connection. 只更新绿色部分部分。

p9Ti0yV.png

4. 实验与分析

AutoML平台进行实验的。

4.1 数据集

GLUE benchmark

17个公开数据

SQuAD question answering

4.2 GLUE benchmark的结果

GLUE得分为80.0,而完全微调为80.4。

BERT_LARGE模型的总调参数为9.0 x ,表示这9个任务都得微调的总和;

Adapters的最好效果为80.0,而参数总量只为1.3倍于原模型参数据,训练的参数只有3.6%.

p9TmSvd.png

5. 小结

提出了与transformer相结合的adapter模型,可以在训练少参数的情况下达到全调的效果。想法很不错,效果也是比较好的。

http://www.lryc.cn/news/69971.html

相关文章:

  • 0基础转行居然拿到9.5K!尘埃深处是繁花,强者从未停下!
  • 软考初级程序员上午单选题(13)
  • 【WSN覆盖】基于麻雀搜索算法的三维无线传感器网络覆盖优化 三维WSN覆盖优化【Matlab代码#26】
  • 【学习日记2023.5.20】 之 菜品模块完善
  • MySQL高级SQL语句
  • rem和em的区别和使用场景,以及如何在实际开发中灵活运用它们
  • JDK源码阅读环境搭建
  • 基本定时器工作模式
  • 【华为OD机试真题2023B卷 JAVA】报文重排序
  • 【Docker】- 02 Docker-Compose
  • 工业相机的Pixel Binning和Pixel Skipping
  • c++ 11标准模板(STL) std::set(八)
  • linux服务器断电重启后,发现时间误差八小时
  • 兼容人大金仓,异常信息报错解决大全
  • 短睡眠 堀大辅 超短眠 人生更丰富
  • 私有GitLab仓库 - 本地搭建GitLab私有代码仓库并随时远程访问「内网穿透」
  • Debezium系列之:Debezium镜像仓库Quay.io,使用Debezium镜像仓库的方法和案例
  • 文心一言和ChatGPT最全对比
  • 龙芯2K1000实战开发-平台介绍
  • C++ map用法总结(整理)
  • 面向对象的第二个基本特征:继承011026
  • 机器学习项目实战-能源利用率 Part-3(特征工程与特征筛选)
  • WebSocket的那些事(2-实操篇)
  • BurpSuite—-Target模块(目标模块)
  • 部门来了个测试开发,听说是00后,上来一顿操作给我看呆了...
  • Godot引擎 4.0 文档 - 入门介绍 - Godot简介
  • 数据通信基础 - 码元速率 和 数据速率 详解
  • 听我一句劝,别去外包,干了三年,废了....
  • 全域兴趣电商:国货品牌的新策略、新玩法
  • 嵌入式 Linux 入门(十一、make 和 MakeFile)