当前位置: 首页 > news >正文

LLM微调 | Adapter: Parameter-Efficient Transfer Learning for NLP

目的:大模型预训练+微调范式,微调成本高。adapter只只微调新增的小部分参数【但adapter增加了模型层数,引入了额外的推理延迟。】

  • Adapters最初来源于CV领域的《Learning multiple visual domains with residual adapters》一文,其核心思想是在神经网络模块基础上添加一些残差模块,并只优化这些残差模块,由于残差模块的参数更少,因此微调成本更低。

  • Houlsby等人将这一思想应用到了自然语言处理领域。他们提出在Transformer的注意力层和前馈神经网络(FFN)层之后添加全连接网络。微调时,只对新增的 Adapter 结构和 Layer Norm 层进行微调,从而保证了训练的高效性。 每当出现新的下游任务,通过添加Adapter模块来产生一个易于扩展的下游模型,从而避免全量微调与灾难性遗忘的问题。
    Adapters Tuning效率很高,通过微调不到4%的模型参数,可以实现与 fine-tuning相当的性能。

在这里插入图片描述
左图:在每个Transformer layer中两次添加adapter——在多头注意力后的投影之后和在两个前馈层之后。
右图:adapter是一个bottleneck结构,包括两个前馈子层(Feedforward)和跳连接( skip-connection)。

  • Feedforward down-project:将原始输入维度d(
http://www.lryc.cn/news/104676.html

相关文章:

  • 在idea中添加try/catch的快捷键
  • 企业级开发中协同开发与持续集成持续部署
  • 九五从零开始的运维之路(其二十八)
  • iOS--Runloop
  • Doccano工具安装教程/文本标注工具/文本标注自己的项目/NLP分词器工具/自然语言处理必备工具/如何使用文本标注工具
  • windows系统之WSL 安装 Ubuntu
  • 洛谷题解 | P1046 陶陶摘苹果
  • 记一次Apache HTTP Client问题排查
  • Linux获取文件属性
  • String字符串拼接
  • 在矩池云使用Llama2-7B的具体方法
  • API教程:轻松上手HTTP代理服务!
  • 脑网络通信:概念、模型与应用——Brain network communication: concepts, models and applications
  • Docker创建tomcat容器实例后无法访问(HTTP状态 404 - 未找到)
  • oracle数据库dbLink的使用
  • Coremail中睿天下|2023年第二季度企业邮箱安全态势观察
  • ZooKeeper分布式锁、配置管理、服务发现在Java开发中的应用
  • openGauss学习笔记-27 openGauss 高级数据管理- JOIN
  • 域名解析优先级
  • 【Opencv】视频跟踪算法KCF
  • 后端整理(集合框架、IO流、多线程)
  • C++ 类和对象篇(二) this指针
  • Excel快捷键F1-F9详解:掌握实用快捷操作,提升工作效率
  • Webpack 安装教程
  • 移远通信首批加入“5G+eSIM计算终端产业合作计划”,助力大屏移动终端全时在线
  • 全网最强大的工具箱—utools介绍及分享
  • Linux常用基础命令❀
  • SQL-进阶
  • [Pytorch]卷积运算conv2d
  • 主流开源监控系统一览