当前位置: 首页 > news >正文

[论文笔记]BitFit

引言

今天带来一篇参数高效微调的论文笔记,论文题目为 基于Transformer掩码语言模型简单高效的参数微调。

BitFit,一种稀疏的微调方法,仅修改模型的偏置项(或它们的子集)。对于小到中等规模数据,应用BitFit去微调预训练的BERT模型能达到(有时超过)微调整个模型。对于大规模数据,该方法能与其他稀疏微调方法竞争。

证明了微调主要是暴露由语言建模训练引发的知识,而不是学习新的任务特定的语言知识。

总体介绍

作者提出了一个简单但高效的方法进去微调,有以下优点:

  1. 每个微调的任务仅修改少量参数;
  2. 每个任务修改同样的参数集;
  3. 被修改的参数在整个参数空间中既孤立又局部化的;
  4. 对于少到中等规模数据,修改这些参数能达到全量微调效果,有时甚至还会超越后者;

作者证明了固定网络的大部分参数,仅修改偏置项的参数能达到惊人的效果。如果能允许一些性能上的损失,甚至只需要修改两处偏置项(query和MLP中间的偏置项),这些被改变的参数约占模型中偏置参数的一半,并且仅占所有模型参数的0.04%。

背景知识

理想的情况是希望有一种微调方法具备以下特点:

  1. 能够与完全微调的模型的结果相匹配;
  2. 仅改变模型的一小部分参数;
  3. 能够流式访问任务,而不需要同时访问所有数据集;
  4. 在高效硬件部署中,希望参数修改的参数集在不同任务之间保持一致;

学习 vs. 暴露 实现上述要求的可行性取决于对大型预训练语

http://www.lryc.cn/news/182073.html

相关文章:

  • 浅谈yolov5中的anchor
  • RabbitMQ-工作队列
  • 网站安全防护措施
  • C++的继承基础和虚继承原理
  • 第三章:最新版零基础学习 PYTHON 教程(第十三节 - Python 运算符—Python 中的运算符函数 - 套装2)
  • Linux网络编程:详解https协议
  • LLVM IR 文档 专门解释 LLVM IR
  • 免费服务器搭建网盘教程,给电脑挂载500G磁盘
  • 【Java】微服务——Nacos配置管理(统一配置管理热更新配置共享Nacos集群搭建)
  • QT基础入门——信号和槽机制(二)
  • 黑豹程序员-架构师学习路线图-百科:JavaScript-网页三剑客
  • 三、互联网技术——IP子网划分
  • TinyWebServer学习笔记-log
  • 【kubernetes】CRI OCI
  • 竞赛 机器视觉opencv答题卡识别系统
  • Youtube视频下载工具分享-油管视频,音乐,字幕下载方法汇总
  • 【算法练习Day11】滑动窗口最大值前 K 个高频元素
  • 华为云HECS云服务器docker环境下安装nginx
  • GET 和 POST的区别
  • 机器学习(监督学习)笔记
  • 科普rabbitmq,rocketmq,kafka三者的架构比较
  • 加密货币交易技巧——地利(二)
  • 服务网关Gateway_微服务中的应用
  • 2G大小的GPU对深度学习的加速效果如何?
  • intel 一些偏门汇编指令总结
  • python 多个proto文件import引用时出现ModuleNotFoundError错误
  • C语言图书管理系统
  • 归并排序及其非递归实现
  • 【kubernetes】kubernetes中的Controller
  • RabbitMQ-死信队列