当前位置: 首页 > news >正文

论文笔记:Tuning Language Models by Proxy

COLM 2024

1 INTRO

尽管大型预训练语言模型(如 GPT-4、LLAMA2 等)具有很强的通用能力,但它们仍然需要进一步的微调来更好地完成特定任务,比如:

  • 遵循指令(instruction-following)

  • 适应特定领域(如代码、法律等)

  • 执行具体任务(如问答、数学推理)

问题是:

  • 这些微调成本高昂,资源需求大;

  • 对于闭源模型(如 GPT-4),用户甚至无法访问其参数,无法直接微调

  • 论文提出了Proxy-tuning
    • 一种 “推理时调整(decoding-time adaptation)” 的方法,不需要修改大模型的权重,仅需访问其 输出的 token 分布(logits)

    • 基本思想是

      • 微调一个 小模型(称为 expert,专家模型);

      • 将其与原始小模型(称为 anti-expert,反专家)对比;

      • 将它们的预测差异用于 引导大模型的输出,以模仿微调后模型的行为。

2 方法

  • 假设我们有一个预训练模型\mathcal{M},我们希望对它进行调优。
    • 对于任意输入,我们假设可以访问其对整个词表的输出 logits。
    • 我们的问题是:如何在不需要修改其参数的情况下,引导 \mathcal{M}表现得像一个已经被调优过的模型?
  • 我们假设存在一个小型的预训练模型\mathcal{M}^-,我们将其直接微调,得到\mathcal{M}^+
    • 注意,\mathcal{M}^- 不必与 \mathcal{M}属于同一个模型家族;我们只要求它们共享同一个词表。
    • Proxy-tuning 的运作方式是:在大模型\mathcal{M}的输出分布上,为每个 token 加上一个 logit 偏移量,这个偏移量由 \mathcal{M}^+\mathcal{M}^- 的 logits 差值决定。

3 实验结果 

  • 指令微调(Instruction-tuning)

    • 目标:让大模型(如 LLAMA2-13B, 70B)具备 LLAMA2-7B-Chat 那样的指令跟随能力。

    • 效果:

      • Proxy-tuning 缩小了 LLAMA2-13B 与其 Chat 版之间 91% 的性能差距

      • 在 70B 上缩小了 88% 的差距;

      • 某些任务中甚至 超越了直接微调模型的效果(尤其是知识密集型任务),说明 proxy-tuning 保留了更多原始知识。

  • 领域适应(Domain Adaptation)

    • 使用 CODELLAMA-7B 引导 LLAMA2-13B 向编程任务迁移;

    • 在代码基准测试中,提升了 17–32% 的准确率

  • 任务微调(Task Finetuning)

    • 应用于问答、数学推理等;

    • Proxy-tuned LLAMA2-70B 比原始 70B 提升了 31%

    • 同时也超过了微调的 7B 模型 9%,说明结合大模型的知识和小模型的专长是有效的。

http://www.lryc.cn/news/597838.html

相关文章:

  • HDFS写性能优化技巧详解:从理论到实践
  • 1688 商品数据采集的应用行业与接入方式
  • Linux运维新手的修炼手扎之第24天
  • 本地运行C++版StableDiffusion!开源应用StableVerce发布
  • Java并发编程:锁机制
  • C++(面向对象封装、继承、多态)
  • 深度图像滤波
  • UI测试平台TestComplete:高效覆盖风险,加速持续交付
  • 基于python的微博评论和博文文本分析,包括LDA+聚类+词频分析+lstm热度预测,数据量10000条
  • Ubuntu22.04.5 LTS安装与使用Docker
  • Android Camera openCamera
  • 水泥厂码垛环节的协议转换实践:从Modbus TCP到DeviceNet
  • 浙大Fast Lab:融合3D激光雷达与强化学习的「端到端导航」,让无人机“飞”在点云上!
  • 快手DHPS:国内首个实现基于RDMA 通信的可负载均衡高性能服务架构!
  • 基于Springboot的中药商城管理系统/基于javaweb的中药材销售系统
  • Https以及CA证书
  • 代码随想录算法训练营第二十九天
  • 反向传播及优化器
  • 软硬件协同仿真和验证的标准接口协议SCE-MI简介
  • Spring-IoCDI
  • QT的moveToThread 用法
  • 使用Qt下QAudioOutput播放声音
  • Qt 常用控件 - 1
  • iview表单验证一直提示为空的几个原因?
  • DDD领域驱动设计C++实现案例:订单管理系统
  • 【读代码】Facebook Denoiser:开源端到端语音降噪系统原理与实战
  • 2025 ACT 汽车功能安全相关PPT分享
  • Linux网络:网络层-IP协议
  • 飞算JavaAI:从“工具革命”到“认知革命”——开发者如何借力AI重构技术竞争力
  • 【已解决】Jetson Orin NX apt更换国内源