当前位置: 首页 > news >正文

论文略读:Mitigating Catastrophic Forgetting in Language Transfer via Model Merging

EMNLP 2025

  • 大型语言模型(LLMs)在诸多任务中展现出了令人瞩目的能力,尤其是在英文上表现尤为出色。
    • 然而,对于一些使用频率较低的语言,模型性能往往显著较差,因此额外的适配工作显得至关重要
  • 不幸的是,大多数语言适配技术往往会带来灾难性遗忘,即模型在学习新语言时会严重丧失原有能力
    • 例如,在英文中学到的数学和编程技能,可能对其他语言中的通用问题求解或推理任务极为有用。
  • 为了缓解这种遗忘现象,研究人员提出了经验重放方法,即在目标语言的训练集中混入部分源语言数据。
    • 然而,经验重放本身仍不足以完全避免遗忘。特别是当源语言数据不可得(如在一些最先进的大模型中),经验重放只能以近似方式实现,从而降低了其效果
  • 论文基于**持续学习(continual learning)**的思想,提出了一种新的语言适配方法:Branch-and-Merge(BaM)
    • BaM 能够将预训练语言模型适配到那些在其原始训练数据中严重低资源的新语言,同时尽可能保留原有已学习的能力
    • 具体而言,BaM 首先将训练数据划分为 N 个数据片段(图 1 中蓝色),然后在每轮中将当前的基础模型分别在 K 个(如图中为两个)数据子集上并行微调(绿色),最后将这些模型进行合并(紫色),得到下一轮迭代的起始模型。
    • 这种做法能显著减少模型整体的权重变动幅度,从而有效降低遗忘,同时又能保留来自并行训练的学习成果。
      • 虽然与标准持续训练相比,目标语言的困惑度(perplexity)可能略有上升,但由于保留了原模型技能,最终在目标语言下游任务上取得了更高的实际性能

  • 论文将 BaM 应用于将 MISTRAL-7B和 LLAMA-3-8B从以英文为主的模型适配到两种新语言上:
    • 一种与英文共享字母系统的语言(德语);

    • 一种不共享字母系统的语言(保加利亚语);

  • 实验表明,BaM 能在目标语言和源语言上都显著提升性能,且不引入额外的数据或计算开销。

    • 例如,在指令微调任务中,使用 BaM 训练的 LLAMA-3-8B(保加利亚语)不仅在保加利亚语上超越了 LLAMA-3-8B-Instruct 10.9%,甚至在英文任务上也提升了 1.3%,这得益于 BaM 所带来的幅度更小但更有效的权重变化

2 模型合并

  • 论文实验了以下几种方法:
  • LINEAR 合并(Wortsman 等,2022)

  • SLERP 合并(Goddard 等,2024;Shoemake, 1985)

  • MODEL STOCK 合并(Jang 等,2024)

2.1 LINEAR 合并方法

2.2 SLERP 合并方法

3 使用 Branch-and-Merge 缓解语言迁移中的遗忘、

3.1 直觉(Intuition)

3.2 实现细节

http://www.lryc.cn/news/597064.html

相关文章:

  • 旋变调零技术介绍与方法
  • CVE-2025-32463漏洞:sudo权限提升漏洞全解析
  • 「源力觉醒 创作者计划」深度讲解大模型之在百花齐放的大模型时代看百度文心大模型4.5的能力与未来
  • JS进阶学习
  • 《计算机网络》实验报告七 HTTP协议分析与测量
  • spring-cloud概述
  • 计算机网络学习----域名解析
  • 开源 Arkts 鸿蒙应用 开发(十)通讯--Http
  • WebGIS 中常用公共插件
  • Zookeeper学习专栏(八):使用高级客户端库Apache Curator
  • HakcMyVM-Luz
  • etcd安装使用
  • 百度文心大模型ERNIE全面解析
  • sqli-labs通关笔记-第15关 POST字符型盲注(单引号闭合 手工注入+脚本注入两种方法)
  • [强网杯 2019]高明的黑客
  • Upload-Labs通关全攻略详细版
  • 百度大涨,AIGC视频生成模型蒸汽机将会给百度带来什么?
  • 2025暑期—05神经网络-卷积神经网络
  • Qt内存管理的核心点
  • sass中@mixin与 @include
  • 云效CICD教程(PHP项目)
  • go语言数据结构与排序算法
  • Http证书体系及证书加密流程(通信流程)
  • Web开发基础与RESTful API设计实践指南
  • kafka动态配置详解
  • 基于Kafka实现动态监听topic功能
  • 变频器实习DAY12
  • (一)从零搭建unity3d机械臂仿真-unity3d导入urdf模型
  • Kafka——Kafka中的位移提交
  • git 修改最近一次 commit 信息