当前位置: 首页 > news >正文

LED-Merging: 无需训练的模型合并框架,兼顾LLM安全和性能!!

摘要:对预训练大型语言模型(LLMs)进行微调以适应特定任务,会带来巨大的计算和数据成本。虽然模型合并提供了一种无需训练的解决方案,用于整合多个特定任务的模型,但现有方法存在安全性与效用性之间的冲突,即增强通用能力会降低安全防护。我们发现了两个根本原因:由于简单的基于参数大小的选择,导致神经元误识别,以及在合并过程中不同任务的神经元相互干扰。为了解决这些挑战,我们提出了LEDMerging,这是一个三阶段框架,通过基于梯度的归因来定位特定任务的神经元,通过多模型重要性融合动态选择关键神经元,并通过参数隔离来分离冲突的更新。在Llama-3-8B、Mistral-7B和Llama2-13B上的广泛实验表明,LEDMerging降低了有害响应率(例如,在HarmBench上Llama-3-8BInstruct降低了31.4%),同时保持了95%的效用性能(例如,在GSM8K上准确率为52.39%)。LEDMerging解决了安全性与效用性之间的冲突,并为构建可靠的多任务LLMs提供了一种轻量级、无需训练的范式。

一、背景动机

论文题目:LED-Merging: Mitigating Safety-Utility Conflicts in Model Merging with Location-Election-Disjoint

论文地址:https://arxiv.org/pdf/2502.16770

现有的模型合并方法存在安全性和功能性之间的冲突,即在提升模型的通用能力(如数学推理)时,可能会降低模型的安全保障能力。将安全对齐和数学特定的微调模型合并后,可能会得到一个在数学方面表现出色但安全性降低的模型。这种冲突的根源在于现有方法在选择神经元时存在缺陷,以及在合并过程中不同任务的神经元之间存在干扰。

基于上述问题,文章提出了LEDMerging,这是一个三阶段框架,通过基于梯度的归因来定位特定任务的神经元,通过多模型重要性融合动态选择关键神经元,并通过参数隔离来分离冲突的更新。

二、核心贡献

  • 提出LED-Merging框架:LED-Merging 是一个三阶段的框架,包括定位(Location)、选举(Election)和分离(Disjoint)。该框架通过梯度归因来定位任务特定的神经元,通过多模型重要性融合动态选举关键神经元,并通过参数隔离来分离冲突的更新,从而解决了神经元误识别和干扰的问题。
  • 无需训练的合并方法:LED-Merging无需对合并后的模型进行额外的训练,就能够缓解安全性和功能性之间的冲突,这在隐私敏感或资源受限的场景中具有重要意义。

三、实现方法

  • 定位(Location):通过计算每个神经元的重要性分数来识别基础模型和微调模型中的关键神经元。使用梯度归因分数来避免神经元误识别,选择重要性分数最高的神经元作为关键神经元子集。

  • 选举(Election):基于基础模型和微调模型的重要性分数,动态选择在两个模型中都具有高分数的神经元作为任务向量中的关键神经元。这确保了安全性和功能性在合并过程中的平衡表示。

  • 分离(Disjoint):通过集合差操作隔离冲突的权重更新,防止安全性和任务特定神经元之间的干扰,避免跨任务干扰。

  • 合并:最终将经过定位、选举和分离处理后的任务向量合并到基础模型中,形成合并后的模型。

四、实验结论

  • 安全性提升:LED-Merging在多个安全基准测试中表现出色,显著降低了有害响应率,例如在HarmBench上,与单独的代码模型相比,LED-Merging将Llama3-8B的有害响应率降低了75.9%。
  • 功能性保持:在数学推理和代码生成等任务上,LED-Merging能够保持与专门模型相当的功能性性能。例如,在GSM8K上,LED-Merging保持了52.39%的准确率,与Ties-Merging相当,远高于Task Arithmetic。

  • 跨架构鲁棒性:LED-Merging在不同模型架构(如Llama-2、Llama-3和Mistral)上均表现出一致的有效性,证明了其与不同架构设计的兼容性。
  • 模型规模无关性:LED-Merging在不同规模的模型(从7B到13B参数)上均表现出稳定的性能,证明了其对模型规模的鲁棒性。

五、总结

文章提出了一种名为LED-Merging的模型合并框架,通过定位、选举和分离三个阶段,有效地解决了模型合并过程中出现的安全性和功能性之间的冲突问题。该方法无需额外训练,具有跨架构鲁棒性和模型规模无关性,能够在保持模型功能性的同时显著提升模型的安全性。

http://www.lryc.cn/news/574027.html

相关文章:

  • Spring AI 项目实战(十二):Spring Boot +AI + DeepSeek + 百度OCR 公司发票智能处理系统的技术实践(附完整源码)
  • Maven 多模块项目调试与问题排查总结
  • 2、结合STM32CubeMX学习FreeRTOS实时操作系统——任务
  • 半导体行业中的专用标准产品ASSP是什么?
  • 探秘Flink维表:从源码到运行时的深度解析
  • Java面试复习指南:并发编程、JVM、Spring框架、数据结构与算法、Java 8新特性
  • 人机融合智能 | 人智交互的神经人因学方法
  • 【ARM 嵌入式 编译系列 7.5 -- GCC 打印链接脚本各段使用信息】
  • Java面试复习:基础、并发、JVM及框架核心考点解析
  • AI辅助编程工具技术评估(2025年):CodeBuddy在开发者生态中的差异化优势分析
  • 【达梦数据库】忘记SYSDBA密码处理方法-已适配
  • 图像处理基础篇
  • 麒麟系统上设置Firefox自动化测试环境:指定Marionette端口号
  • 纯血HarmonyOS5 打造小游戏实践:扫雷(附源文件)
  • 电脑的虚拟内存对性能影响大吗
  • 深入理解JavaScript设计模式之迭代器模式
  • Docker部署prometheus+grafana+...
  • 【论文阅读35】-PINN review(2021)
  • 华为云 Flexus+DeepSeek 征文|增值税发票智能提取小工具:基于大模型的自动化信息解析实践
  • 虚拟 DOM 与 Diff 算法:现代前端框架的核心机制
  • [3-01-02].第15节:调优工具 - 查看 SQL 执行成本
  • 编程捏脸系统:从美术资源到实时变形的深度实现
  • 系统规划与管理师(第2版)第9章思维导图发布
  • STM32HAL库 -- 9.IIC通信 软件IIC与硬件IIC驱动0.96寸OLED屏幕
  • 【Linux指南】文件管理高级操作(复制、移动、查找)
  • GO 语言学习 之 代码风格
  • 时序数据库IoTDB数据导入与查询功能详解
  • 「ECG信号处理——(18)基于时空特征的心率变异性分析」2025年6月23日
  • IDEA中如何为 Spring Boot 项目添加 VM 参数?
  • 微服务架构下的分布式事务管理