当前位置: 首页 > news >正文

LM-Cocktail:一种创新的模型合并方法打破预训练语言模型微调后的性能局限,实现语言模型在一般任务与特定领域的均衡高性能

LM-Cocktail:一种创新的模型合并方法打破预训练语言模型微调后的性能局限,实现语言模型在一般任务与特定领域的均衡高性能

使语言模型的微调类似于调制一杯精致的鸡尾酒。模型合并可用于提高单个模型的性能。我们发现此方法对于大型语言模型和密集嵌入模型也很有用,并设计了 LM-Cocktail 策略,该策略使用简单的函数计算合并权重来自动合并微调模型和基础模型。LM-Cocktail 可用于提高目标域的性能,而不会降低目标域之外的一般能力。它还可用于生成无需微调的新任务模型。

预训练的语言模型会不断微调,以更好地支持下游应用程序。但是,该操作可能会导致目标域以外的一般任务的性能明显下降。为了克服这个问题,LM-Cocktail它使微调模型在一般情况下保持弹性。该方法以模型合并的形式进行,通过加权平均将微调后的语言模型与预训练好的基础模型或其他领域的对等模型合并。尽管简单,LM-Cocktail却出奇地有效:结果模型能够在一般任务的整个范围内实现强大的经验表现,同时在目标领域保持优越的能力。我们在FLAN、MMLU、MTEB等常用基准上对LLama和BGE模型进行了综合实验,结果验证了本文方法的有效性。

相关论文:LM-Cocktail: Resilient Tuning of Language Models via Model Merging

资料下载:FlagEmbedding专为大语言模型各种检索增强任务设计的向量模型

1.LM-Cocktail:,让预训练语言模型在微调后依然保持广泛任

http://www.lryc.cn/news/392844.html

相关文章:

  • 默认导出(default)和命名导出
  • 开发个人Go-ChatGPT--1 项目介绍
  • 皮卡超级壁纸 | 幸运壁纸幸运壁纸app是一款涵盖了热门影视剧、动漫、风景等等资源的装饰工具,
  • 普通集群与镜像集群配置
  • 2024科技文化节程序设计竞赛
  • 玩转Easysearch语法
  • 【密码学】RSA公钥加密算法
  • 【ARMv8/v9 GIC 系列 5.1 -- GIC GICD_CTRL Enable 1 of N Wakeup Function】
  • C++怎么解决不支持字符串枚举?
  • 中英双语介绍四大会计师事务所(Big Four accounting firms)
  • ubuntu 查看联网配置
  • 【数据分享】全国乡村旅游重点镇(乡)数据(Excel/Shp格式/免费获取)
  • 停车场小程序的设计
  • 绿色金融相关数据合集(2007-2024年 具体看数据类型)
  • 【matlab 项目工期优化】基于NSGA2/3的项目工期多目标优化(时间-成本-质量-安全)
  • Python考前复习
  • 虚拟机交叉编译基于ARM平台的opencv(ffmpeg/x264)
  • react之错误边界
  • openEuler系统之使用Keepalived+Nginx部署高可用Web集群
  • 基于图像处理的滑块验证码匹配技术
  • 【JavaEE精炼宝库】文件操作(1)——基本知识 | 操作文件——打开实用性编程的大门
  • 常用排序算法_06_归并排序
  • 14-8 小型语言模型的兴起
  • 【Linux】:进程创建与终止
  • 横截面交易策略:概念与示例
  • 4.2 投影
  • 23种设计模式之装饰者模式
  • 数据结构--单链表实现
  • 2024攻防演练:亚信安全推出MSS/SaaS短期定制服务
  • 基于java+springboot+vue实现的在线课程管理系统(文末源码+Lw)236