当前位置: 首页 > news >正文

论文略读:REMEDY: RECIPE MERGING DYNAMICS IN LARGE VISION-LANGUAGE MODELS

ICLR 2025

  • 模型合并能够将多个任务特定模型整合成一个统一模型,实现跨任务能力迁移
    • 任务算术(task arithmetic)通过加权任务向量实现知识迁移
    • 后续的 TIES-Merging 和 AdaMerging 又进一步利用模型剪枝与合并系数自适应机制,提升了视觉模型中的多样性与适应性。
  • 但在 LVLM 上的模型合并仍未被充分探索,其面临两大挑战:

    • 模型规模巨大

      • LVLM 通常包含三个模块:视觉编码器(visual encoder)、投影器(projector)、大型语言模型(LLM)。

      • 例如 LLaVA 1.5 包含 3 亿视觉编码器参数和 70 亿或 130 亿 LLM 参数。

      • 在任务特定数据有限(如 ScienceQA 仅有 1696 对图像-问题样本)的情况下,全面微调这些模块代价极高。

      • 因此,寻找高效子模块以进行知识迁移成为关键。

    • 视觉语言任务具有异质性

      •  LVLM 的输入同时包含视觉与语言数据,任务差异可能来自图像模态、语言模态,或两者兼具

      • 如图 1 所示,同一张地球图片在不同任务中可能需要生成不同输出(如识别城市名 vs. 生成图像描述)

      • 在零样本泛化任务中,LVLM 被期望处理新的视觉-语言组合,其挑战远超传统单模态任务的零样本学习

  • ——>为了解决上述挑战,本文提出了REcipe MErging DYnamics(REMEDY),一个针对 LVLM 的模型合并新范式,解决传统视觉模型合并方法的局限性。

    • REMEDY 包括两个核心步骤:

      • Recipe 构建(Recipe Construction)

        • 将模型中的可复用模块(如 projector 与 LLM 的浅层)定义为 recipes

        • 通过在多个 LVLM 上的大量实验,我们发现这些模块:

          • 显著提升了视觉感知能力;

          • 改进了图文交互理解;

          • 并非只是“模仿输出风格”,而是真正增强了任务迁移能力

      • Recipe 合并(Recipe Merging)

        • 在构建完 recipe 后,提出一种模态感知的分配器(modality-aware allocator)

          • 该分配器利用**少量示例(few-shot learning)**判断输入图文与现有 recipe 的相关性;

          • 然后执行一次性权重分配(one-shot weight allocation);

          • 该动态融合机制可适应多模态输入,实现跨任务、跨模态知识的有效整合

http://www.lryc.cn/news/597094.html

相关文章:

  • vue3笔记(2)自用
  • 微软2025教育AI报告:教育群体采用AI的比例显著提升
  • 技术速递|使用 Semantic Kernel 与 A2A 协议构建多智能体解决方案
  • Qt 样式表(QSS):打造个性化界面
  • 【前端】【Vue DevTools】Vue DevTools 进阶:用 Trae / Cursor 替换 VSCode 打开文件(跳转行列无误)
  • 论文略读:Knowledge is a Region in Weight Space for Finetuned Language Models
  • iOS上使用WebRTC推拉流的案例
  • 想曰加密工具好用吗?本地安全、支持多算法的加密方案详解
  • ZLMediaKit流媒体服务器WebRTC页面显示:使用docker部署
  • 基于Matlab传统图像处理技术的车辆车型识别与分类方法研究
  • 【第三章自定义检视面板_创建自定义编辑器_如何创建自定义PropertyDrawer(9/9)】
  • 第六章 W55MH32 UDP Multicast示例
  • 在离线 Ubuntu 22.04机器上运行 ddkj_portainer-cn 镜像 其他相关操作也可以复刻 docker
  • CCD工业相机系统设计——基于FPGA设计
  • 【后端】FastAPI的Pydantic 模型
  • 【Linux-云原生-笔记】keepalived相关
  • 蒙牛社交电商的升级路径研究:基于开源链动2+1模式、AI智能名片与S2B2C商城小程序源码的融合创新
  • 轻量化RTSP视频通路实践:采集即服务、播放即模块的工程解读
  • 【Redis】在Ubentu环境下安装Redis
  • RCE随笔-奇技淫巧(2)
  • 【Linux-云原生-笔记】Haproxy相关
  • ros0基础-day18
  • OCP NIC 3.0 Ethernet的multiroot complex和multi host complex的区别
  • Android多开实现方案深度分析
  • 【硬件】Fan in和Fan out
  • RAG深入理解和简易实现
  • 海信IP501H-IP502h_GK6323处理器-原机安卓9专用-优盘卡刷固件包
  • springcloud环境和工程搭建
  • 中国多媒体与网络教学学报编辑部中国多媒体与网络教学学报杂志社2025年第6期目录
  • 论文略读:Mitigating Catastrophic Forgetting in Language Transfer via Model Merging