当前位置: 首页 > news >正文

ALBEF的动量蒸馏(Momentum distillation)

简单记录学习~

一、‌传统 ITC Loss 的局限性

  1. One-Hot Label 的缺陷

    • 传统对比学习依赖严格对齐的图文对,通过交叉熵损失(如 softmax 归一化的相似度矩阵)强制模型将匹配的图文对相似度拉高,非匹配对相似度压低‌11。
    • 但 one-hot 标签仅允许当前批次中的正样本参与学习,导致负样本覆盖范围有限,且难以处理噪声数据。
  2. 负样本不足问题

    • 若仅依赖当前批次的负样本,模型容易过拟合到局部特征,无法充分挖掘跨模态语义的多样性关联‌。

二、‌动量编码器与队列机制的协同优化

  1. 动量编码器的稳定特征生成

    • 动量模型(Momentum Encoder)‌:参数通过指数移动平均(EMA)更新,滞后于主模型(当前编码器),其输出的 CLS 特征更稳定且噪声更少‌。
    • 队列维护(Queue)‌:动态存储历史批次中动量模型生成的图像和文本特征,扩展负样本数量(如数千至数万级)‌。
  2. 双重相似度计算

    • 主模型计算‌:当前批次图像和文本的 CLS 特征与队列中的历史特征计算相似度矩阵,用于传统的交叉熵损失。
    • 动量模型计算‌:当前批次经过动量编码器处理后,与队列特征再次计算相似度,生成更稳定的伪目标分布。
    • 优化目标‌:通过 KL 散度损失迫使主模型的相似度分布逼近动量模型的分布,提升鲁棒性‌。

三、‌机制的核心优势

  1. 扩展负样本范围

    • 队列机制引入大量历史特征作为负样本,避免模型仅依赖当前批次的局部数据,增强跨模态语义的泛化能力‌。
  2. 噪声数据鲁棒性

    • 动量模型生成的伪目标分布具有滞后性和平滑性,能过滤噪声数据中的错误对齐信号,提供更可靠的监督信息‌。
  3. 语义关联的多样性

    • 模型通过动量模型发现潜在的正样本关联(如相似但非严格匹配的图文对),促使文本能描述更丰富的图像特征,图像也能对应更多样的文本表达‌。

四、‌与传统 ITC Loss 的对比

维度传统 ITC Loss结合伪目标的 ITC Loss
负样本来源仅当前批次当前批次 + 动态维护的历史队列
噪声鲁棒性低(直接依赖原始标签)高(动量模型过滤噪声)
语义多样性有限(依赖人工对齐)增强(挖掘潜在跨模态关联)
监督信号稳定性不稳定(受当前参数波动影响)稳定(动量模型提供滞后性特征)

通过‌动量编码器+队列机制‌,模型不仅扩展了负样本范围,还利用滞后稳定的伪目标分布捕捉潜在的正样本关联,从而弥补传统 ITC Loss 的缺陷,实现更鲁棒、更丰富的跨模态对齐‌。这一机制是多模态预训练(如 ALBEF、BLIP)的核心创新之一。

http://www.lryc.cn/news/547419.html

相关文章:

  • 浏览器WEB播放RTSP
  • 将PDF转为Word的在线工具
  • 03. 对象的创建,存储和访问原理
  • 机器学习-GBDT算法
  • redis基础结构
  • 【keil】一种将STM32的armcc例程转换为armclang的方式
  • 计算机视觉算法实战——表面缺陷检测(表面缺陷检测)
  • window下的docker内使用gpu
  • Modbus协议(TCP)
  • 虚拟系统配置实验报告
  • Agentic系统:负载均衡与Redis缓存优化
  • 28-文本左右对齐
  • 建筑兔零基础自学python记录39|实战词云可视化项目——章节分布10(上)
  • Impacket工具中的横向渗透利器及其使用场景对比详解
  • 基于java,SpringBoot和Vue的医院药房药品管理系统设计
  • MQ保证消息的顺序性
  • cmake、CMakeLists.txt、make、ninja
  • 数据结构与算法 计算机组成 八股
  • RoboBrain:从抽象到具体的机器人操作统一大脑模型
  • 算法 之 前缀和 与 滑动窗口 与 背包问题 的差异(子数组之和为k问题)
  • 微电网协调控制器ACCU-100 分布式光伏 光储充一本化
  • IDEA入门及常用快捷键
  • electron打包结构了解
  • 03.06 QT
  • Python中的常用库
  • 马尔科夫不等式和切比雪夫不等式
  • 护照阅读器在汽车客运站流程中的应用
  • CentOS 7 安装Nginx-1.26.3
  • Unity 使用NGUI制作无限滑动列表
  • linux中断调用流程(arm)