当前位置: 首页 > news >正文

多模态Embedding技术

SPHINX: 权重、任务与视觉嵌入的联合混合

论文标题:SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-Modal Large Language Models
核心问题:传统多模态模型在通用性和细粒度理解之间存在矛盾
技术方案

(1)三重混合机制
  • 权重混合
    • 融合真实数据模型权重(WrealW_{\text{real}}Wreal)与合成数据权重(WsynW_{\text{syn}}Wsyn):
      Wfinal=αWreal+(1−α)WsynW_{\text{final}} = \alpha W_{\text{real}} + (1-\alpha) W_{\text{syn}}Wfinal=αWreal+(1α)Wsyn
    • α\alphaα 动态调整,合成数据增强少样本场景泛化能力
  • 视觉嵌入混合
    • 并行使用CNN(ResNet-50)和ViT(ViT-L/16)提取特征:
      • CNN特征:捕捉局部纹理(如物体边缘)
      • ViT特征:建模全局语义(如场景布局)
    • 特征拼接公式:Vfused=[VCNN;VViT]V_{\text{fused}} = [V_{\text{CNN}}; V_{\text{ViT}}]Vfused=[VCNN;VViT]
  • 任务混合
    • 同时优化4类任务损失函数:
      Ltotal=λ1LVQA+λ2Lregion+λ3Ldoc+λ4Lpose \mathcal{L}_{\text{total}} = \lambda_1 \mathcal{L}_{\text{VQA}} + \lambda_2 \mathcal{L}_{\text{region}} + \lambda_3 \mathcal{L}_{\text{doc}} + \lambda_4 \mathcal{L}_{\text{pose}} Ltotal=λ1LVQA+λ2Lregion+λ3Ldoc+λ4Lpose
      其中区域理解任务(Lregion\mathcal{L}_{\text{region}}Lregion)引入坐标回归损失
(2)高分辨率处理创新
  • 子图像分解:将4K图像分割为16个768×768子图
  • 特征重组:使用空间注意力机制融合子图特征
    Aij=softmax(QiKjT/d)A_{ij} = \text{softmax}(Q_iK_j^T/\sqrt{d})Aij=softmax(QiKjT/d)
    QiQ_iQi为第i子图查询向量,KjK_jKj为第j子图键向量

实验效果

测试集基线模型SPHINX提升
MM-Vet52.1%56.5%+4.4%
MMMU(理科)48.3%51.7%+3.4%
POPE(幻觉率)18.2%6.6%-11.6%

创新实质:首次实现模型权重、视觉特征、多任务的端到端联合优化,突破单一模态表示瓶颈。

视觉语言模型水印技术

论文标题:Watermarking Vision-Language Pre-trained Models for Multi-Modal Embedding as a Service
核心问题:商业化多模态API面临模型盗用风险
技术方案

(1)嵌入式正交变换
  • 水印注入公式:
    Ew=E⋅R+bE_{\text{w}} = E \cdot R + bEw=ER+b
    • EEE:原始嵌入向量
    • RRR:随机正交矩阵(RTR=IR^TR=IRTR=I
    • bbb:密钥偏置向量
  • 无损性证明:通过约束 ∣∣R∣∣2=1||R||_2=1∣∣R2=1 保证嵌入空间拓扑不变
(2)双重验证机制
  • 后门触发器响应
    • 设计特定输入组合(如"blue dog + red sky")
    • 验证输出向量与密钥的余弦相似度:sim(Ewtrigger,b)>τ\text{sim}(E_{\text{w}}^{\text{trigger}}, b) > \tausim(Ewtrigger,b)>τ
  • 分布验证
    • 统计1000个正常输出的均值μ\muμ和方差σ\sigmaσ
    • 构建假设检验:H0:μtest=μrefH_0: \mu_{\text{test}} = \mu_{\text{ref}}H0:μtest=μref

抗攻击测试

攻击类型检测准确率误报率
模型提取攻击98.7%1.2%
相似度不变攻击93.5%3.1%
对抗样本攻击89.6%5.4%

创新实质:首次实现无需修改模型参数的水印方案,解决多模态服务版权保护的关键难题。

视觉表:超越嵌入的推理新范式

论文标题:Beyond Embeddings: The Promise of Visual Table in Visual Reasoning
核心问题:向量嵌入缺乏可解释性和因果推理能力
技术方案

(1)视觉表生成框架
  • 层级结构
    {"scene": "kitchen","objects": [{"id": 0, "name": "apple", "attributes": ["red", "sliced"]},{"id": 1, "name": "knife", "relations": ["cutting(0)"]}]
    }
    
  • 生成器架构
    1. DETR检测物体 → 2. CLIP提取属性 → 3. LSTM生成关系描述
(2)可编辑推理机制
  • 人类干预接口
    • 修改错误描述(如将"cutting(0)“改为"holding(0)”)
  • 因果推理模块
    if "knife" in table and "apple" in table:if relation_exists("cutting", knife, apple):action = "prepare food"
    

性能对比

任务类型传统嵌入模型视觉表模型提升
MMVP(物理推理)41.2%56.6%+15.4%
GQA(关系问答)62.1%67.5%+5.4%
编辑成功率-89.3%-

创新实质:开创结构化文本表示替代向量嵌入,实现人类可理解的视觉推理路径。

维度SPHINX水印模型视觉表
技术目标多模态表示能力增强模型版权保护可解释推理
创新点动态权重融合正交变换水印结构化文本表示
计算开销+22% FLOPs<1% 额外开销-15% 推理延迟
适用场景通用多模态理解商业API服务医疗/科学因果推理
http://www.lryc.cn/news/596854.html

相关文章:

  • 视觉BPE统一多模态理解-北大
  • 动态路由协议基础:从原理到应用场景全解析
  • 使用LLaMA-Factory对大模型进行微调
  • 希尔排序cc
  • js面试题 高频(1-11题)
  • 初识opencv02——图像预处理1
  • 论文笔记:On the Biology of a Large Language Model
  • 如何使用内部逻辑分析仪来验证通用边缘图像处理应用程序
  • 渗透测试实战 | docker复杂环境下的内网打点
  • 【图像处理基石】如何实现一个车辆检测算法?
  • opencv学习(图像处理)
  • Go 语言学习之 reflect
  • Spring--事务传播行为(REQUIRED / REQUIRES_NEW / NESTED)
  • 【图像处理基石】如何对遥感图像进行目标检测?
  • 【Linux | 网络】应用层(HTTPS)
  • 【数据结构初阶】--树和二叉树先导篇
  • 床上肢体康复机器人的机械结构设计cad【7张】三维图+设计说明书
  • #Linux内存管理# 在一个播放系统中同时打开几十个不同的高清视频文件,发现播放有些卡顿,打开视频文件是用mmap函数,请简单分析原因。
  • GEMINUS 和 Move to Understand a 3D Scene
  • 基于 XGBoost 与 SHAP 的医疗自动化办公与可视化系统(下)
  • 【计算机三级网络】——选择题高频考点(第一篇)
  • SQL基础⑧ | 表格篇
  • Python设计模式 - 桥接模式
  • 腾讯iOA:企业软件合规与安全的免费守护者
  • 炬森精密:缓冲滑轨的创新力量,重塑家居静音与安全新体验
  • LeetCode二叉树的公共祖先
  • 亚远景-传统功能安全VS AI安全:ISO 8800填补的标准空白与实施难点
  • 漏洞生命周期管理:从发现到防护的全流程方案
  • 基于Python(Django)+MongoDB实现的(Web)新闻采集和订阅系统
  • #C语言——学习攻略:操作符的探索(二)