多模态融合(Multimodal Fusion)
多模态融合(Multimodal Fusion)是指在处理多种模态(如图像、文本、语音、传感器数据等)数据时,将它们的信息进行整合的过程。根据融合时机、结构和方式的不同,多模态融合可以分为以下几类:
🔵 一、按融合时机分类
1. 早期融合(Early Fusion / Feature-level Fusion)
- 方法:将不同模态的原始特征(如图像CNN特征、文本embedding)在模型输入前进行拼接。
- 优点:能保留完整模态信息,有利于学习跨模态相关性。
- 缺点:模态间维度差异大时对齐困难,受噪声影响大。
- 应用:多模态情感分析、图文检索、视频描述。
2. 中期融合(Intermediate Fusion / Joint Fusion)
-
方法:将各模态特征分别编码后,使用注意力机制、共享空间映射或图神经网络等手段融合。
-
代表方法:
- Cross-modal Attention
- Transformer-based 融合(如 ViLBERT、UNITER)
- 模态对齐:MISA、MMBT
-
优点:可以学习模态间的复杂交互,性能更强。
-
缺点:结构复杂,训练代价高。
-
应用:视觉问答(VQA)、多模态情感分析、对话系统。
3. 晚期融合(Late Fusion / Decision-level Fusion)
- 方法:分别对每个模态进行独立分类预测,最后融合决策(如加权平均、投票机制)。
- 优点:训练简单,模块解耦。
- 缺点:不能捕捉模态间的深层关系。
- 应用:医疗诊断、机器人传感融合。
🔵 二、按结构方式分类
1. 简单拼接(Concatenation)
- 对不同模态特征直接拼接后输入下游模型。
- 示例:
f_fused = [f_image ; f_text]
2. 加权融合(Weighted Fusion)
- 为不同模态分配可学习的权重。
- 示例:
f_fused = α * f_image + β * f_text
3. 注意力机制(Attention Fusion)
- 利用注意力计算不同模态的重要性。
- 类型包括:Self-Attention(如Transformer)、Cross-Attention、Co-attention(如BAN、MCAN)
4. 张量融合(Tensor Fusion / Bilinear Pooling)
- 利用张量运算捕捉模态间的高阶关系。
- 典型模型:Tensor Fusion Network (TFN)、Multimodal Compact Bilinear Pooling (MCB)
5. 图神经网络融合(Graph-based Fusion)
- 构造模态图,使用 GCN/GAT 捕捉模态间结构关系。
- 示例:MM-GNN、MV-GCN
6. 模态门控(Modality Gating)/ Dropout
- 学习模态的重要性,或在训练阶段随机屏蔽模态以增强鲁棒性。
- 示例:MISA 模型中的模态特异性建模与融合。
🔵 三、高级融合策略
✅ 可分离模态融合(Disentangled Fusion)
- 对模态表示进行共享/特有分离。
- 示例:将模态向量分为“通用情感表示”和“模态特有表示”,再融合。
✅ 动态融合(Dynamic Fusion)
- 输入不同样本时动态调整模态融合方式(如动态门控)。
✅ 对比学习辅助融合
- 利用模态间对比损失增强模态表示的判别性和对齐能力。
🔶 举例:多模态情感分析中常见组合
- 文本 + 语音:BERT + LSTM
- 图像 + 文本:ResNet + BERT + Attention
- 文本 + 语音 + 视频:TFN, LMF(低秩张量融合),MISA,MAG-BERT