当前位置：首页 > news >正文

论文阅读 Multi-view Classification Using Hybrid Fusion and Mutual Distillation

news 2025/7/13 11:35:35

Multi-view Classification Using Hybrid Fusion and Mutual Distillation

Intro

多视角问题可以分为两类：

Structured。固定视角，或预先定义的视角的问题。
unstructured。

本文的三大contributions：

引入了混合的多视角融合策略。
使用了互蒸馏策略。具体而言，对多视角融合预测，与单视角预测均值，采用distillation loss。
证实了在多种多视角任务当中的有效性。

Related Work

Fusion策略分类。

在这里插入图片描述

Early Fusion：在low-level对feature进行融合，之后的训练过程与单视角情况一致。
缺点：low-level feature没经过网络的深层次处理，过早的融合特征可能会将一些task-irrelevant features融入进去。
Late Fusion：先利用某些网络（如CNN）独立从input中学习feature，然后对特征进行融合。
比如：简单的串接feature，然后再对融合后的特征做池化。
Score Fusion：极端的late fusion。每个单视角分别预测，然后只融合最后的预测vector（预测分数）。

本文采用 Hybrid 策略：结合了score fusion和score fusion。
本文引入了多视角预测与score-fused的单视角预测（具体而言是，求所有单个视角预测分数的均值）的互蒸馏。

Method

整体Pipeline如下：
在这里插入图片描述

算法流程：

$I_1$ 为第一个视角的输入样本。每个视角的输入分别送入CNN中，得到feature：
- $\mathcal{C}(I) \in \mathbb{R}^{h \times w \times c}$ ：CNN输出特征。维度分别为高，宽，通道数。
将 $\mathcal{C}(I)$ 转为Token形式，以便之后送入Transformer：首先将空间维度 $(h, w)$ 拉成一维 $S = h w$ ；然后将其encode成token形式：
$\begin{equation} \mathcal{E}\left(\boldsymbol{I}\right)=\mathcal{C}\left(\boldsymbol{I}\right)\mathbf{E}+\mathbf{E}_{\mathbf{pos}} \end{equation}$
- $\mathbf{E} \in \mathbb{R}^{c \times d}$ ：投影矩阵。
- $\mathbf{E}_\textbf{pos}$ ：可学习的positional encoding。
- 最后将Eq1结果串接一个 $x_\textbf{class} \in \mathbb{R}^{1 \times d}$
  $\mathcal{E}\left(\boldsymbol{I}\right) \in \mathbb{R}^{S \times d}$ ，相当于长度为S的序列，每个token维度为d。
将 $\mathcal{E}\left(\boldsymbol{I}\right)$ 送入Transformer中。其中单个视角分别送入各自的Transformer，输出单一视角预测；多个视角特征融合，送入一个Transformer，输出多视角预测。N个视角的输入图像，对应N+1个Transformer。
- 单视角预测：
  $\begin{equation} z=\mathcal{T}\left(\left[x_{\mathbf{class}};\mathcal{E}\left(\boldsymbol{I}\right)\right]\right) \end{equation}$
  $\mathcal{T}$ 表示Transformer
- 多视角预测：
  $\begin{equation} \boldsymbol{{z}^{\prime}}=\mathcal{T}\left(\left[\boldsymbol{x}_{\mathbf{class}};\mathcal{E}^{\prime}\left(\boldsymbol{I}_{1}\right);\mathcal{E}^{\prime}\left(\boldsymbol{I}_{2}\right);...;\mathcal{E}^{\prime}\left(\boldsymbol{I}_{N}\right)\right]\right) \end{equation}$
  其中 $\boldsymbol{z}, \boldsymbol{z}^\prime \in \mathbb{R}^{1 \times k}$ 为prediction vector。 $k$ 为分类个数。
使用联合损失函数：
$\begin{equation} \mathcal{L}=\mathcal{L}_m+\mathcal{L}_s+\lambda\mathcal{L}_{md} \end{equation}$
分为三大部分：
1. $\mathcal{L}_m$ ：多视角预测损失。为多视角融合特征的预测结果，与ground-truth label的损失。
2. $\mathcal{L}_s$ ：单视角平均预测损失：所有单视角预测损失的平均值（score-fused）。
3. $\mathcal{L}_{md}$ ：互蒸馏损失。
$\begin{align} & \mathcal{L}_{md}\left(\{\boldsymbol{z}_1,...,\boldsymbol{z}_N\},\boldsymbol{z}^{\prime};\tau\right) \notag \\ = & \frac{1}{2}\tau^2 \left(\mathcal{L}_{kd}\left(\hat{\bar{\boldsymbol{z}}},\boldsymbol{z^{\prime}};\tau\right)+\mathcal{L}_{kd}\left(\hat{\boldsymbol{z}}^{\prime},\bar{\boldsymbol{z}};\tau\right)\right) \end{align}$
- $\bold{\hat{}} \quad $：表示不进行反向传播的tensor（gradient-detached copy）。
- $\bar{\boldsymbol{z}}=\frac{1}{N}\sum_{i=1}^N\boldsymbol{z}_i$ 。N表示N个视角。