当前位置：首页 > news >正文

Can I Trust Your Answer? Visually Grounded Video Question Answering

news 2025/7/14 16:13:18

在这里插入图片描述
标题：我能相信你的答案吗？基于视觉的视频问答
原文链接：https://openaccess.thecvf.com/content/CVPR2024/papers/Xiao_Can_I_Trust_Your_Answer_Visually_Grounded_Video_Question_Answering_CVPR_2024_paper.pdf
附录链接：https://openaccess.thecvf.com/content/CVPR2024/supplemental/Xiao_Can_I_Trust_CVPR_2024_supplemental.pdf
源码链接：https://github.com/doc-doc/NExT-GQA

在这里插入图片描述

Q1. 婴儿为什么从一堆礼物中拿起一个并走向沙发？
Q2. 视频结尾时沙发附近的地上为什么会有撕碎的包装纸？
（地面实况）拆开它。
（预测）男人撕碎了它。
（地面实况）拆开它。
（预测）男孩把它扔在那里。

图1. 上：VQA模型（BlindQA、SigFQA和SoTA）在NExT-QA[55]上的真实预测。所有模型都正确回答了Q1，但错误回答了Q2，尽管这两个问题共享视觉证据（男孩拆开礼物并扔掉包装纸）。下：模型预测的重叠情况。BlindQA：仅用问答文本微调的纯语言模型（即RoBERTa[36]）。SigFQA：仅使用视频中心帧的图像-文本模型（即CLIP[44]）。SoTA：使用32帧视频帧的Temp[CLIP]（5节）模型。分析表明，这些模型可能不是从因果视觉内容中学习，而更可能是从语言捷径和无关的视觉语境中学习。

摘要

我们针对利用预训练技术进行视频-语言理解的新兴趋势，研究了基于视觉的视频问答（VideoQA）。具体而言，通过迫使视觉-语言模型（VLMs）回答问题并同时提供视觉证据，我们旨在确定此类技术的预测在多大程度上真正基于相关的视频内容。为此，我们构建了NExT-GQA——作为NExT-QA的扩展，它带有10.5K个与原始问答对相关的时间定位（或位置）标签。利用NExT-GQA，我们仔细研究了一系列最先进的视觉-语言模型。通过事后注意力分析，我们发现这些模型尽管在问答性能上表现出色，但在为答案提供视觉依据方面却极为薄弱。这暴露了当前视觉-语言模型在做出可靠预测方面的局限性。作为一种补救措施，我们进一步探索并提出了一种通过高斯掩码优化和跨模态学习实现的定位问答方法。在不同骨干模型上的实验表明，这种定位机制同时改善了定位性能和问答性能。通过这些努力，我们旨在推动视频问答系统中更可信的视觉-语言模型的发展。我们的数据集和代码可在https://github.com/doc-doc/NExT-GQA获取。

1. 引言

视频问答（VideoQA）近年来已成为开发视觉-语言模型（VLMs）的重要测试平台，特别是那些在大规模多模态网络语料上预训练的基础视觉-语言模型[1,11,24,29,51,61,63,66]。尽管在问答性能方面取得了显著进步，但一个根本性的问题随之产生——这些技术的答案在多大程度上基于相关的视觉内容？或者，它们是否依赖于语言捷径[20,34,42,52,62,64,69,70,73]或通过跨模态预训练捕获的虚假视觉-语言关联[45,60]？

例如，图1（上）显示，现有的视觉-语言模型倾向于用带有语言偏见的预测来回答问题，例如“拆开（问题1：礼物）”和“撕碎（问题2：纸）”。图1（下）显示，最先进的视觉-语言模型的整体预测与纯语言模型（BlindQA）的预测有62.5%的重叠。事实上，BlindQA与最先进的视觉-语言模型的正确预测有66%的重叠，错误预测有79%的重叠。当向语言模型注入来自单帧的粗略视觉信号时[3,23]，这种重叠会增加；正如我们后续的分析将显示的，该帧通常不在正确答案的关键时刻。

鉴于这些发现，一个自然的问题产生了——当前视觉-语言模型的预测在多大程度上基于视频内容，更确切地说，基于相关部分？为了回答这个问题，我们提出研究基于视觉的视频问答。基于视觉的视频问答要求视觉-语言模型在回答问题的同时，输出支持答案的相关视频时刻。早期的工作已经在全监督下探索了定位问答[25,26]，但我们的目标是视频问答中的视觉可解释性，因此在弱监督下定义了该任务，这在同类研究中尚属首次。

为实现这一目标，我们通过扩展NExT-QA数据集[55]，构建了NExT-GQA（Grounded的缩写）数据集，在验证集和测试集中为问答对添加了10.5K个带有开始和结束时间戳的时间标签。这些标签经过人工标注和检查，是理解问题和确定正确答案的关键。利用NExT-GQA，我们检查了一系列近期性能优异的视觉-语言模型，包括没有预训练的特定任务架构[57]、使用图像-文本或视频-文本数据预训练的模型[11,44]以及使用冻结大型语言模型（LLMs）的模型[62,64]。我们的发现表明，所有这些模型都难以预测基于视觉的答案，尽管它们在问答性能上表现出色。例如，最先进的模型[62]达到了69%的问答准确率，但只有16%的正确预测答案是基于视频的。相比之下，人类在93%的正确回答问题中，有82%是基于视觉的。这种明显的差异凸显了持续研究的必要性。

作为一种开创性的解决方案，我们提出了一种时间定位方法，该方法可以轻松应用于现有的视觉-语言模型，以实现基于视觉的视频问答。具体而言，我们的方法通过在问答和问题-视频（QV）监督下优化轻量级 transformer 层，沿视频的时间维度学习可微分的高斯掩码。在不同问答骨干模型上的实验表明，我们的方法有效地改善了视频定位和问答性能。这种改进在需要视频理解和时间定位的问题子集上尤为显著。

总结我们的贡献：1）我们首次研究了弱监督下的基于视觉的视频问答，并发布了NExT-GQA基准，以促进对更可信的视觉-语言模型的研究；2）我们全面分析了一系列先进的视觉-语言模型，揭示了它们在执行基于视觉的问答方面的局限性；3）我们提出了一种简单而有效的定位机制，该机制不仅增强了现有视觉-语言模型的视觉定位能力，还有助于实现新的最先进的问答性能，例如在NExT-QA测试集上达到73.1%。

2. 相关工作

2.1 基准数据集

全监督下的定位问答已在图像[4,77]和视频[25,26]领域得到研究。然而，近年来，弱监督定位在图像问答[18,19]和视频定位[12,39]中受到越来越多的关注。尽管如此，据我们所知，目前还没有关于弱监督视频问答的研究。此外，现有的监督基准要么偏向于在电视节目中定位字幕（例如TVQA[25]），要么仅限于少数对象（例如VidSTG[72]）。因此，它们并不是理想的视觉证据定位基准。

2.2 技术方法

强大的视频问答方法主要依赖于Transformer[49]和预训练[44]。流行的Transformer架构遵循共享[24,50]、双重[57,58,60,61]或堆叠[11,29,62]实现，预训练则使用图像-文本[24]、视频-文本[29,61,65,66]或两者[11]形式的数据。值得注意的是，所有这些视觉-语言模型都使用强大的语言模型（例如BERT[8]、T5[45]、GPT[2]、LLaMA[48]或它们的后续模型）进行文本编码，并专注于提高问答性能，而忽略了视觉证据的定位。一些最近的工作[5,30-33,43,64]已经开始为视频问答定位关键帧或对象。然而，它们仍然旨在提高问答准确性，因此定位的内容可能不是实际的证据，因为它们没有评估定位性能。对于弱监督视频定位，典型的方法是提取时间提议并根据其与语言查询的相似性对提议进行排序[13,35,39,71]。尽管它们有效，但这些两阶段方法效率低下，并且对于多粒度时间建模而言不是最优的。最近的研究[74,75]指出了端到端高斯掩码学习的优越性。鉴于此，我们设计了一种简单而有效的用于视频问答定位的高斯掩码学习模块。与以前的工作[74,75]设计小型Transformer模型并手工制作负视觉提议用于对比学习不同，我们将高斯掩码学习集成到大型视觉-语言模型中，并通过问答和视频-问题定位优化其参数。

2.3 语言先验

我们的工作还与防止语言先验和其他虚假关联的努力有关。Goyal等人[14]构建了VQAv2，通过将问题与具有相似内容但不同答案的额外图像配对，来防止视频问答中的语言先验。Niu等人[40]和Guo等人[15]通过正则化预测分数来减轻语言先验。Zheng等人[67]通过多粒度视觉-语言预训练开发了X2-VLM，以实现更好的空间定位。这些工作通过收集新数据、设计定制的学习方法或专注于空间定位来阻止图像侧的捷径学习。我们的主要贡献在于定义弱监督视频问答任务，以鼓励更具可解释性和可信的技术。

3. NExT-GQA数据集

3.1 数据集构建与分析

数据来源：我们选择NExT-QA[55]作为我们的数据来源，以增加时间标签。大多数其他视频问答数据集[17,59]不适合，因为它们的视频较短（3-15秒），并且已经围绕相关内容进行了剪辑。NExT-QA有三种不同类型的问题：因果型（“为什么/如何”）、时间型（“之前/何时/之后”）和描述型（“什么/谁/哪里”）。我们排除了描述型问题，因为它们主要与全局视频内容有关（例如，“什么事件？”），或者它们的答案几乎可以在整个视频中找到（例如，“在哪里？”）。此外，我们只标注验证集和测试集，因为我们的目标是弱监督设置。因此，从1570个视频中提取了11378个问答对进行标注。
标签收集：我们邀请本科生进行标注（使用Elan[10]），并在实际标注前，通过我们的演示标注和一些试用示例对他们进行培训，使其遵循特定标准（见附录A.1）。为了保证质量并减少主观性，每个问答对至少由两个人标注。最终的时间标签由对两个可接受的标注进行额外检查和细化确定。整个标注过程由30名标注员进行，历时约2个月。最终，我们收集了10531个有效的时间片段，对应于8911个问答对和1557个视频。详细统计数据如表1所示。
标签分析：图2a（左）显示，大多数片段的持续时间少于15秒，平均持续时间为7秒（表1），与视频长度（约40秒）相比很短。事实上，图2a（右）反映的比例显示，大多数片段占视频长度的比例不到一半（0.5），平均比例仅为0.2（表1）。与ActivityNet-Caption[21]和Charades-STA[12]的0.3相比，这个比例略低。此外，图2b（1）显示片段均匀分布在视频的左、中、右部分。图2b（2）显示近90%的问答对基于单个时间片段。相反，图2b（3）显示每个片段通常对应1或2个问答对（如果两个片段的交并比>0.5，则认为它们是相同的）。为了更好地理解数据集，我们在附录图6中展示了两个示例。

3.2 与现有基准的比较

我们在表2中通过与其他相关基准的比较，突出了NExT-GQA的独特性。
在这里插入图片描述

NExT-GQA与NExT-QA：NExT-QA[55]的目标是预测文本答案。NExT-GQA在两个主要方面有所不同：1）它提供支持答案的视觉证据；2）它通过允许视觉答案扩展了视频问答设置。这满足了更多现实世界的应用，并有助于更好地诊断模型性能。例如，预测错误是因为模型未能定位相关视频内容，还是因为它无法将定位的视频内容转换为文本答案？NExT-GQA也更具挑战性，因为：1）模型需要实现多个目标（即定位和问答）并保持它们的一致性；2）问题集相对更难通过关注未剪辑长视频中的局部视频时刻来回答。这也不同于主要关注剪辑（短）视频理解的主要视频问答基准[17,53,59]。
NExT-GQA与视频定位（VG）基准：视频定位[12,21]旨在找到由陈述句描述的视频时刻。NExT-GQA共享核心挑战，即跨模态对应学习和多粒度时间建模，同时具有一些独特的方面。首先，问题包含需要定位的视觉内容，但在文本中没有明确说明，例如“婴儿摔倒并哭泣”与“婴儿为什么哭？”。为了回答这些问题，模型不仅需要找到描述的视频时刻（例如，“婴儿哭”），还应该能够细化时刻以包含答案（例如，“婴儿摔倒”）。这可能需要时间和因果关系推理。其次，视频背景相对单调，场景变化小。因此，问答对的时间片段通常比视频定位基准中的更细粒度。值得注意的是，NExT-GQA优先考虑找到支持答案的视觉证据。这意味着任何足以说明答案的单个帧或时刻都应被视为有效的定位，而不是检索与查询匹配的所有视频内容。这反映在我们选择预测交并比（IoP）作为评估标准上。也就是说，正确的定位取决于预测的片段是否落入标注的片段中，而不一定是完全匹配。
NExT-GQA与监督基准：全监督基准[25,26]为训练数据提供时间标注；这些标签可以解决问题中的参考歧义，或者通过定位良好的视觉输入提高问答性能。NExT-GQA与之不同，它仅通过问答监督来识别解释答案的视觉证据。值得一提的是，直接将全监督基准应用于弱监督定位并不符合我们的目标，因为这些基准要么偏向于文本定位[25]，要么答案是有限的集合，例如80个对象[72]。此外，我们专注于弱监督时间定位，并将时空定位留待未来探索。我们的考虑是，细粒度的时空定位[72]目前比问答更具挑战性，特别是在弱监督设置[54]中，这会偏离视频问答的主要目标。

4. 视频问答中的弱监督定位

在这里插入图片描述

图3. 堆叠式（a）和双重式（b）视频问答Transformer架构示意图。（c）我们的双重式弱监督定位视频问答示例。注意，堆叠式实现的定位部分是相同的。

4.1 视频问答

我们首先概述视频问答的典型方法，重点介绍基于Transformer的方法，因为它们性能更优越。给定一个视频 $v$ 和一个问题 $q$ ，视频问答的目标是从一组候选答案 $A$ 中预测正确答案 $a^*$ 。根据任务设置， $A$ 可以是每个问题附带的多个选项[55,56]（多选），或者是所有问题的全局答案集[59]（开放式）。值得注意的是，最先进的Transformer方法[11,57,61,62]以统一的形式制定和解决多选问答和开放式问答：
$a∗=arg⁡max⁡a∈AΨ(a∣v,q,A)(1)a^*=\arg\max_{a \in A} \Psi(a | v, q, A) \quad (1)$
其中映射 $Ψ\Psi$ 通常实现为共享[24,50]、堆叠[11,29,62]或双重[44,57,61]Transformer。在这项工作中，我们主要研究堆叠式（图3a）和双重Transformer（图3b）架构的性能，因为它们的性能相对更好。

4.2 弱监督定位视频问答

除了回答问题外，弱监督定位视频问答还要求模型明确估计与问答相关的视频片段作为视觉证据。我们下面介绍三种与模型无关的解决方案来实现这一目标：

事后分析（PH）：直观地，可以通过对时间注意力的事后分析找到相关的时间片段，即识别具有最大注意力值的片段或帧，然后在其周围设置阈值以获得时间间隔。为此，我们使用注意力池化来总结双重架构中时间Transformer的输出。对于堆叠架构，我们直接返回与预测标记对应的平均多头注意力值。
朴素高斯（NG）：事后分析方法旨在分析模型，但不影响其预测。更有利的是，我们建议将视频定位机制明确整合到视频问答中。我们在图4a中说明了该框架，并将公式（1）重新表述为：
$a∗,t∗=arg⁡max⁡a∈AΨ(a∣vt,q,A)Φ(t∣v,q)(2)a^*, t^*=\arg\max_{a \in A} \Psi\left(a | v_{t}, q, A\right) \Phi(t | v, q) \quad (2)$
其中定位模块 $Φ\Phi$ 首先估计由 $t$ 指定的关键时刻，然后问答模块 $Ψ\Psi$ 使用更局部的视频内容 $v_t$ 进行答案预测。为了实现端到端学习， $t$ 通过整个视频序列上的可微分高斯权重表示，即 $\sim N(\mu, \sigma^2)$ ，其中 $μ\mu$ 、 $σ∈[0,1]\sigma \in[0,1]$ 是对应于均值和标准差的两个可学习高斯参数。在推理过程中，通过置信区间 $t=(μ−γσ,μ+γσ)∗dt=(\mu-\gamma \sigma, \mu+\gamma \sigma) * d$ 实现定位，其中 $γ\gamma$ 是控制置信区间宽度的超参数， $d$ 表示视频的持续时间。

图3c显示了这种朴素解决方案的双重Transformer实例。与原始视频问答对应方案（图3b）的不同之处在于高斯掩码预测头，以及高斯加权标记学习和聚合阶段（详见附录A.2）。我们发现这种方法有效地学习并输出定位信息。然而，由于弱问答监督，与事后解决方案相比，改进有限。

NG+：鉴于朴素高斯的结果，我们进一步设计了具有跨模态自监督的辅助目标，以将视频问答目标正则化到更基于视觉的问答。具体而言，对于每个问题 $q^+$ ，我们将相应的定位假设 $v_t$ 视为锚点，并将其拉向 $q^+$ ，同时将其推离特征空间中的其他问题 $Q^-$ 。负集 $Q^-$ 包括：1）来自同一视频的其他问题作为硬负样本，因为很大一部分（近一半）的问题每个都调用独特的视频时刻来回答（图2b（3））；2）从其他视频采样的问题，以确保负样本的充分性和多样性。此外，我们通过重新表述每个问题（使用GPT-4[41]），最多增加5个额外问题来丰富10%的正问题，形成 $Q^+$ 。值得注意的是，在每个训练迭代中只有一个正问题，并且随机选择丰富的正问题来替代原始问题进行数据增强。因此，这种形式的对比通过固定负问题的数量与干扰答案的数量相同来实现分类。因此，我们的最终解决方案是：

$a∗,t∗=arg⁡max⁡a∈AΨ(a∣vt,q+,A)Φ(t∣v,q+)⏟GroundedQA+α⋅arg⁡max⁡q∈QΘ(q∣vt,Q)⏟Grounding(3)a^*, t^*=\underbrace{\arg\max_{a \in A} \Psi\left(a | v_{t}, q^+, A\right) \Phi\left(t | v, q^+\right)}_{\text{GroundedQA}} + \alpha \cdot \underbrace{\arg\max_{q \in Q} \Theta\left(q | v_t, Q\right)}_{\text{Grounding}} \quad (3)$

其中 $Q=Q+∪Q−Q=Q^+ \cup Q^-$ 包括 $v_t$ 的正问题和负问题， $α\alpha$ 是权衡参数。请注意，定位项粗略地识别与问题相关的视频时刻 $t$ ，而定位问答项不仅进行预测，还有助于通过答案监督细化时刻 $t$ 。因此，整体目标迫使定位的视频内容与答案和问题都相关。

5. 实验

5.1 概述

我们的实验旨在回答三个研究问题：Q1：当前视觉-语言模型的预测在多大程度上基于相关的视频内容？Q2：更好的问答性能是否意味着更好的定位性能，反之亦然？Q3：我们的高斯掩码机制是否有效？我们研究了各种各样的视觉-语言模型，涵盖不同的架构（双重和堆叠Transformer）、视觉编码器（特定任务的以及用图像-文本或视频-文本数据预训练的）和文本编码器（BERT、RoBERTa、DeBERTa、Flan-T5）：

VGT[57]是一种特定任务的双重风格图Transformer模型。它编码时空对象信息[46]用于视频问答。我们还按照[58]的建议研究了使用RoBERTa[36]的VGT。
Temp[Swin]是一种双重架构。Swin Transformer（SWT）[37]在ImageNet[7]上预训练。Temp[CLIP]和Temp[BLIP]遵循相同的双重架构，但分别使用CLIP[44]和BLIP[28]预训练的ViT[9]作为视觉编码器。
VIOLETv2[11]采用堆叠Transformer。它分别使用视频Swin Transformer[38]（VSWT）和BERT进行视觉和文本编码。该模型用图像和视频-文本数据预训练，在各种视觉-语言任务上达到最先进水平。
FrozenBiLM[62]应用堆叠Transformer。它使用CLIP作为视觉编码器，并强调了适应冻结大型语言模型（LLMs）（例如DeBERTa-V2-XL（1B）[16]）用于视频问答的优势。
另外还复现了IGV[31]和SeViLA[64]用于比较。这两项工作都强调为视频问答定位关键帧或对象。IGV基于视觉图构建，而SeViLA基于BLIP-2[27]。它利用ViT-G[68]和冻结LLM（例如Flan-T5-XL（3B）[6]）进行视频定位和问答。在我们的实现中，我们选择能够包含定位关键帧的最小时间跨度作为定位时刻。

实验设置：对于所有模型，我们从每个视频中均匀采样32帧，并冻结视觉编码器。在事后分析中，时间注意力阈值根据平均注意力值动态设置，以最大化定位问答准确率。公式（3）中的负问题数量保持与多选问答中的干扰答案数量相同，以促进联合优化。权衡参数 $α\alpha$ 对于双重Transformer设置为1，对于堆叠Transformer设置为0.1。在推理过程中，高斯置信区间的超参数 $γ\gamma$ 根据不同模型从{1,0.8}中选择。我们的最终结果基于高斯和时间注意力的预测组合。所有超参数在验证集上调整，除非另有说明，结果在测试集上报告。其他细节在附录A.2中描述。

评估：我们报告问答的准确率[76]，即正确回答问题的百分比。对于视觉证据定位，我们使用预测交并比（IoP）来衡量预测的时间窗口是否在地面实况内。此外，我们包括遵循视频定位基准的时间交并比。对于IoP和交并比，我们报告均值以及重叠阈值为0.3和0.5时的值。如果一个问答对涉及多个时间片段，我们基于与预测重叠最大的那个片段报告结果。值得注意的是，我们定义定位问答准确率（Acc@GQA）来检查正确回答且视觉定位的问题百分比（即 $\geq 0.5$ ）。

5.2 结果与分析

5.2.1 Q1：答案是否基于视觉？

在这里插入图片描述

我们关注表3的事后（PH）部分中的Acc@QA、Acc@GQA和IoP@0.5。总体而言，现有的视觉-语言模型在问答方面表现出色，但在将答案定位到视频中方面表现不佳。例如，所有方法的问答准确率都超过50%，但定位问答准确率不能超过12-16%。事实上，最先进的问答模型（FrozenBiLM）达到69%的问答准确率，而定位问答准确率却低至16%。IoP@0.5的结果表明，这种巨大差异主要是由于模型在时间定位方面的糟糕表现。部分原因还在于定位和问答之间的不一致，因为根据Acc@GQA与IoP@0.5，并非所有正确的定位都能产生正确的答案。我们通过研究图5（a）中问答内容相对于采样视频帧数的覆盖率，另外排除了稀疏视频采样的影响。该图显示采样的32帧几乎可以覆盖所有问答内容。此外，为了了解这种糟糕表现的程度，我们通过对10%的测试数据进行人体研究来估计上限性能。研究表明，参与者正确回答了93%的问题，其中82%是基于视觉的。

鉴于上述观察结果，我们认为这些模型的大多数答案并非基于相关视频内容。相反，它们更有可能来自语言捷径或与无关视觉语境的虚假关联。为了研究语言捷径，我们进行了BlindQA实验，其中我们只训练视频问答模型的语言对应模型，不输入视频。表4（a）显示BlindQA达到了标准视频问答（NormalQA）性能的80%，即双重模型为50.3%对59.4%，堆叠模型为56.7%对69.1%。为了研究虚假关联，我们通过直接在地面实况视频片段内部（PosQA）或外部（NegQA）采样来测试视觉-语言模型。令人惊讶的是，与正常均匀采样（NormalQA）相比，模型的问答性能几乎不受影响，可能是因为图像表示不够精细，无法区分不同的帧。表4（a）显示，提供地面实况时间片段（PosQA）对双重风格模型带来的改进微乎其微（<1%），甚至对堆叠风格Transformer有损害，可能是由于视觉输入的分布偏移。此外，排除时间片段（NegQA）对双重和堆叠风格模型的性能下降都不到1%。上述研究强化了我们的观点，即当前视觉-语言模型的预测通常不是基于视觉的。
在这里插入图片描述

5.2.2 Q2：更好的问答性能是否意味着更好的定位性能？

在这里插入图片描述

首先，通过关注表3中的Acc@QA、mIoP和mIoU，我们发现更好的问答性能不一定由更好的定位性能实现，并且结果因架构而异。例如，通过比较不同架构，FrozenBiLM显示出最强的问答性能，但定位性能却令人惊讶地差，例如IoP值甚至比VGT还差，而VGT在其他Transformer模型中显示出最低的问答结果。这可能是由于FrozenBiLM冻结了大型语言模型，导致其预测严重依赖大型语言模型的常识知识，而不是提供的视频（在SeViLA上也发现了类似问题）。相比之下，VGT是一种特定任务模型。它专注于利用细粒度视频信息，因此更好地以视觉内容为条件。通过比较相同架构的不同实例（例如从Temp[Swin]到Temp[CLIP]）以及图5（b）中相同模型的不同训练时期，我们发现对于双重风格架构，定位性能（mIoP）随着问答准确率的提高而提高，但对于堆叠风格架构则不然。其次，关于定位对问答的影响，我们的结论是有定位比没有定位更好。然而，当允许模型自由学习时，这不受控制，并且倾向于潜在的捷径。表4（a）中的观察结果支持这一结论，无论模型架构如何，PosQA总是优于NegQA。此外，我们改善定位的努力也带来了更好的问答性能（表3和4（b））。然而，如前所述，正确的定位并不能保证正确的答案。

5.2.3 Q3：高斯掩码解决方案是否有效？

我们将高斯定位机制（NG和NG+）整合到性能最佳的双重和堆叠风格模型中，并与事后基线进行比较。表3显示，NG和NG+均带来了更好的定位和问答性能。此外，NG+总体上优于NG，特别是对于双重风格架构。此外，表4（b）表明，我们的优势在回答需要视频和时间定位的问题子集时进一步扩大。

为了更好地理解，我们在图5（c）中分析了两个案例。顶部示例显示，高斯掩码（NG和NG+）比时间注意力更集中在相关视频时刻，从而带来更好的定位，特别是在交并比方面。底部示例突出了NG+的优势。在这种情况下，有多个视觉实例对应答案“女孩站起来”。正确的实例是“女孩拿绿色球”之后的那个，尽管“拿红色球”之后的实例更显著。事后和朴素方法都因为仅通过答案监督学习而受到干扰。相比之下，NG+找到了正确的定位，因为它还优化了问题和视频片段之间的跨模态对应。更详细的分析在附录A.3中呈现。

5.2.4 方法比较

与随机基线相比，所有方法都能有效地执行定位问答（参考表3中的Acc@GQA和IoP@0.5）。更具体地说，我们发现IGV和SeViLA的定位问答准确率都低于FrozenGQA，尽管它们的模型中也包含某种定位感。这种劣势体现在视觉证据定位（IoP@0.5）和问答两方面。然而，我们发现SeViLA在独立定位（mIoP和mIoU）方面比其他方法表现好得多。我们推测这是因为SeViLA用定位监督进行了预训练[22]。这些观察结果因此指出了通过用位置监督进行预训练来实现未来改进的可能性。此外，它们还要求改进问答和定位之间的协调性。

5.2.5 其他观察结果

表3还比较了NExT-GQA和完整（原始）NExT-QA测试集上的Acc@QA性能。完整集上的准确率始终高出2-3%，这表明基于局部视频时刻的问题比依赖整体视频内容的问题更难回答。此外，跨模态预训练表示在视频问答和视觉定位方面都优于单模态预训练表示。而且，图像-文本预训练表示优于用视频-文本数据预训练的表示。此外，现有的双重风格架构往往比堆叠风格架构具有更好的定位性能（请注意，FrozenBiLM的高定位问答结果是由于其强大的问答性能，而不是定位性能）。这令人惊讶，因为双重风格实现中没有跨模态交互。我们推测跨模态Transformer可能遭受单模态偏见，导致注意力偏向语言侧以预测文本答案。这些发现一方面巩固了利用基础视觉-语言模型或大型语言模型进行视频问答的好处。另一方面，它们强调了平衡视觉事实和文本知识的必要性。

6. 结论

我们总结以下几点，并将其作为社区其他成员面临的开放挑战：首先，基于强大语言模型构建的当前视觉-语言模型在回答视觉问题方面表现出色。然而，它们的预测往往与相关的视觉信息缺乏强关联，而是严重依赖语言捷径和无关的视觉语境。这需要更多努力来提高可解释性和可信度。其次，我们的实验表明，定位问题，特别是那些涉及时间动作和事件的问题，仍然是一个困难且开放的挑战。我们的研究表明，解决这个问题将在很大程度上有利于基于视觉的视频问答。第三，尽管我们的解决方案改善了定位和问答性能，但与人类性能相比仍有很大差距。这为后续工作留下了充足的机会。最后但同样重要的是，我们强调NExT-GQA的重要性，并希望它能为这些领域的进展做出贡献。

局限性：NG+方法需要更多的内存和训练时间（附录A.3.3）。此外，我们的分析集中在多选问答上（附录A.4）。

A. 附录

A.1. 数据集构建

标注标准：我们制定了明确的标准以减少歧义性和主观性。1) 对于每个问题，标注应包含整个时间片段，该片段需包含答案且有足够的上下文来解释问题。2) 如果问题中提到的视觉内容与答案在时间上不同步或不连续，那么标注应聚焦于答案。3) 如果答案的视觉证据在视频中多次出现，那么所有相关的视频时刻（单个片段）都应被标注。4) 如果问题的答案在整个视频中都能看到，则该问题被省略。然而，为确保我们能收集到足够的标签，我们按标注的每个片段向标注员付费。图6展示了我们标注结果的两个示例。

A.2. 实现细节

事后分析（Post-hoc）：对于双重风格的Transformer，我们尝试了对视觉标记进行注意力池化，以及预先添加一个总结标记，然后对Transformer的多头注意力进行平均。我们发现这两种方法带来的问答性能相似。然而，预先添加的方法需要更多的训练轮次，因此我们选择注意力池化作为最终解决方案。此外，为了从学习到的时间注意力中获得合理的时间跨度，我们将具有最大注意力值的帧视为 pivot 位置，并在其周围搜索，以包含那些注意力值满足特定标准的帧。在此之前，使用最小-最大方法将注意力值归一化到[0,1]。一个帧是否应被包含的标准由其注意力分数及其与 pivot 帧的距离共同决定。在我们的实现中，我们还对注意力值进行平滑处理，距离阈值设置为10秒。最后，将最小帧ID和最大帧ID映射到时间秒数，以获得时间跨度。请注意，具有最大注意力的帧将始终被选中。
朴素高斯（NG）：对于双重和堆叠风格的架构，高斯预测头通过一个轻量级的Transformer层和线性投影器实现。具体来说，高斯掩码G（维度等于帧序列F的长度）被传播到每个自注意力头，以在聚合（总结）值向量之前对原始自注意力权重进行加权，即 $Fh=G⋅softmax(FK(FQ)⊤dk)FVF_h = G \cdot softmax(\frac{F^K (F^Q)^{\top}}{\sqrt{d_k}}) F^V$ ，其中Q、K、V分别表示自注意力中的查询、键和值向量。值得注意的是，由于堆叠风格的Transformer中没有独立的视觉流，我们挑选属于视觉输入的标记，并通过高斯加权的Transformer进行处理。然后，将得到的标记预先添加回多模态标记序列中，用于答案预测。
视频-问题对应学习（NG+）：我们发现，分两阶段训练的范式（先用grounding项预训练，然后用公式3中的两个目标进行微调）比单阶段训练带来更好的性能。在两个阶段中，负问题有0.3的概率从与正问题相同的视频中选择。请注意，我们排除了描述性问题，因为它们的答案通常在整个视频中出现。同样有0.3的概率，我们用一个改写的问题替换正问题。在生成过程中，我们提示GPT-4关注问题中的名词和动作，以确保生成的问题反映与原始问题相同的视频时刻。我们在图7中展示了一些生成的示例。
其他：我们所有模型训练10-20个轮次，初始学习率为1e-5。如果验证结果在5个轮次内没有提高，则采用早停策略。双重风格模型的批量大小设置为64，堆叠风格模型的批量大小设置为4-6。在推理过程中，为了融合从高斯掩码和时间注意力得到的时间窗口，我们简单地选择两个窗口的重叠区域作为最终预测。如果没有重叠，我们选择来自时间注意力的预测以获得更好的性能。

A.3. 额外实验

A.3.1 多个高斯掩码是否有帮助？

我们采用带有朴素高斯（NG）grounding方法的Temp[CLIP]来研究使用不同数量的高斯掩码的效果。表5中的结果显示，使用多个高斯掩码会降低问答准确率，尽管它根据交并比（IoU）值提高了grounding性能。最佳的grounding问答（Acc@GQA）结果是通过使用5个高斯掩码实现的。尽管如此，与单个高斯掩码相比，其改进可以忽略不计，例如从15.5%到15.8%。因此，在主要实验中，我们默认使用单个高斯掩码。这也带来了更高的效率。
在这里插入图片描述

A.3.2 生成的问题是否有帮助？

我们另外研究了NG+方法中扩展的正问题的效果。如表6所示，我们发现它提高了问答结果（Acc@QA），但对grounding问答（Acc@GQA）没有帮助。在grounding方面，与不使用生成的问题的模型相比，它带来了略高的交并比（IoU）结果，但预测交并比（IoP）更低。考虑到生成的正问题提高了问答性能且没有损害grounding问答性能，我们在最终实验中使用了它们。如果我们对更多问题进行改写，其益处可能会更显著；目前，我们只对训练集中10%的问题进行了改写。然而，这将导致额外的计算成本。
在这里插入图片描述

A.3.3 模型效率

我们讨论了Temp[CLIP]和FrozenBiLM在基于视觉的问答任务中的效率。对于Temp[CLIP]，所有结果都是在1个A5000 GPU上获得的。对于没有NG+的FrozenBiLM，实验在4个A5000 GPU上进行；对于带有NG+的FrozenBiLM，我们使用4个R8000 GPU运行，因为该模型每个GPU大约需要46G内存。时间分别基于训练和验证数据的1个轮次报告。表7中的结果显示，与各自的骨干模型相比，我们的grounding模块在训练和推理中引入的额外参数很少。然而，NG+方法需要更多的训练时间。另一个观察结果是，Temp[CLIP]的训练和推理速度比FrozenBiLM快得多。
在这里插入图片描述

A.3.4 对视频-大型语言模型的泛化性

我们研究了我们的grounding方法（事后分析、NG和NG+）是否能泛化到更新的多模态大型语言模型（MLLMs）。我们以Video-LLaMA[69]为例。Video-LLaMA利用冻结的LLaMA[48]并预训练视频Q-Former来连接视频输入和LLaMA。它已经展示出良好的视频问答性能。为了研究它在NExT-GQA上的性能，我们概述了我们的适配如下。

首先，由于NExT-GQA强调视觉grounding，我们省略了Video-LLaMA中的音频流。然后，我们发现中间的视频Q-Former切断了视频帧/片段与答案输出之间的直接对应关系。这阻碍了事后分析。为了规避Q-Former同时又利用其跨模态预训练权重，我们为每个视频采样32个视频片段，并通过对Q-Former的输出进行平均池化来编码每个片段。将片段表示（而不是原始的全局Q-Former输出）与问答文本一起（按照LLaMA-VQA[20]中的格式）输入到LLaMA中进行答案解码。此外，我们将每个视频标记的前K（K=6是最大答案长度）预测分数的总和作为其用于事后时间分析的置信度分数。此外，我们在视频标记序列前添加一个特殊标记来预测高斯参数。对于NG+，大模型尺寸阻止了我们在服务器上联合训练两个项（主论文的公式3）。作为补救措施，我们采用两阶段范式，首先训练问题grounding，然后微调grounding问答。最后，为了研究多模态视频预训练的效果，我们包含了一个模型变体，通过用片段中间帧的CLIP特征替换片段的Q-Former表示。
在这里插入图片描述

表8突出了Video-LLaMA在NExT-GQA上的行为的以下观察结果：1) NG和NG+比事后分析方法有持续的改进。2) 像我们在主论文中的现有发现一样，问答和grounding问答准确率之间存在很大差距。3) 预训练的视频Q-Former在问答方面比图像-文本预训练的CLIP有所改进，但在视频grounding方面没有。表9比较了Video-LLaMA与主论文中的两个主要骨干模型（Temp[CLIP]和FrozenBiLM）。我们发现Video-LLaMA确实比非大型语言模型方法Temp[CLIP]表现出更高的grounding问答（GQA）性能。然而，像FrozenBiLM一样，Video-LLaMA更高的grounding问答准确率是由于其强大的问答性能，而不是因为更好的grounding性能。此外，我们发现Video-LLaMA在这项任务中总体上比FrozenBiLM表现差。我们认为这是因为Video-LLaMA通过利用大型语言模型逐词生成答案来解决问答问题，而FrozenBiLM直接将每个候选答案分类为正确或不正确，这更适合多选问答。在FrozenBiLM[62]论文中可以发现类似的发现，该论文强调双向预训练的大型语言模型相对于生成式训练的大型语言模型在基于分类的视频问答中的优越性。
在这里插入图片描述

A.3.5 结果可视化

我们在图8中展示了一些预测案例。对于Q1和Q2，两个模型都预测了正确的答案，并具有合理的视觉grounding结果。从第3个问题开始，我们展示了模型在正确回答问题（例如Q5、Q6的FrozenGQA和Q8）或为正确答案提供正确的视觉证据（例如Q3的FrozenGQA、Q4和Q7）方面存在很大困难。从失败的例子中，我们发现当答案中的视觉概念在整个视频中出现时（例如Q4和Q7中的“草”和“雪”），模型可以轻松预测正确答案，而无需真正定位被询问的视频片段。此外，模型在以下方面仍然薄弱：1) 回答涉及小视觉对象的问题；2) 当视觉证据仅占视频的一小部分时，为答案提供依据（Q4-Q8）。
在这里插入图片描述

A.4. 关于多选问答的讨论

流行的开放式视频问答数据集，如MSRVTTQA、MSVD-QA和TGIF-QA，由非常短的视频组成，通常时长3到15秒。它们不需要时间grounding。虽然ActivityNet-QA包含长视频，但其中很大一部分问题很简单，（人类）通过单个帧就能回答。基于上述考虑，我们在NExT-QA上进行实验，特别是在其多选问答任务上，因为目前针对开放式问答的文献不多。多选问答往往更容易受到语言偏见和虚假的视觉-语言关联的影响。因为提供的错误答案可能并不总是具有足够的干扰性，无法在不参考视频的情况下挑战正确答案的选择。此外，错误答案中提到的视觉概念可能根本不存在于给定的视频中。相反，我们定义的grounding问答任务将在很大程度上防止或阻止这种捷径学习。

查看全文

http://www.lryc.cn/news/587373.html