视频中的开放世界目标计数
摘要
https://arxiv.org/pdf/2506.15368
我们引入了一项新的视频开放世界目标计数任务:给定一个文本描述或一个图像示例来指定目标物体,任务目标是在视频中枚举出所有目标物体的唯一实例。在存在遮挡和相似物体的拥挤场景中,这项任务尤其具有挑战性,因为避免重复计数和识别重新出现的物体至关重要。为此,我们做出了以下贡献:我们为该任务引入了模型COUNTVID。它利用了一个基于图像的计数模型和一个可提示的视频分割与跟踪模型,以实现视频帧间的自动化开放世界目标计数。为了评估其性能,我们从TAO和MOT20跟踪数据集,以及通过X射线拍摄的企鹅视频和金属合金结晶视频中,构建了一个新的数据集VIDEOCOUNT,用于我们的新任务。使用该数据集,我们证明了COUNTVID能够提供准确的目标计数,并显著优于强基准模型。VIDEOCOUNT数据集、COUNTVID模型以及所有代码均可在https://github.com/niki-amini-naieni/CountVid/获取。
1 引言
本文的研究目标是视频中的开放词汇计数——确定视频中某个物体类别的实例数量,其中感兴趣的物体类别由文本描述或图像示例指定。这是一个与时间相关的任务,因为既可以报告当前帧(可见计数)的计数,也可以报告其他时间间隔的计数,以及整个视频的累积计数。
如图1所示,在视频中进行计数本质上是一个对应或跟踪任务——因为我们不想多次计数同一个实例,所以必须确定连续帧中的实例是相同的。然而,如图所示,视频计数的一个基本挑战是实例识别——视频帧中出现的物体是新实例吗?还是序列中较早漂移出帧或暂时被遮挡的实例?随着物体变得难以区分,这一挑战变得更加严峻:如果鱼有不同的颜色和标记,那么区分它们是可能的,但区分昆虫或乌鸦可能是不可能的。
令人惊讶的是,视频中的自动化计数是一个相对未被探索的领域。除了计数人员[7, 20]之外,几乎没有自动化方法,而且据我们所知,没有开放词汇方法。这与图像中的计数形成了鲜明对比,在图像计数中,开放词汇方法能够使用文本和示例来指定目标物体,并且可以计数多达数千个实例[2, 27, 28]。甚至一些大规模的视觉语言模型,如Malmo [11],现在也能够准确地在图像中计数超过十个实例。
考虑到视频计数在科学应用中的广泛需求和重要性,缺乏相关研究尤其令人惊讶。自然资源保护主义者需要计算无人机拍摄的视频序列中的动物数量以进行种群监测[12, 24]。对于一名训练有素的人类分析师来说,手动注释一次一小时的飞行可能需要多达30小时[33]。材料科学家计算由液态金属合金形成的晶体,以确定冷却如何影响形成过程的速度[17]。流行病学家使用从城市街道上拍摄的视频中的人类和车辆计数来研究行人暴露于空气污染的原因并减轻其影响[30, 31]。一种能够“开箱即用”地快速应用于所有这些问题的“开放世界”方法,无需手动计数或额外训练,有可能推动这些应用的发展,消除注释时间,并显著促进其研究。
在本文中,我们引入了一个模型COUNTVID,用于视频中的开放世界目标计数,该模型接受一个视频和一个指定要计数的目标物体的提示作为输入,并输出视频中出现的该物体的唯一实例数量。提示可以由自由形式的文本描述和/或任意数量的“视觉示例”组成,其中视觉示例通过边界框指示感兴趣的对象,并且可以来自视频帧或外部图像。
COUNTVID模型基于两个不同任务的进展构建:(i)强大的开放词汇图像计数和检测模型[2, 26, 38];(ii)强大的类别无关视频分割和跟踪模型[29, 34]。然而,简单地结合一个图像检测器来为跟踪器提供实例是不够的,因为:最先进的目标检测器在密集场景中难以计数大量物体,其中存在许多遮挡和重叠实例[2, 3],同样,这些条件对最先进的跟踪器来说也是极具挑战性的[14]。为了克服这一问题,对于(i),我们利用了同样输出边界框的准确基于图像的计数器[26, 38];对于(ii),我们采用了如SAM 2[29]这样的可提示视频分割和跟踪模型,因为它能够在给定(手动)指定提示的情况下分割和跟踪多个物体。
为了使用这些模型在视频中准确计数,我们引入了两项创新:首先,我们将最灵活的基于图像的计数器CountGD[2]扩展为产生跟踪器所需的边界框,提供了在接受文本、视觉示例或组合提示以及在同一模型中进行检测能力方面的多功能性。我们表明,当图像中存在许多相似物体的实例时,其性能优于图像检测器;其次,我们提出了一种时间滤波器来去除由于错误检测而产生的假阳性轨迹。扩展的CountGD模型,称为COUNTGD-BoX,以及其他基于检测的计数器,用于在视频的多帧上提供边界框提示,而跟踪器则用于关联所得的分割结果并将其传播到其他帧。
为了评估视频计数的性能,我们引入了VIDEOCOUNT,这是一个用于该任务的新数据集,包含真实标签。VIDEOCOUNT有两种类型的基准:首先,我们通过添加额外注释来重新利用标准跟踪数据集TAO[4]和MOT20[5],以确保所有物体都被计数(因为跟踪基准通常只评估物体的一个子集,例如不考虑静态物体);其次,我们引入了两个科学应用的计数示例,包含从监测企鹅自然栖息地和金属合金结晶过程的X射线图像中获取的新视频。
总之,我们做出了以下四个贡献:首先,我们提出了视频中的开放世界目标计数这一新任务;其次,我们通过重新利用和结合开放词汇图像计数和类别无关分割和跟踪模型,为该任务提出了一个模型COUNTVID;第三,我们将CountGD扩展为产生边界框作为输出,并引入了一种自动化方法来去除假轨迹;第四,我们发布了VIDEOCOUNT,一个新的视频数据集,用于评估开放世界目标计数任务的算法性能。
2 相关工作
图像中的开放世界目标计数。先前关于开放世界目标计数的工作仅关注于图像。最初的基于图像的方法要求用户在推理时手动用“视觉示例”注释几个示例物体以进行计数[6, 8, 16, 18, 21, 25, 28, 32, 35, 36]。最近的工作[1, 2, 3, 10, 13]利用了预训练的视觉语言基础模型,使得类别可以通过文本指定。CountGD[2]是一种非常新的最先进的开放世界计数模型,它使用Grounding DINO[19]基础模型的联合视觉语言嵌入空间,允许用户使用文本指定要计数的物体。除此之外,与大多数先前只能接受文本或只能接受视觉示例的方法不同,CountGD允许两种输入。通过仅接受文本,CountGD可以适应新类别而无需人工干预;通过接受视觉示例,它提供了更高的准确性。我们在本文中基于CountGD进行了构建。
视频中的开放世界目标计数。虽然没有先前的工作明确关注于视频中的开放世界目标计数,但有一些开放世界跟踪器可以重新用作计数器。最先进的开放世界跟踪器依赖于目标检测器[14, 15]。例如,开放世界跟踪器MASA[14]利用Grounding DINO[19]和Detic[39]等检测器首先使用文本检测任何物体,然后将其关联到视频帧中。在整个视频中识别和跟踪的唯一物体可以被枚举以估计计数。然而,由于这些方法扩展了检测器,因此它们继承了检测器的局限性,例如在存在许多遮挡的杂乱场景中难以识别物体。
不依赖于预训练的基于图像的目标检测器的跟踪器也存在局限性。Trackformer[22]是一种基于Transformer的跟踪模型,通过集合预测损失进行端到端训练。与MASA[14]和其他开放世界跟踪方法不同,Trackformer在推理时无法适应新类别。它只能跟踪它被训练过的物体。SAM 2[29]、SAM 2.1和SAMURAI[34]是非常新的最先进的跟踪和分割模型,可以在不重新训练的情况下适应新物体。SAM 2.1和SAMURAI通过运动线索、更长的视频训练和遮挡处理扩展了SAM 2,但两者都需要手动提示,而COUNTGD-BoX和COUNTVID则实现了自动化。SAMURAI也主要关注于单目标跟踪。
3 COUNTVID 和 COUNTGD-BOX 模型
在本节中,我们首先介绍 COUNTVID,这是我们用于视频中开放世界对象计数的方法。然后介绍 COUNTGD-BOX,这是一个多模态计数模型,可输出边界框,并扩展了 CountGD [2]。
3.1 COUNTVID
COUNTVID 是一个模型,它接收视频和灵活的提示(包括仅文本、仅视觉示例或两者兼有)作为输入,并输出帧级计数和全局计数,指示视频中与提示匹配的唯一对象数量。在推理时,COUNTVID 以递减的粒度分三个阶段处理视频。这些阶段如图 2 所示。
阶段 1 - 帧级处理。第一阶段使用视觉示例和文本提示,目标是自动获取每一帧中目标对象的所有实例的边界框和分割掩码。为实现这一目标,将视觉示例和文本提示输入到一个计数和检测模型中,该模型独立应用于每一视频帧以获取边界框。计数模型输出的边界框被用作分割模型的边界框提示,该模型输出帧中所有对象的掩码。我们使用来自单个帧的示例,并将其应用于整个视频,以减少用户标注工作量。为提高效率,在此阶段开始前对帧进行下采样。
阶段 2 - 短期处理。尽管计数模型在计数方面非常准确,但它们仍可能产生假阳性检测。这可能是由于运动模糊导致的。阶段 2 的目标是通过时间滤波器去除这些假阳性预测。该滤波器利用了这样一个观察结果:假阳性在阶段 1 的独立(每帧)预测中往往是瞬时的,几乎会立即在后续帧中消失。对于阶段 1 中的每个检测,滤波器检查对象是否存在于 w w w 帧的时间窗口内。使用分割和跟踪模型,滤波器从检测所在帧向前跟踪 w − 1 w - 1 w−1 帧,向后跟踪 w − 1 w - 1 w−1 帧。通过跟踪传播的掩码与阶段 1 中独立每帧检测的掩码的交并比(IoU)来匹配对象。IoU 大于 0.5 被视为匹配。如果对象在至少 w w w 个连续帧的序列中被匹配,则保留该对象。否则,在阶段 3 开始前将其移除。注意,有必要同时向前和向后跟踪,因为新对象可能会出现(并通过向前跟踪进行验证),同时对象也可能消失(例如,被遮挡),并通过向后跟踪进行验证。
阶段 3 - 长期处理。在最后一个阶段,COUNTVID 将分割和跟踪模型应用于整个视频,长期跟踪对象,同时检查每一帧中的新对象。对于每个对象,COUNTVID 预测一个掩码片段,即随时间传播的对象掩码。通过将现有掩码片段与阶段 2 中的每帧掩码进行比较来检测新对象。与现有掩码片段不重叠的每帧掩码被识别为新对象。然后,这些新对象也会被向前跟踪。一旦检查完所有帧中的新对象,就对掩码片段进行枚举,以计算最终的全局计数。新对象检测逻辑在补充材料中有详细解释和说明。
COUNTVID 实现。我们使用 COUNTGD-BOX(如下所述)作为计数和检测模型,以及 SAM 2.1 作为跟踪器来实现 COUNTVID。阶段 1 中,COUNTGD-BOX 的边界框被用作 SAM 2.1 的边界框提示,然后 SAM 2.1 跟踪提示对象的掩码,生成掩码片段。
3.2 COUNTGD-BOX
为了自动为分割模型获取边界框提示,我们需要一个能够处理密集场景中许多相似重叠对象的检测器,因为这在我们具有挑战性的任务视频中会出现。正如我们的结果和先前的工作 [1, 2] 所示,存在开放世界检测器,但它们在这种设置下表现不佳。另一方面,存在能够做到这一点的开放世界计数器。在所有这些计数器中,CountGD [2] 是最灵活的,它接受仅文本、仅视觉示例或两者同时输入来指定对象。正如我们的结果所示,它在所有提示设置下都提供了总体上较强的计数性能。然而,与其他灵活性较低的基于检测的计数模型 [25, 26, 27] 不同,CountGD 输出的是点,而不是边界框。
点提示不能以明确的方式指定要计数的对象。例如,汽车窗户上的一个点可能意味着应该计数每个窗户或每辆汽车。鉴于一辆汽车上很可能不止一个窗户,这个问题可能导致计数过高或过低。如果指定一个图像区域(一个边界框)而不是一个点,则可以解决这种歧义。
为了为分割模型获取明确的对象提示,我们训练 CountGD [2] 以输出边界框,而不仅仅是点。CountGD 最初缺乏这种能力,因为对象计数数据集(如 FSC-147 [28])中可用的边界框数据有限。这种稀缺性是因为用边界框标注数百到数千个对象非常繁琐。相反,这些数据集仅为每张图像中的少数对象提供边界框标注。受 DAVE [27] 的启发,我们扩展了 CountGD 以利用这些弱训练标签。由于 CountGD 是基于 Grounding DINO [19] 架构构建的,它已经为每个对象输出四个参数。前两个参数用作对象的中心,而后两个参数被 CountGD 丢弃。我们向 CountGD 的损失函数中添加了两个新项 L h , w e \mathcal{L}_{h,w}^{e} Lh,we 和 L G I o U e \mathcal{L}_{G I o U}^{e} LGIoUe,如等式 (1) 所示,以训练后两个参数成为边界框的高度和宽度。 L h , w e \mathcal{L}_{h,w}^{e} Lh,we 和 L G I o U e \mathcal{L}_{G I o U}^{e} LGIoUe 基于 Grounding DINO [19] 中的边界框回归损失。这里的区别在于,这些损失仅针对示例计算,而在 [19] 中,它们是针对图像中的所有对象计算的。 L h , w e \mathcal{L}_{h,w}^{e} Lh,we 是高度和宽度绝对误差的和, L G I o U e \mathcal{L}_{G I o U}^{e} LGIoUe 是预测示例框与真实示例框之间的广义交并比。通过对示例框进行训练,CountGD 学会了不仅预测点,还预测边界框。我们将扩展后的 CountGD 命名为 COUNTGD-BOX,并在推理时使用它为分割模型生成边界框提示。
L = λ l o c ( L h , w e + L c e n t e r ) + λ G I o U L G I o U e + λ c l s L c l s \mathcal{L}=\lambda_{l o c}\left(\mathcal{L}_{h,w}^{e}+\mathcal{L}_{c e n t e r}\right)+\lambda_{G I o U}\mathcal{L}_{G I o U}^{e}+\lambda_{c l s}\mathcal{L}_{c l s} L=λloc(Lh,we+Lcenter)+λGIoULGIoUe+λclsLcls
4 VIDEoCoUNT:一个新的视频计数数据集
当前用于对象计数的基准数据集对于视频中的开放世界对象计数任务来说并不充分。这是因为现有的计数数据集要么仅支持图像 [9, 28],要么仅包含有限数量的类别 [5, 20, 40]。此外,现有的跟踪数据集(如 TAO [4])仅对部分对象提供详尽的标注,且每段视频最多标注十个对象,这对于实际的计数应用场景来说远远不够。因此,在本节中,我们介绍了 VIDECoUNT,这是一个新的用于视频中开放世界对象计数的数据集,它克服了这些限制。VIDECoUNT 由三个基准数据集组成:TAO-Count、MOT20-Count 和 Science-Count。它包含 370 段视频,涵盖了广泛的对象类别和计数,如表 1 所示。我们在补充材料中提供了更多细节。
我们的数据集来自不同的来源。对于 TAO-Count 和 MOT20-Count,我们在现有的跟踪数据集 TAO [4] 和 MOT20 [5] 的子集上添加了元数据,以指定目标对象的计数。对于 Science-Count,我们发布了新的视频和计数标注,这些标注来自对企鹅种群的监测以及通过 X 射线射线照相术捕获的液态金属合金结晶过程的视频 [17]。VIDEOCoUNT 中的示例视频帧如图 3 和补充材料所示。
VIDECoUNT 测试了 COUNTVID 在适应各种具有挑战性的场景方面的能力。TAO-Count 测试了 COUNTVID 在具有显著运动的场景中计数少量对象的能力。MOT20-Count 测试了 COUNTVID 在高度拥挤的场景(例如,包含超过 1000 个对象)中计数的能力,其中有许多重叠的实例。Science-Count 在具有许多相似对象的棘手实际应用中评估 COUNTVID,其中一些对象甚至在 X 射线视频中随时间快速变化结构,这通常超出了基础模型的范围。
5 实验
实现细节:COUNTGD-BOX 使用 CountGD [2] 的预训练权重进行初始化。然后,其多层感知机(MLP)边界框检测头在 FSC-147 [28] 训练集上进行微调,训练 30 个 epoch,并在验证集上进行早停。等式中的 λ l o c \lambda_{l o c} λloc、 λ G I o U \lambda_{G I o U} λGIoU 和 λ c l s \lambda_{c l s} λcls 分别通过在验证集上进行网格搜索设置为 5、2 和 2。对于 COUNTVID,在阶段 1 中,我们以 3 帧每秒的速度对帧进行采样。在阶段 2 中,时间滤波器的窗口大小 w w w 设置为 3 帧,对应于一秒。匹配的 IoU 阈值设置为 0.5。补充材料中提供了额外的实现细节,包括对每个阶段的推理时间和内存消耗的详细分析。
5.1 数据集与评估指标
图像:为了评估最先进的检测和计数模型在拥挤场景中的计数和检测准确性,我们使用了 FSCD-147 [25],它为广泛建立的开放世界图像对象计数数据集 FSC-147 [28] 的验证集和测试集提供了边界框。训练集没有提供详尽的边界框。每张图像都用三个示例进行标注。为了测量检测准确性,我们遵循 [25] 的方法,报告在阈值 0.5 到 0.95 之间的平均精度(AP)和在 IoU 阈值为 0.5 时的平均精度(AP50)。我们还报告了 [25, 26, 28] 中使用的基于图像的计数平均绝对误差(MAE)和均方根误差(RMSE)。我们按照 [26] 的方法,将计数作为边界框的枚举,并根据每个方法允许的情况,报告仅文本、仅示例或两者都有的结果。
视频:为了评估视频的计数准确性,我们在 VIDEOCOUNT 上报告结果。由于 FSC-147 [28] 的训练集与 TAO-Count 存在类别重叠,我们还报告了 TAO-Count 中去除了与 FSC-147 训练类别相同的视频子集的结果。为了测量视频的计数准确性,我们借鉴了先前在图像对象计数方面的工作 [28],使用了平均绝对误差(MAE)和均方根误差(RMSE)。我们为我们的新任务定义了这些指标的视频类似物。更具体地说,我们将视频 MAE 和 RMSE 定义为: M A E = ( 1 / N ) ∑ i = 1 N ∣ y ^ i − y i ∣ , R M S E = [ ( 1 / N ) ∑ i = 1 N ( y ^ i − y i ) 2 ] 1 / 2 \begin{array}{r}{\mathit{M A E}=(1/N)\sum_{i=1}^{N}|\hat{y}_{i}-y_{i}|,\mathit{R M S E}=[(1/N)\sum_{i=1}^{N}(\hat{y}_{i}-y_{i})^{2}]^{1/2}}\end{array} MAE=(1/N)∑i=1N∣y^i−yi∣,RMSE=[(1/N)∑i=1N(y^i−yi)2]1/2,其中 N N N 是测试视频的数量, y ^ i \hat{y}_{i} y^i 是视频 X i X_{i} Xi 的预测计数, y i y_{i} yi 是视频 X i X_{i} Xi 的真实计数。更详细地说, y i y_{i} yi 是视频中与提示匹配的唯一对象数量。在计算 MAE 和 RMSE 时,如果视频包含多个类别,我们将每个唯一的视频-文本对视为不同的数据点。重要的是,视频中的计数 MAE 和 RMSE 指标与用于图像的指标不同。在视频设置中,真实计数反映的是唯一对象身份的数量,而不是检测的数量。这要求既要对对象进行匹配又要进行重新识别,跨帧重新出现的对象不能被重复计数,并且必须正确关联同一对象的重复检测。
5.2 评估帧级处理
在表 2 中,我们在 FSCD-147 [25] 上评估了不同的图像计数和检测方法,使用了不同的提示,包括仅文本、仅示例或两者结合。对于示例,我们使用 FSC-147 为每个样本提供的三个示例。文本描述要么来自 FSC-147 的类别名称,要么来自 FSC-147-D [1]。对于 CountGD 基线,我们使用 CountGD [2] 的预训练权重初始化的 COUNTGD-BOX,没有进行额外的微调。重要的是,这意味着 CountGD 基线产生的计数与原始 CountGD 模型完全相同。
从这些结果中,我们得出三个结论:(i)如先前工作 [2, 3] 所确认的,像 Owlv2 [23] 和 Grounding DINO [19] 这样的最先进检测器在有许多相似和重叠对象的计数设置中表现不佳。需要注意的是,这些检测器没有在 FSC-147 [28] 上进行训练,而计数器则进行了训练。另一方面,这些检测器是在更大的数据集 [19, 23] 上进行端到端检测训练的,而 FSC-147 是评估计数方法的标准基准,无论是否在 FSC-147 上进行了微调 [1, 13, 28];(ii)将 CountGD [2] 扩展为 COUNTGD-BOX,显著提高了其检测准确性,同时保留了其计数准确性;(iii)最先进的模型取决于所使用的提示类型(文本/示例/两者)。虽然 COUNTGD-BOX 是一个“全能选手”,但它并不是所有情况下的最佳选择。COUNTGD-BOX 和 PSeCo [38] 在仅文本设置下表现具有竞争力。GeCo [26] 在仅示例设置下是优越的模型,尽管 COUNTGD-BOX 和 DAVE [27] 也是强有力的竞争者。对于接受示例和文本的模型,COUNTGD-BOX 在检测方面优于 CountGD [2]。在某些情况下,文本确实为示例添加了信息,例如通过指定位置或颜色(参见 [2] 的第 4.5 节)。然而,在文本和示例都代表类别的情况下(如 FSC-147),仅使用示例的 GeCo 应该是更好的选择。
5.3 评估短期处理
在表 3 中,我们评估了时间滤波器在 TAO-Count 上的有效性。具体来说,我们报告了在使用和不使用时间滤波器的情况下应用 COUNTVID 的基于视频的 MAE 和 RMSE,这些指标在 5.1 节中定义。对于计数器,我们使用 COUNTGD-BOX;对于跟踪器,我们使用 SAM 2.1 [29]。TAO-Count 中的场景涉及显著的运动和模糊,这会导致假阳性。时间滤波器有效地去除了这些假阳性,将 MAE 和 RMSE 降低了超过 50%,显著提高了计数准确性。
5.4 评估长期处理
在本节中,我们在 VIDEOCoUNT 的基准数据集上评估了 COUNTVID 的整体基于视频的计数性能,并将其性能与基线进行了比较。对于 TAO-Count 的文本描述,我们使用了类别同义词集 [4]。对于 MOT20-Count,我们使用“human”作为文本。对于 Science-Count,我们使用“white crystal”和“penguin”。当使用示例时,为视频的第一帧提供了 3-6 个示例,并应用于所有后续帧。总体结果如表 4 和表 5 所示。
基线:我们将 COUNTVID 与两个基于多对象跟踪(MOT)方法的强大基线进行了比较。对于第一个基线,我们重新利用了使用 Grounding DINO [19] 实现的强大开放世界跟踪器 MASA [14]。对于第二个基线,我们将 ByteTrack [37] 与 COUNTGD-BOX 结合使用。每种方法的唯一轨迹被枚举以估计计数。更多实现细节在补充材料中提供。
使用 COUNTGD-BOX 和 SAM 2 [29] 或 SAM 2.1 [34] 实现的 COUNTVID 在仅文本以及同时使用示例和文本的情况下,都显著优于 MASA [14] 和 ByteTrack [37],如表 4 和表 5 所示。ByteTrack 在仅示例的情况下略优于 COUNTVID。我们还比较了使用不同计数器和跟踪器实现的 COUNTVID 的不同变体。对于计数器,我们使用了 COUNTGD-BOX 和 GeCo [26];对于跟踪器,我们使用了 SAM 2 和 SAM 2.1。我们注意到仅示例的性能优于仅文本,提供两种提示是最好的,这表明 COUNTVID 有效地从关于对象的更多信息中受益。我们发现,虽然 GeCo [26] 在图像上表现良好,但在视频上它不如 COUNTGD-BOX 准确。在仅示例的设置下,对于 Crystals,SAM 2.1 的性能显著优于 SAM 2。然而,在 Penguins 上,它略逊于 SAM 2。在表 4 中,可以看出 TAO-Count 和 FSC-147 [28] 之间的类别重叠对 COUNTVID 的计数准确性没有显著影响。如图 3 所示,COUNTVID 能够在密集场景中计数,检测新对象同时跟踪旧对象,并计数变形对象。由于计数模型的假阴性和跟踪器的重新识别挑战,可能会出现错误。具有许多遮挡和相似实例的场景由于此类情况的发生更多,可能会导致更高的错误。
6 结论
我们提出了视频中的开放世界目标计数这一新任务,并介绍了一个新模型COUNTVID和一个新数据集VIDEOCoUNT来测试该模型。COUNTVID接收灵活的视觉示例和文本提示作为输入,并输出帧级计数和全局计数,指示视频中与提示匹配的唯一对象数量。随着更好的跟踪器和类别无关的基于检测的计数模型的出现,COUNTVID将继续受益,因为它们可以轻松地集成到我们所提出的框架中。
致谢
作者要感谢Tom Hart博士和企鹅观察组织(Penguin Watch)提供的企鹅(Science-Count)基准数据集中的视频,感谢Enzo Liotti博士提供的晶体(Science-Count)基准数据集中的视频,感谢Jer Pelhan对GeCo的大力支持,以及感谢Siyuan Li对MASA的大力支持。本研究由亚马逊奖学金(AWS Studentship)、鲁本基金会(Reuben Foundation)、牛津大学AIMS CDT项目、英国工程与自然科学研究理事会(EPSRC)项目资助VisualAI EP/T028572/1,以及英国皇家学会研究教授职位RP\R1\191132资助。