当前位置：首页 > news >正文

DeepSort：论文翻译

news 2025/6/27 14:18:23

文章目录

摘要
1、简介
2、利用深度关联度量进行排序
- 2.1、轨迹处理和状态估计
- 2.3、匹配的级联
- 2.4、深度外观描述符
3、实验
4、结论

论文链接：https://arxiv.org/pdf/1703.07402.pdf

摘要

简单在线实时跟踪(SORT)是一种实用的多目标跟踪方法，专注于简单、有效的算法。在本文中，我们集成外观信息来提高SORT算法的性能。由于这一扩展，我们能够通过较长时间的遮挡跟踪对象，有效地减少了身份开关的数量。在原始框架的精神下，我们将大量的计算复杂性放在离线预训练阶段，在这个阶段我们学习了大规模人员再识别数据集上的深度关联度量。在在线应用过程中，我们使用可视化外观空间中的最近邻居查询建立测量到跟踪的关联。实验评估表明，我们的扩展将身份开关的数量减少了45%，在高帧速率下实现了整体竞争性能。

索引术语-计算机视觉，多目标跟踪，数据关联

1、简介

随着目标检测技术的发展，基于检测的跟踪已成为多目标跟踪领域的主流。在这个范例中，对象轨迹通常是在一个全局优化问题中发现的，该问题一次处理整个视频批次。例如，流网络公式[1,2,3]和概率图形模型[4,5,6,7]已经成为这种类型的流行框架。但是，由于批处理的原因，这些方法不适用于在线场景，因为每个时间步骤都必须有一个目标标识。更传统的方法是多假设跟踪(MHT)[8]和联合概率数据关联过滤器(JPDAF)[9]。这些方法在逐帧的基础上执行数据关联。在JPDAF中，单个状态假设是通过对单个测量值的关联可能性进行加权而生成的。在MHT中，所有可能的假设都被跟踪，但为了计算的可处理性，必须应用修剪方案。这两种方法最近在检测跟踪场景中被重新使用[10,11]，并显示出有前途的结果。然而，这些方法的性能增加了计算和实现的复杂性。
在这里插入图片描述

简单在线和实时跟踪(SORT)[12]是一个更简单的框架，它在图像空间中执行卡尔曼滤波，使用匈牙利方法进行逐帧数据关联，并使用关联度量来测量边界框重叠。这种简单的方法在高帧速率下获得了良好的性能。在MOT挑战数据集[13]上，具有最先进的人员检测器[14]的SORT在标准检测上的平均排名高于MHT。这不仅强调了目标检测器性能对整体跟踪结果的影响，而且从从业者的角度来看也是一个重要的见解。

虽然在跟踪精度和准确性方面实现了良好的总体性能，但SORT返回了相对较高的身份切换数量。这是因为所采用的关联度量只在状态估计不确定性较低时才准确。因此，SORT在通过遮挡进行跟踪方面存在缺陷，因为遮挡通常出现在正面视角的相机场景中。我们通过将关联度量替换为结合了运动和外观信息的更有信息的度量来克服这个问题。特别是，我们应用了卷积神经网络(CNN)，该网络经过训练，可以在大规模的人再识别数据集上识别行人。通过集成该网络，我们提高了对遗漏和遮挡的鲁棒性，同时保持系统易于实现，高效，并适用于在线场景。我们的代码和预训练的CNN模型是公开的，以促进研究实验和实际应用开发。

2、利用深度关联度量进行排序

我们采用传统的单假设跟踪方法，递归卡尔曼滤波和逐帧数据关联。在下一节中，我们将更详细地描述该系统的核心组件。

2.1、轨迹处理和状态估计

轨迹处理和卡尔曼滤波框架与[12]中的原始公式基本相同。我们假设一个非常一般的跟踪场景，摄像机是未校准的，我们没有可用的自我运动信息。虽然这些情况对过滤框架构成了挑战，但它是最近多对象跟踪基准测试[15]中考虑的最常见的设置。因此，我们的跟踪场景是在八维状态空间 $\gamma, h, \dot{x}, \dot{y}, \dot{\gamma}, \dot{h})$ ，包含边界框中心位置 $(u, v)$ ，长宽比 $γ\gamma$ ，高度h，以及它们在图像坐标中的速度。我们使用一个标准的卡尔曼滤波器与恒速度运动和线性观测模型，其中我们取边界坐标 $\gamma, h)$ 作为对物体状态的直接观察。

对于每个轨道k，我们计算自上次成功测量关联ak以来的帧数。该计数器在卡尔曼滤波预测期间递增，并在跟踪与测量相关联时重置为0。超过预定最大Amax时间的轨迹被认为已经离开场景并从轨迹集中删除。对于每一个不能与现有轨迹相关联的检测，都会启动新的轨迹假设。这些新的跟踪被归类为初步在前三帧。在此期间，我们希望在每个时间步都有一个成功的度量关联。在前三帧内未成功关联到测量的轨道将被删除。

为了整合运动信息，我们使用预测卡尔曼状态和新到达的测量值之间的(平方)马氏距离:
$d(1)(i,j)=(dj−yi)TSi−1(dj−yi)(1)d^{(1)}(i, j)=\left(\boldsymbol{d}_{j}-\boldsymbol{y}_{i}\right)^{\mathrm{T}} \boldsymbol{S}_{i}^{-1}\left(\boldsymbol{d}_{j}-\boldsymbol{y}_{i}\right) \tag{1}$
其中，我们用 $(yi,Si)(\boldsymbol{y}_{i},\boldsymbol{S}_{i})$ 表示第i个轨道分布到测量空间的投影，用 $dj\boldsymbol{d}_{j}$ 表示第j个检测框。马氏距离通过测量检测距离平均轨迹位置有多少个标准差来考虑状态估计的不确定性。此外，使用这一指标，可以通过在反向χ2分布计算的95%置信区间对马氏距离进行阈值，从而排除不太可能的关联。我们用一个指标来表示这个决定
$bi,j(1)=1[d(1)(i,j)≤t(1)](2)b_{i, j}^{(1)}=\mathbb{1}\left[d^{(1)}(i, j) \leq t^{(1)}\right] \tag{2}$

如果第i个轨道和第j个检测之间的关联是可接受的，则计算为1。对于我们的四维测量空间，相应的马氏阈值是 $t^{(1)}$ = 9.4877。

当运动不确定性较低时，马氏距离是一个合适的关联度量，在我们的图像空间问题公式中，从卡尔曼滤波框架中获得的预测状态分布仅提供了物体位置的粗略估计。特别是，未解释的摄像机运动可以在图像平面中引入快速位移，使得马氏距离成为通过遮挡跟踪的一个相当不知情的度量。因此，我们将第二个度量集成到分配问题中。对于每个边界框检测 $dj\boldsymbol{d}_{j}$ ，我们用 $∥rj∥=1\left\|\boldsymbol{r}_{j}\right\|=1$ 计算一个外观描述符 $rj\boldsymbol{r}_{j}$ 。此外，我们为每个轨道k保留最后 $L_{k}=100$ 个相关外观描述符的图库 $Rk={rk(i)}k=1Lk\mathcal{R}_{k}= \left\{\boldsymbol{r}_{k}^{(i)}\right\}_{k=1}^{L_{k}}$ 。然后，我们的第二个指标测量外观空间中第i个轨道和第j个检测之间的最小余弦距离:
$d(2)(i,j)=min⁡{1−rjTrk(i)∣rk(i)∈Ri}.(3)d^{(2)}(i, j)=\min \left\{1-\boldsymbol{r}_{j}^{\mathrm{T}} \boldsymbol{r}_{k}^{(i)} \mid \boldsymbol{r}_{k}^{(i)} \in \mathcal{R}_{i}\right\} . \tag{3}$

再次，我们引入了一个二元变量来表示根据这个度量是否允许关联
$bi,j(2)=1[d(2)(i,j)≤t(2)](4)b_{i, j}^{(2)}=\mathbb{1}\left[d^{(2)}(i, j) \leq t^{(2)}\right] \tag{4}$
我们在一个单独的训练数据集中为这个指标找到一个合适的阈值。在实践中，我们应用预先训练好的CNN来计算边界框外观描述符。该网络的结构将在2.4节中描述。

结合起来，这两个度量标准通过服务于分配问题的不同方面而相互补充。一方面，马氏距离提供了基于运动的可能物体位置的信息，这对短期预测特别有用。另一方面，余弦距离考虑的外观信息是特别有用的恢复身份后，长期咬合，当运动的区别不大。为了构建关联问题，我们使用加权和将两个指标结合起来
$ci,j=λd(1)(i,j)+(1−λ)d(2)(i,j)(5)c_{i, j}=\lambda d^{(1)}(i, j)+(1-\lambda) d^{(2)}(i, j) \tag{5}$

我们称一个关联为可接受的，如果它在两个指标的门控区域内:
$bi,j=∏m=12bi,j(m).(6)b_{i, j}=\prod_{m=1}^{2} b_{i, j}^{(m)} . \tag{6}$

通过超参数λ可以控制各指标对组合关联成本的影响。在我们的实验中，我们发现当有大量的相机运动时，设置λ = 0是一个合理的选择。在此设置中，关联成本项中只使用外观信息。然而，马氏门仍然被用来忽略基于卡尔曼滤波器推断的可能目标位置的不可行分配。

2.3、匹配的级联

本文引入了一个级联来解决一系列子问题，而不是在全局分配问题中解决测量到跟踪的关联。为了激励这种方法，考虑以下情况:当一个物体被遮挡的时间较长时，随后的卡尔曼滤波预测增加了与物体位置相关的不确定性。因此，概率质量在状态空间中扩散，观测似然峰值变小。直观地说，关联度量应该通过增加测量到轨道的距离来解释这种概率质量的扩散。与直觉相反，当两个航迹竞争同一检测时，马氏距离倾向于更大的不确定性，因为它有效地减少了任何检测的标准差距离到预测航迹平均值。这是一种不受欢迎的行为，因为它会导致增加轨道碎片和不稳定的轨道。因此，我们引入了一个匹配级联，优先考虑更常见的对象，以编码我们的关联似然中的概率分布概念。
在这里插入图片描述

Listing 1概述了我们的匹配算法。作为输入，我们提供了轨迹 $T\mathcal{T}$ 和检测 $D\mathcal{D}$ 指数集以及最大年龄 $A_{max}$ 。在第1行和第2行中，我们计算关联成本矩阵和可接受关联矩阵。然后我们迭代轨道年龄n，以解决一个线性分配问题的轨迹年龄增加。在第6行中，我们选择在最后n帧中没有与检测相关联的轨道 $Tn\mathcal{T}_{n}$ 的子集。在第7行中，我们解决了 $Tn\mathcal{T}_{n}$ 轨道和不匹配检测 $U\mathcal{U}$ 之间的线性分配。在第8行和第9行中，我们更新匹配集和未匹配检测，并在第11行完成后返回。请注意，这种匹配级联优先考虑年龄较小的轨迹，即。最近才看到的痕迹。

在最后的匹配阶段，我们在年龄n = 1的未经确认和未匹配的轨迹集上，运行原始SORT算法[12]中提出的联合关联交叉。这有助于解释突然的外观变化，例如，由于静态场景几何的部分遮挡，并增加对错误初始化的鲁棒性。

2.4、深度外观描述符

通过使用简单的最近邻查询，而不需要额外的度量学习，我们的方法的成功应用需要在实际的在线跟踪应用之前离线训练具有良好辨别能力的特征嵌入。为此，我们使用了一个经过大规模人员再识别数据集[21]训练的CNN，该数据集包含1261名行人的110多万张图像，使其非常适合在人员跟踪环境中进行深度度量学习。
在这里插入图片描述

我们网络的CNN架构如表1所示。总之，我们使用了一个宽残差网络[22]，它有两个卷积层，后面跟着六个残差块。在致密层10中计算维度为128的全局特征图。最后一批和 $ℓ2\ell_{2}$ 归一化将特征投射到单位超球上，以与我们的余弦外观度量兼容。总的来说，网络有2,800,864个参数，在Nvidia GeForce GTX 1050移动GPU上，一个32个边界框的向前传递大约需要30毫秒。因此，这个网络非常适合在线跟踪，前提是有一个现代的GPU可用。虽然我们的训练过程的细节超出了本文的范围，但我们在GitHub存储库中提供了一个预训练的模型，以及一个可用于生成特征的脚本。

3、实验

我们在MOT16基准[15]上评估我们的跟踪器的性能。该基准评估了七个具有挑战性的测试序列的跟踪性能，包括移动摄像头的正面场景以及自上而下的监视设置。作为我们跟踪器的输入，我们依赖于Yu et al.[16]提供的检测。他们在公共和私人数据集上训练了一个Faster-RCNN，以提供出色的性能。为了进行公平的比较，我们在相同的检测上重新运行了SORT。

利用λ = 0和 $A_{max}$ = 30帧对试验序列进行评价。与[16]一样，检测阈值为0:3的置信分数。我们的方法的其余参数已经找到了由基准提供的单独的训练序列。评估依据以下指标进行:

多目标跟踪精度(MOTA):根据假阳性、假阴性和身份开关[23]总结总体跟踪精度。
多目标跟踪精度(MOTP):根据地面真相和报告位置[23]之间的包围盒重叠来总结总体跟踪精度。
大部分跟踪(MT):在至少80%的生命周期内具有相同标签的真实跟踪的百分比。
大部分丢失(ML):在其生命周期中最多追踪20%的基本真相轨迹的百分比。
身份切换(ID):地面真相轨道报告的身份更改的次数。
碎片(FM):由于缺失检测而中断轨道的次数。

评估结果如表2所示。我们的适应成功地减少了身份切换的数量。与SORT相比，ID切换从1423减少到781。这大约减少了45%。同时，由于通过遮挡和遗漏保持目标身份，轨迹碎片略有增加。我们还看到大部分被跟踪的物体数量显著增加，大部分丢失的物体数量减少。总的来说，由于外观信息的整合，我们成功地在较长时间的遮挡下保持身份。这一点也可以从我们在补充材料中提供的跟踪输出的定性分析中看出。图1显示了跟踪器的示例输出。
在这里插入图片描述

我们的方法也是其他在线跟踪框架的有力竞争者。特别是，我们的方法在所有在线方法中返回最少数量的身份切换，同时保持有竞争力的MOTA分数、轨道碎片和假阴性。报告的跟踪精度主要受到大量误报的影响。考虑到它们对MOTA评分的整体影响，对检测应用更大的置信阈值可能会极大地提高我们算法的报告性能。然而，对跟踪输出的视觉检查表明，这些假阳性主要是由静态场景几何上的零星检测器响应产生的。由于我们相对较大的最大允许轨道年龄，这些更常见地连接到物体轨迹。同时，我们没有观察到在假警报之间频繁跳跃的轨道。相反，跟踪器通常在报告的对象位置生成相对稳定的静止轨道。

我们的实现以大约20 Hz的频率运行，大约一半的时间花在特征生成上。因此，给定现代GPU，系统保持计算效率，并实时运行。