编者按：

在许多军事应用中，自动检测和跟踪作战人员以及车辆目标可以极大地提高态势感知能力。目前为止，行业研究人员已经提出了各种检测和跟踪算法，随着深度学习的出现，该方法通常优于基于规则的方法。在MS-COCO等数据集上预训练的神经网络可以在军事数据集上给出合理的检测性能。然而，为了获得最佳性能，建议使用代表性数据集优化这些预训练网络。在典型的军事环境中，如何获取足够的数据，合理地划分训练集和测试集是一个挑战。

在本文中，技术人员评估微调军事数据和比较不同的前处理和后处理方法。首先，技术人员比较了一个标准的预训练RetinaNet探测器和一个微调版本，在相似的物体上训练，这些物体被记录在不同于测试集中距离的地方。接下来，技术人员通过增加和减少训练示例的大小来扩充它们，一旦检测到，技术人员使用模板跟踪器跟踪对象，以补偿任何丢失的检测信息。

在此项目中展示了在军事远程探测环境中对可见光图像中的作战人员和车辆目标进行检测和跟踪的结果。结果表明，在适度杂乱的陆地环境中，对神经网络进行微调具有附加值，其最终网络性能与人类检测目标的视觉性能相似，目标区域为几十个像素。

关键词：人体检测，车辆检测，跟踪，训练神经网络

1.引言

在军事环境中，人类操作员通过使用光电（EO）传感器获取目标特性数据，达到探测及跟踪的目的。对于人类操作员来说，探测和跟踪车辆、舰船或人类目标是一项非常耗时的任务。在军事环境中，态势感知至关重要，丢失重要目标可能会造成灾难性后果。虽然人类操作员一次只能看一个方向，但算法可以同时考虑多个观察方向。对于不同光谱的图像，如RGB和红外，已经开发了各种算法来帮助完成这些任务。对于检测和跟踪任务，深度学习方法的性能优于传统的基于规则的方法。在考虑监视和救援任务等情况时，应尽快准确地探测和跟踪可能造成危险或处于危险中的目标，例如坦克或人。因此，这些方法的目标是检测和跟踪可能构成威胁的目标或可能处于危险中的目标。

在以前的工作中，研究结果表明，基于深度学习的探测器在海军杂乱的背景下工作良好，例如在港口场景。技术人员同时展示一个时空模型，同时评估多个帧，可以提高小目标的检测质量。

目前，大多数最先进的SOTA模型都是单级探测器，利用预定义的目标检测。单级探测器的网络结构允许只处理一次图像，而两级检测器将图像两次馈送到网络，一次用于区域建议，第二次用于回归这些建议。

这些方法都考虑了单一的检测框架，并在像MS-cooand这样的学术数据集上进行了训练和评估图像网。这些数据集通常由清晰可见的对象组成。在本文中，技术人员的目的是证明一级检测器，在中度混乱和噪声的帧上表现良好，甚至对于面积只有几十个像素的目标也是如此。

像MS COCO这样的数据集有很多相同类别的图像，例如不同的视角或同一类别的不同颜色目标。在军事领域，多样化和完整的数据集是稀缺的，有些技术人员试图仿真数据，并使用增强技术来创建综合的军事实例对象。本文使用的数据集包含9个不同车辆的视频，9个摄像机距离目标从1000米到5000米不等，以及人类目标，在6个距离从500米到5000米不等缓慢或快速移动的视频。视频中的帧自然是高度相关的，即使是相同距离的对象的不同视频也包含相关性（因为背景相似，尽管并不总是相等的）。因此，技术人员根据对象的距离将测试集和训练集分开，并通过随机放大或缩小，演示如何使用数据增强来仿真来自训练集中未包含的距离的数据。

本文有两个主要贡献。第一种是使用数据增强，即随机缩放，以仿真在训练期间模型看不到的距离处的对象。二是采用跟踪器与RetinaNet和变焦增强相结合的方法来提高军事领域目标的整体探测率。

2.研究方法

在本节中，技术人员将介绍本项目的研究方法。首先，技术人员展示了使用的数据集的一些例子，并解释了技术人员的预处理步骤，接着是技术人员的目标检测和跟踪方法。

2.1数据集

现有的数据集包括视频记录的军用车辆和人类目标在多个距离的灰度。在这个数据集中，人们区分了慢步子和快步子行走的人。人类目标以“8”字形行走，距离从500米到3000米，步幅为500米。军用车辆分为9个不同类别，列于表1。车辆记录的距离从1000米开始，最远可达5000米，间隔为500米。所有的车辆都围成一圈行驶。图1显示了来自不同距离的示例帧。所有视频都是用摄像机以每秒30帧的帧速率录制的，分辨率为640×480像素，数据保存为12位帧。

2.2距离仿真

为了优化目标检测方法，技术人员进行了几个预处理步骤。这些步骤描述如下。

摄像机在每段距离都有一个静止位置，处于相同距离的每个物体，都是从相机的相同位置记录下来的。由于背景相似，这导致相同距离的视频之间的高度相关性。因此，为了将数据集公平地划分为训练集和测试集，并防止在背景下过度训练，技术人员采用了基于距离的分割方法。对于所有的车辆，技术人员不考虑3000米的距离，对于人类目标则为2000米。这些选定的测试距离既不是每个目标的最大距离，也不是最小距离。因此，技术人员的训练集包含比测试集更大和更小的对象示例。

为了仿真在训练中被忽略的距离的物体，技术人员使用缩放，技术人员以16%的最大值随机进行，这确保在最大缩放时，3500米的物体看起来和3000米的物体一样大。

图 1 数据集示例：BTR70装甲运兵车。左边在1000米处；右边在3000米处

表 1 数据集中的类

除了距离仿真之外，技术人员还添加了一小部分增强，包括最大为10%的随机旋转，概率为0.5%的左右翻转。

RetinaNet是技术人员使用的模型，技术人员将在第下一节中讨论它，它使用锚定框，因此受最小目标的约束。为了防止大距离丢失小目标，技术人员将输入图像的大小增加一倍。由于训练集中最小的对象的面积比最小的锚点小，因此可以选择这个双尺寸，这样就可以检测到训练集中最小的对象。沿通道轴复制灰度帧以仿真RGB图像的三个通道并匹配RetinaNet的输入层。

2.3目标检测

对于目标检测，技术人员使用了RetinaNet和ResNet50是一个单级目标检测器和分类器。利用ResNet进行深度特征提取。一个特征金字塔网络通过横向连接来构造语义弱和语义强的特征，如图2所示。RetinaNet的头部被分成两个子网，因此有两种类型的输出：类和包围盒。边界框是基于锚框的建议。在此之前，技术人员定义了许多不同大小和形状的矩形。这些矩形，称为锚框，每个都得到一个由网络根据特征图分配的分数。然后，通过阈值分数过滤这些建议。对于最终方案，重叠框按非最大抑制进行排序和过滤。班级在技术人员的管道中，网络的子网和盒子子网一起被微调，所以网络的结构不需要调整。

图 2 RetinaNet结构

技术人员微调已经在MS上预先训练的包含80个类，并替换了分类器的最后一层，使得网络能够区分数据集中的11个类而不是MS-COCO中的80个类。探测距离最大的目标，分别是3000米和5000米的人类目标和车辆目标，实际显示都非常小，RetinaNet由锚点的大小限制。因此，除了将输入图像的大小加倍之外，技术人员还将最小的锚点大小从32减小到16。这也意味着最大锚定大小从813减小到406，但是，由于技术人员感兴趣的是检测较小的对象而不是较大的对象，所以这不是一个问题。

2.4跟踪

跟踪步骤链接了一段时间内可能属于同一对象的检测。当检测和轨迹边界框之间至少有0.1 IoU重叠时，检测与现有轨迹关联。否则，探测将形成新的轨迹，因为它们可能属于以前从未见过的物体。利用判别尺度空间，通过模板匹配步骤计算出预测轨迹位置，从而确定关联追踪器。这个模板跟踪器不仅能够学习识别目标的外观，还能够在运动过程中跟踪目标，甚至在尺度变化时跟踪目标。除了不断更新目标的外观表示之外，技术人员还基于与轨迹相关联的新检测更新模板维度。

3.研究实验

在本节中，技术人员将首先描述数据的注释方式，然后是技术人员的实验设置和使用的评估指标。

3.1注释

为了训练目标探测器，技术人员需要两个坐标，宽度和高度。但是，可用的注释仅提供边界框的中心坐标。除了中心点之外，对象和摄影机之间的距离以及摄影机的方向也是可用的。此方面定义了对象指向的方向角，与摄影机正交。通过使用已知的对象尺寸和相机规格，技术人员估计了宽度、高度。

当目标直接朝向或远离摄影机时，对象的宽度看起来最小，而当与摄影机正交时，目标的宽度看起来最大。

在所有视频中，只有目标对象（如表1所示）被注释。由于在某些视频中，其他（移动的）目标在背景中是可见的，没有注释，因此技术人员选择在测试期间裁剪出这些部分的帧。因此，这些部件不会馈送到网络。在图3中可以找到这样一个背景中移动对象的例子。即使这会导致技术人员的识别率下降，并将导致更偏颇的评估结果。

图 3 绿色：注释对象。红色：未注对象

3.2实验设置

对于人和车辆目标，技术人员选择可用距离的中位数作为测试集，因为训练数据将包含较小和较大目标距离的示例。人类目标的中间距离为2000米，车辆目标的中间距离为3000米。这导致训练集中的目标比与测试集中的目标大小并不一致。由于连续的帧非常相似，因此并非每一帧都包含在技术人员的训练集中：训练帧在每20个记录帧处采样，从而产生7920个图像的训练集。

技术人员的目标探测器是单级探测器RetinaNet。虽然一个两级探测器，性能更加优越，RetinaNet提供有竞争力的检测性能，是更快，更有效的，因此技术人员的选择是合理的。

技术人员以10-5的学习率对网络进行了30个阶段的培训，批量大小为2。权重优化使用Adamoptimizer和焦点损失，根据RetinaNet。与使用RetinaNet进行评估的惯例一样，重叠检测建议使用非最大值抑制进行过滤，且联合交叉（IoU）得分至少为0.5。也就是说，当边界框的IoU至少为0.5时，仅使用置信度最高的框。其次，技术人员比较了使用物体探测器与使用物体探测器结合跟踪器，看看跟踪器是否提高了性能。

4.结果

在本节中，技术人员将展示本次实验结果。技术人员首先比较了使用和不使用数据增强模型的结果，然后评估了与跟踪器相结合的目标检测器。

为了为技术人员的模型建立一个基线，研究了在MS-COCO上训练的RetinaNet的性能，使用与技术人员实验中相同的参数设置。当没有进行微调时，即使每一帧都包含一个感兴趣的对象，模型也无法在测试集中的大多数视频中检测到任何对象。此外，如果检测到视频中的对象，则在不到0.1%的帧中发生这种情况。

表 2 F1成绩

4.1数据扩充

在图4和图5中，显示了两条线。蓝线表示使用数据增强（包括缩放）的曲线，而黄线表示不使用缩放的数据增强。红点和黑点分别表示使用缩放和不使用缩放时的最大F1分数。这些F1分数也可以在表2中找到。

对于所有目标，除了一个2S3，F1分数更高的使用缩放作为数据增强。在不使用缩放增强的情况下（2S3），召回率较低。

图 4 增强的结果是人类目标。黄线：无缩放。蓝线：缩放。黑点和红点：分别为无缩放和缩放时的最大F1分数

图 5 增强结果。黄线：无缩放。蓝线：缩放。黑点和红点：分别为无缩放和缩放时的最大F1分数

4.2跟踪器

表2、图6和图7分别给出了每个类的结果。在精度召回曲线中，绘制了两个点：红点表示F1分数达到最大值的点，召回精度曲线中的绿色十字表示跟踪器的精度和召回。这些点在表2中也用数字表示。在F1分数图中，绿色十字等于全局最佳分数阈值处的F1分数。

图 6 追踪器的结果是人类目标。蓝线：没有追踪器。红点：F1最高得分。绿色x：跟踪结果

图 7 跟踪结果车辆。蓝线：没有追踪器。红点：F1最高得分。绿色x：跟踪结果

如图6所示，使用跟踪器对人体目标检测没有好处。虽然查全率略高，但查准率却急剧下降，这导致人类目标的F1分数较低。

图 8 失败的例子。左：非最大抑制故障。右：跟踪器故障

另一方面，当技术人员查看图7时，技术人员可以看到跟踪器的附加值。对于大多数车辆来说，F1成绩有所提高。无一例外，所有车辆的召回率都比没有的高。

5.讨论

在4.1中，技术人员展示了使用zoom作为数据增强的结果。技术人员已经看到，除了一个目标类外，所有目标类的F1分数都通过使用zoom得到了提高。因此，技术人员得出结论，使用缩放作为数据增强的一种形式，可以在训练期间不包括的距离上仿真目标对象。

在4.2中，技术人员展示了跟踪器的使用结果。通过使用物体探测器顶部的跟踪器，9辆车中有6辆的F1成绩有所提高。当目标检测器返回误报时，跟踪器会失败，因为误报仍然会被跟踪。这适用于人和车辆目标。因此，总的来说，在这种情况下使用跟踪器没有任何改进。为了克服这个问题，必须研究非最大值抑制和分数阈值的适应性。例如，通过使用较小的重叠来抑制较小对象（如人类目标）的边界框。此外，模板匹配分数可能用于终止偏离对象的轨迹。

技术人员确定了未来研究的三个领域。首先是防止后台过度训练。第二是改进对小目标的检测和跟踪。第三个也是最后一个是防止跟踪器跟踪错误检测。

对于这个给定的数据集，据技术人员所知，没有比基于到摄像机的距离更好的方法来分割测试和训练集中的数据。然而，由于所有帧中的背景，对于所有视频都可以说是相似的，过度训练仍然是非常可能的。也就是说，存在这样的可能性：网络是一个异常检测器，而不是一个目标检测器。为了证明缩放保证了模型对对象大小的不变性，技术人员计划更广泛地探索这一领域。

由于2000米处的人类目标相当小，模型的几个部分出现故障。第一个原因是，由于目标很小，对于每个人来说，模型预测精确拟合的边界框是一个挑战。这会导致多个方案彼此接近，但不足以被非最大值抑制过滤掉。对于这种情况，有几种合理的解释：锚定框宽高比不允许人类目标的长方形边界框，注释不够精确，或者非最大抑制没有充分执行。这会导致误报，如图8的左图所示。根据Pruim等人的研究，当包含时空因素时，可以在探测小物体方面进行改进。

这个管道的第二个缺点与跟踪器有关。当边界框未被非最大化抑制抑制时，跟踪器仍尝试跟踪边界框。因此，每一个错误检测，仍然是多帧跟踪，导致更多的错误检测。结果可以在图8的右图中找到。尽管大多数类的准确率较低，但由于F1分数是召回率和准确率之间的折中，召回率的增加超过了较低的准确率，从而导致F1分数的增加。以前发现的对象，但在给定的帧太难检测。因此，当目标探测器发生故障时，跟踪器将接管。

6.结论

技术人员利用最新的检测和跟踪算法以及通过缩放来增加探测距离，研究了在多个距离上对人和车辆的检测和跟踪。技术人员的结论是，使用缩放作为数据增强的一部分，在看不见的距离仿真目标，大大提高了性能。因此，在学习用于自动目标检测的神经网络时，使用变焦作为增强的多距离仿真是扩展军事训练数据的一个很好的选择。

结束语

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。