NeurIPS 2023｜PAD：首个位姿无关的工业品异常检测新数据集和方法

作者丨李维泽

来源丨将门创投

编辑丨极市平台

极市导读

本文提出了首个多位姿的异常检测数据集用于与位姿无关的异常检测任务，并首次将神经辐射场 (NeRF) 引入异常检测的算法范式，仅通过RGB图像即可轻松实现物体360°全方位的异常检测！ >>加入极市CV技术交流群，走在计算机视觉的最前沿

本文旨在解决工业品异常检测中存在的“仅使用固定视角信息”的不真实假设，这显然可能漏检被遮挡的在其他视角下的异常区域。为此，清华大学智能产业研究院赵昊老师团队提出了首个多位姿的异常检测数据集用于与位姿无关的异常检测任务，并首次将神经辐射场 (NeRF) 引入异常检测的算法范式，仅通过RGB图像即可轻松实现物体360°全方位的异常检测！基准实验的结果表明：现有方法在位姿无关设置下表现不佳，提出的OmniposeAD实现了新SOTA。目前该成果已被NeurIPS 2023收录。

论文名称：PAD: A Dataset and Benchmark for Pose-agnostic Anomaly Detection

论文链接：https://arxiv.org/abs/2310.07716

开源代码仓库地址：https://github.com/EricLee0224/PAD

一、简介

工业品异常检测是机器视觉领域的一个重要问题，近年来取得了显著的进展。然而，两个重大挑战阻碍了其研究和应用。首先，现有数据集缺乏各种位姿角度的全面视觉信息。他们通常有一个不切实际的假设，即无异常训练数据集是位姿对齐的，并且测试样本与训练数据具有相同的位姿，如图1(a)。然而，在实践中，异常可能存在于物体的任何区域，训练样本和查询样本可能具有不同的位姿，需要对位姿无关的异常检测进行研究。其次，对位姿不可知异常检测的实验协议缺乏共识，导致不同方法之间的不公平比较，阻碍了位姿不可知异常检测的研究。

我们为物体异常检测和定位任务引入的与位姿无关的异常检测（PAD）设置如图 1(b) 所示，它可以正式表述如下：给定一个训练集，其中包含来自物体的多位姿视图的无异常样本，每个样本由位姿信息和RGB 图像组成。另外，每个训练集仅从属于某个物体。在测试期间，给定来自物体的查询（正常或异常）图像 Q，预训练的异常检测模型 M 应区分查询图像 Q 是否异常，如果检测到异常则需要定位像素级的异常区域。

图1. (a) 现有的位姿对齐异常检测假设；(b) 我们提出的位姿无关异常检测设置。M表示预训练异常检测模型

本文的主要贡献总结如下：

我们引入了与位姿无关的异常检测（PAD），这是一种从不同视点/位姿进行物体异常检测的具有挑战性的设置，突破了刻板的位姿对齐设置的限制，并向异常检测和定位任务的真实应用迈出了一步。
我们开发了多位姿异常检测（MAD）数据集，这是评估位姿不可知异常检测的首次尝试。我们的数据集包括 MAD-Sim 和 MAD-Real，包含来自 20 种不同形状和颜色的乐高玩具的多位姿视图的 11,000 多张高分辨率 RGB 图像，为 3 种类型的异常提供像素精确的真值标签。
我们利用MAD 数据集对PAD 设置进行了全面的基准测试。在 8 个不同的范式中，我们精心挑选了 10 种最先进的方法进行评估。我们深入研究了之前未探索过的物体属性与异常检测性能之间的相关性领域。
我们提出了OmniposeAD，利用NeRF 对来自不同视点/位姿的无异常物体进行编码，并将重建的正常参考与查询图像进行比较，以进行与位姿无关的异常检测和定位。它在 MAD 基准上定量和定性均优于以前的方法，这表明了 PAD 设置具有很大探索潜力。

二、多位姿异常检测数据集（MAD）

无监督视觉异常检测尝试使用正常样本和预训练模型的表示来检测形状或纹理异常。由于对工业品质量控制的需求不断增加以及物体形状及其纹理信息的复杂性，针对物体的异常检测引起了大家越来越多的兴趣。然而，现有的物体异常检测数据集和方法是在位姿对齐的假设下设计的，如表1，这限制了从任意位姿视图检测潜在遮挡异常的能力。通过克服位姿对齐异常检测方法的固有限制，位姿无关的异常检测设置在物体可能从不同角度表现出异常的现实场景中提供了增强的灵活性和适用性。

为了支持与位姿无关的异常检测，我们的数据集选择了20个具有不同形状复杂度和颜色对比度的乐高动物玩具作为目标物体，如图 2(a) 所示。这些精选的玩具涵盖各种形状和尺寸，从猫和猪到独角兽和大象等大型动物，以及其他有趣的动物形态。每个动物玩具都经过精心设计和构造，以确保各种形状和复杂性。在选择这些物体时，我们还注意颜色对比。每个动物玩具的构造均采用明亮且充满活力的颜色，使它们在视觉上更具冲击力，并且在图像中易于识别。颜色对比的选择旨在协助算法准确检测和定位不同环境和背景中的异常情况。

图2. (a) MAD数据集中的Lego玩具家族 (b) 三种异常/缺陷种类的示意图。

另外，我们注意到在试图将算法部署在真实异常检测应用中时，通常很难直观的通过对待检测物体观察然后选出合适的异常检测方法。为此我们为了降低测试成本，探索了异常检测任务的一个全新视角：即物体属性和异常检测性能之间的关系。当我们拿到待测物体时，能够很方便从其视觉属性简单的判断选用哪种模型最好。我们的数据集提供了对应的物体属性量化方法和结果，如图3。

三、方法

我们提出的OmniposeAD 由无异常神经辐射场、从粗糙到精细的位姿估计模块以及异常检测和定位模块组成。 在推理过程中，输入为一张任意物体位姿的查询图像 Q。首先，Q 通过从粗糙到精细的位姿估计模块以获得准确的相机视图位姿信息。随后，在预训练的神经辐射场中利用获得的位姿信息来渲染一个正常样例的参考。最后，将参考图与 Q 进行比较以提取异常信息。

3.1 无异常视角参考合成

为了从不同的角度重建无异常参考，我们采用能够合成新颖视图的无监督算法。使用无异常训练集 T ，我们使用普通神经辐射场隐式表示无异常物体，它采用多层感知器（MLP）网络并使用最小化光度损失。

3.2 粗糙到精细的位姿估计

为了使用预训练的神经辐射场生成正常参考，需要确定查询图像的精细相机位姿。为此，我们采用了从粗糙到精细的位姿估计模块，该模块结合了图像检索技术和 iNeRF。

在粗略尺度上，我们的目标是将查询图像 Q 与训练数据库中具有相机位姿的无异常图像粗略对齐，即找到满足以下条件的函数：

首先，我们利用预训练的 EfficientNet-B4 作为特征提取的骨干。按照标准程序，我们将多尺度特征图输入网络以获得描述符 q 。给定一个维度为 H × W 的 3 通道 RGB 查询图像，我们的模型提取紧凑的 64 维描述符或嵌入。然后图像检索任务考虑训练集中每个样本的图像数据库，并给定查询图像 Q，计算：

最后，检索top-1最相似的图像。我们利用最相似图像的对应位姿作为下一阶段的初始粗略位姿。

在精细尺度上，我们使用 iNeRF细化估计的位姿。该方法使我们能够充分利用预先训练的 NeRF 模型并估计相机位姿。iNeRF 在 NeRF 模型的坐标系中获取一些估计的相机位姿并渲染相应的图像观察，然后使用与 NeRF 相同的光度损失函数，但会更新精细位姿MLP 网络的权重。

3.3 异常检测与定位

当使用得到的精细位姿渲染的正常参考和查询图像可用时, 我们使用冻结的预训练 CNN 主干进行特征提取。将第 1 层到第 5 层的特征调整为与查询图像相同的大小。然后将多尺度特征和查询图像连接在一起形成特征图, 与相应的输入像素。查询图像对应于 , 而渲染参考对应于。我们定义特征差异图 , 如方程 3 所示

其中表示通道索引，是空间位置索引。

异常检测异常检测旨在确定图像是否包含异常区域。我们直观地使用平均池化的最大值作为整个图像的异常分数。

异常定位旨在定位异常区域, 生成方程 4 中的异常分数图 , 它为每个像素分配一个异常分数。被计算为方程 3 中特征差向量的 L2 范数。

四、实验

我们的实验旨在广泛评估异常检测算法在位姿不可知的环境中的性能，其中不同类型的异常可能出现在不同的物体位姿中。我们从不同范式中选择了具有代表性的最先进方法，使用我们开发的 MAD 数据集进行公平的初步基准测试，目的是探索现有方法在 PAD 设置中的适用性。此外，我们还评估了我们提出的 OmniposeAD 的性能、正常参考重建结果以及训练位姿/视点丰富度对性能的影响。

4.1 MAD 数据集上的位姿不可知异常检测基准：

我们的实验在 PAD 设置中对最先进的方法和 OmniposeAD 进行了公平的比较，包括像素和图像级 AUROC 性能。表 2 和图 5 表明，OmniposeAD 在 MAD 数据集上实现了位姿无关异常检测评估的最先进性能。具体来说，OmniposeAD 的性能大大优于基于特征嵌入的 CFlow和基于重建的 UniAD， 分别为 7.0/ 19.6 和 8.7/ 28.7。值得注意的是，额外的数据（即在训练阶段使用在 ImageNet 上的预训练模型）总是会带来优势。这种一致的优势可以归因于 ImageNet 广泛的跨越不同位姿的物体表示存储库。与不使用额外训练数据的方法进行直接比较，我们的方法有显著的性能提升， 29.2/ 8.3 的大幅增量证明了这一点。

其中基于特征嵌入和重建的方法，即DRAEM和Cutpaste，都采用伪异常的生成作为数据增强技术。然而，这些方法在 PAD设置中表现出性能显著下降。物体可能以不同的位姿呈现不同的表现，从而导致视觉异常的复杂模式。通过简单的数据增强方法很难有效地表征不同物体位姿的异常情况。 我们的基准证明了 PAD 设置中基于特征嵌入和基于重建的方法的巨大潜力。特别是，对于像素级异常定位任务，STFPM(89.3)、CFlow(90.8)、CFA(89.8)、FAVAE(89.4)和UniAD(89.4)的性能略有波动但基本上可观的表现。然而，除了我们提出的OmniposeAD之外，基准方法在图像级异常检测任务中的性能并不令人满意。值得注意的是，UniAD虽然能够使用单个模型学习多类别异常边界，但仍然难以在 PAD 设置中对多位姿异常实现令人满意的图像级异常检测性能。为了解决这一差距，需要探索擅长捕获多位姿物体正常属性的算法，以在 PAD 设置内实现合理的图像级异常检测性能。

4.2 异常性能与物体属性的相关性:

结果如图6所示，大多数方法的性能与颜色对比度正相关，与结构复杂度负相关，这与我们的直觉一致。值得注意的是，Cutpaste是一种通过自我监督任务生成异常并重建异常的代表性方法，它对颜色对比度敏感，但对形状复杂性的容忍度却令人惊讶。此外，我们还证明了我们提出的 OmniposeAD 对物体属性变化的鲁棒性。

4.3 针对OmniposeAD 重建正常参考的验证：

基于重建的方法和我们提出的 OmniposeAD本质上都重建了正常参考。在异常定位任务的定量结果中，代表性的基于重建的方法FAVAE达到了89.4，我们进一步可视化重建的参考来探索差距。图 7 显示FAVAE 不能很好地重建未见过的位姿的参考（定量结果与视觉事实不符），这暗示现有的评估指标在 PAD 设置中可能不会令人满意。

4.4 密集/稀疏的训练数据对 OmniposeAD 性能的影响：

我们利用 MAD-Real 数据集来评估从密集视点训练数据到稀疏视点训练数据的转变对 OmniposeAD 方法性能的影响，反映了在实际应用中采集数据的困难和缺少可用位姿视角的情况。我们将OmniposeAD模型的训练集样本大小分别控制为100、70和50。如表 3 所示：尽管训练数据稀疏导致性能略有下降，但像素级性能下降不明显，这表明 OmniposeAD 在捕获物体内的局部一致性方面表现出色。 图像级别的下降更为显著，表明稀疏数据影响了 OmniposeAD 从全局角度学习物体整体正常特征的能力。 我们进一步展示了 OmniposeAD 在 MAD-Real 数据集上的多视图异常定位性能，如图 8 所示。

五、总结

结论： 我们引入了与位姿无关的异常检测设置，并开发了 MAD 数据集，这是评估与位姿无关的异常检测算法的首次探索。此外，我们提出 OmniposeAD 来解决物体不同位姿下的无监督异常检测问题，从而避免漏检潜在的被遮挡异常区域。

数据集局限性： MAD数据集中的样本仅包含标准的刚性物体，不包含具有自然变化的物体是因为其复杂性和多样性导致很难收集和量化完整的特征样本。对于OmniposeAD方法，很难泛化到新的物体类别以获得可观的性能；对于所有模块，我们选择了最普通方法来追求鲁棒性，这种方法具有更快的训练时间、更少的训练数据和更真实的高频细节的潜力。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。