打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
重新审视用于新型类实例分割的掩码头架构

视频介绍:重新审视用于新型类实例分割的掩码头架构

实例分割的任务是将图像中的像素分组为单个事物的实例,并使用类标签识别这些事物(可数对象,例如人、动物、汽车等,并为每个对象分配唯一标识符,例如,car_1 和汽车_2)。作为核心计算机视觉任务,它对许多下游应用至关重要,例如自动驾驶汽车、机器人、医学成像和照片编辑。近年来,深度学习在使用Mask R-CNN等架构解决实例分割问题方面取得了重大进展。然而,这些方法依赖于收集大型标记实例分割数据集。但与边界框标签不同,边界框标签每个实例可以在 7 秒内使用极限点击等方法收集,收集实例分割标签(称为“掩码”)每个实例最多可能需要80 秒,这是一项成本高昂的工作,并且为这项研究设置了很高的进入壁垒。而一个相关的任务,泛主题分割,需要更多的标记数据。

的部分监督实例分割设置,其中只有一小部分的类标记与实例分割掩码和剩余的(大多数)类标记仅与包围盒,是具有减少对手动创建的依赖性的潜力的方法掩码标签,从而显着降低开发实例分割模型的障碍。然而,这种部分监督的方法还需要更强大的模型泛化形式来处理训练时看不到的新类别——例如,仅使用动物面具进行训练,然后让模型为建筑物或植物生成准确的实例分割。此外,幼稚的方法,例如训练与类别无关的 Mask R-CNN,同时忽略掩码损失对于没有掩码标签的任何实例,效果不佳。例如,在典型的“VOC/Non-VOC”基准测试中,一个人在COCO 中为 20 个类的子集(称为“可见类”)训练掩码,并在其余 60 个类(称为“未见类”)上进行测试,具有 Resnet-50 骨干网的典型 Mask R-CNN 在未见过的类别上仅达到约 18% 的掩码 mAP(平均平均精度,越高越好),而当完全监督时,它可以在同一套。

在ICCV 2021上发表的“面具头架构对新类分割的惊人影响”中,我们确定了 Mask R-CNN 在新类上表现不佳的罪魁祸首,并提出了两个易于实施的修复(一个训练协议修复,一种掩码头架构修复),它们协同工作以缩小与完全监督性能的差距。我们表明我们的方法通常适用于裁剪然后分割模型,即 Mask R-CNN 或 Mask R-CNN 类架构,它计算整个图像的特征表示,然后随后将每个实例的裁剪传递到第二个-阶段掩码预测网络——也称为掩码头网络。将我们的发现放在一起,我们提出了一个基于 Mask R-CNN 的模型,该模型比当前最先进的模型提高了 4.7% 的掩码mAP,而无需更复杂的辅助损失函数、离线训练的先验或权重传递函数由以前的工作提出。

裁剪方法在部分监督设置中

的影响裁剪然后分割模型的一个重要步骤是裁剪——Mask R-CNN 通过裁剪特征图以及地面实况掩码到与每个实例对应的边界框进行训练。这些裁剪的特征被传递到另一个神经网络(称为掩码头网络),该网络计算最终的掩码预测,然后与掩码损失函数中的地面实况裁剪进行比较。裁剪有两种选择:(1)直接裁剪到实例的真实边界框,或(2)裁剪到模型预测的边界框(称为建议)。在测试时,总是使用建议进行裁剪,因为假设地面实况框不可用。

典型的 Mask R-CNN 实现将两种类型的作物都传递给掩码头。然而,这个选择传统上被认为是一个不重要的实现细节,因为它在完全监督的设置中不会显着影响性能。相比之下,对于部分监督设置,我们发现裁剪方法起着重要作用——虽然在训练期间专门裁剪地面实况框并没有在完全监督设置中显着改变结果,但它在部分监督设置,在看不见的类上表现明显更好。

释放Mask Head 的全部泛化潜力更令人惊讶的是,上述方法开启了一个新现象——在训练期间启用裁剪到地面真相,Mask R-CNN 的 Mask Head 在模型推广到看不见的类。例如,在下图中,我们比较了所有模型都启用了裁剪到地面实况,但在停车计时器、手机和比萨饼(类看不见在训练中)。

特别值得注意的是,掩码头架构之间的这些差异在完全监督的设置中并不那么明显。顺便说一句,这可以解释为什么以前的实例分割工作几乎只使用浅(即,低层数)掩码头,因为增加的复杂性没有任何好处。下面我们在可见类和不可见类上比较三种不同掩码头架构的掩码 mAP。这三个模型在一组可见类上的表现同样出色,但深沙漏蒙版头在应用于不可见类时脱颖而出。我们发现沙漏遮罩头是我们尝试过的架构中最好的,我们使用 50 层或更多层的沙漏遮罩头以获得最佳效果。

最后,我们表明,我们的研究结果是一般性的,持有多种骨干(如RESNET,SpineNet,沙漏)和检测体系结构,包括锚基和无锚探测器,甚至在没有检测的。

将其组合在一起

为了达到最佳效果,我们结合上述调查结果:我们培养了面膜R-CNN模型裁剪到地面实况启用和深沙漏-52口罩头有SpineNet高分辨率图像骨干(1280x1280 )。我们称这种模型为 Deep-MARC(Deep M ask head A bove R - C NN)。在不使用任何离线训练或其他手工制作的先验知识的情况下,Deep-MARC 超过了以前最先进的模型 > 4.5%(绝对)掩码 mAP。展示了这种方法的一般性质,我们还看到了CenterNet 的强大结果基于(与基于 Mask R-CNN 相对)的模型(称为 Deep-MAC),这也超过了之前的技术水平。

结论

我们开发了能够泛化到不属于训练集的类别的实例分割模型。我们强调了可以应用于任何裁剪然后分割模型(例如 Mask R-CNN)的两个关键要素的作用:(1)在训练期间裁剪到地面实况框,以及(2)强大的面具头架构。虽然这两种成分都不会对训练期间可用蒙版的类别产生很大影响,但采用这两种方法可以显着改善训练期间蒙版不可用的新类别。此外,这些成分足以在部分监督的 COCO 基准上实现最先进的性能。最后,我们的发现是普遍的,也可能对相关任务有影响,例如全景分割和姿势估计。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
使用条件卷积进行实例和全景分割
OpenCV4.0 Mask RCNN 实例分割示例 C++/Python实现
用简单Mask分类实现语义分割、实例分割“大一统”!Facebook&UIUC开源MaskFormer
【论文解读】Facebook 何凯明 Mask R-CNN 狙击目标实例分割
深度学习中图像语义分割基准数据集详解
收藏 | 使用Mask-RCNN在实例分割应用中克服过拟合
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服