RelationNet++：通过 Transformer 解码器构建视觉表示 ...

牛翠花 · 发表于 2023-7-18 08:33:03

RelationNet++ 是一个目标检测模型，它使用了 Transformer 解码器来处理视觉特征。RelationNet++ 通过学习物体之间的关系来提高检测准确率，同时也考虑了物体本身的特征。相比于传统方法，RelationNet++ 能够更好地处理遮挡、旋转和尺度变化等问题。
论文链接：https://arxiv.org/abs/2010.15831
代码链接：https://github.com/microsoft/RelationNet2
现有的各种检测算法通常利用单一的格式来表示物体，比如 RetinaNet 和 Faster R-CNN 中的矩形框、FCOS 和 RepPoints 中的物体中心点、CornerNet 中的角点、以及 RepPoints 和 PSN 中的点集。图1展示了四个主流框架的物体表示形式，以及初始化的物体表示形式如何形成最终的检测框。可以看到，不同的物体表示形式分别利用其框架的特征来回归最终的检测框。

图1：通用物体检测框架的物体表示形式不同的物体表示形式都有其优缺点，例如矩形框表示的优点是更符合现有的物体标注；中心点表示可以避免负责的锚点（anchor）设计，对小物体也更友好；角点表示则对于定位更加准确，对大物体地检测更好、更准。
但由于这些不同表示在特征提取上的异构性和非均匀性，很难将它们有机地融合在一个检测框架中。因此，微软亚洲研究院的研究员们设计了一个 BVR (Briding Visual Representations) 模块来弥合不同的表达方法，它利用 Transformer 中的解码器来实现异构的各种物体表示之间的联系。
对于一个常见的检测器，其使用的物体表示形式被称之为“主表示”（master representation)，而其它物体表示形式被称为“辅助表示“（auxiliary representation）。在 BVR 模块中，主表示作为查询(query)，类似于机器翻译中的目标语言，辅助表示作为关键字（key），可类比为机器翻译中的源语言，于是就可以将辅助表示的信息融合到主表示中，增强主表示的特征并最终帮助这一检测器。
BVR 模块可以很方便地插入到主流的检测器中，并广泛提升这些检测器的性能，例如在 Faster R-CNN、RetinaNet、FCOS 以及 ATSS 上，这一模块均带来了 1.5~3.0AP 的性能提升。图2展示了如何将 BVR 模块插入到 RetinaNet 中。

图2：如何将 BVR 模块插入到 RetinaNet 中RetinaNet 中，在基于矩形框的锚点表示分支的基础上，额外增加了关于点的预测的头部网络分支，用于预测中心点（center）和角点（corner），并作为主分支的辅助表示（auxiliary representation）。在建模主表示和辅助表示间关系时，需同时考虑表观间的关系，如果将所有的中心点/角点都作为查询输入的话，将会带来极大的计算复杂度。因此，研究员们提出了只利用得分 top-k 的查询选择策略来降低运算、提升效果，并且利用空间域插值的方式来计算几何关系，进一步降低运算代价。关于如何将 BVR 插入到 FCOS、Faster R-CNN 以及 FOCS 中，请阅读原论文进行了解。
最后，将 BVR 模块插入到 ATSS 中时，该模型被称之为 RelationNet++，在 COCO test-dev 集合上达到了 52.7 AP 的性能，如表1所示。

表1：RelationNet++ 在 COCO test-dev 集合上达到了 52.7 AP 的性能
需要注意的是，不久前的 DETR 检测器在视觉领域取得了较大的影响。DETR 主要探讨了 Transformers 应用于物体检测领域的可行性，而 BVR 则关注于提升物体检测器，通过弥合不同物体表示的优点，从而取得更高的性能。另一方面，在建模上两种方式也有所不同，BVR 采用的是稀疏健值（key），并证明了其相比稠密健值更加有效且高效。

邹彬 · 发表于 2025-1-26 02:34:02

楼主呀，，，您太有才了。。。

		自动登录	找回密码
密码			立即注册

RelationNet++：通过 Transformer 解码器构建视觉表示 ...

浏览过的版块