边界不连续性及其与最终检测度量的不一致是旋转检测回归设计的瓶颈。在本文中,我们提出了一种基于高斯Wasserstein距离的新型回归损失作为解决问题的基本方法。具体地,旋转边界盒被转换为2-D高斯分布,这使得能够通过梯度反向传播可以有效地学习的高斯Wassersein距离(GWD)来近似逼降旋转IOU诱导损失。 GWD仍然可以进行信息,即使在两个旋转边界盒之间没有重叠,通常是小对象检测的情况。由于其三种独特的特性,GWD也可以挽救解决边界不连续性和方形的问题,而不管如何定义边界框。使用不同探测器的五个数据集的实验显示了我们方法的有效性。代码在https://github.com/yangxue0827/rotationDetection提供。
translated by 谷歌翻译
现有检测方法通常使用参数化边界框(Bbox)进行建模和检测(水平)对象,并将其他旋转角参数用于旋转对象。我们认为,这种机制在建立有效的旋转检测回归损失方面具有根本的局限性,尤其是对于高精度检测而言,高精度检测(例如0.75)。取而代之的是,我们建议将旋转的对象建模为高斯分布。一个直接的优势是,我们关于两个高斯人之间距离的新回归损失,例如kullback-leibler Divergence(KLD)可以很好地对齐实际检测性能度量标准,这在现有方法中无法很好地解决。此外,两个瓶颈,即边界不连续性和正方形的问题也消失了。我们还提出了一种有效的基于高斯度量的标签分配策略,以进一步提高性能。有趣的是,通过在基于高斯的KLD损失下分析Bbox参数的梯度,我们表明这些参数通过可解释的物理意义进行了动态更新,这有助于解释我们方法的有效性,尤其是对于高精度检测。我们使用量身定制的算法设计将方法从2-D扩展到3-D,以处理标题估计,并在十二个公共数据集(2-D/3-D,空中/文本/脸部图像)上进行了各种基本检测器的实验结果。展示其优越性。
translated by 谷歌翻译
现有的旋转对象探测器主要来自水平检测范式,因为后者已经进化到发达的区域。然而,由于当前回归设计的限制,这些检测器难以在高精度检测中进行突出的高精度检测,尤其是具有大纵横比的对象。在旋转物体检测的情况下,采用透视图,在本文中,在旋转和水平检测的关系方面,我们有动力改变从感应范例到扣除方法的旋转回归损失。我们表明一个基本挑战是如何调制旋转回归损耗中的耦合参数,因为这种估计参数可以以自适应和协同方式在动态联合优化期间彼此影响。具体地,我们首先将旋转边界框转换为2-D高斯分布,然后计算高斯分布之间的Kullback-Leibler发散(KLD)作为回归损耗。通过分析每个参数的梯度,我们显示KLD(及其衍生物)可以根据对象的特征动态调整参数梯度。它将根据宽高比调整角度参数的重要性(梯度重量)。随着高精度检测,这种机制对于大角度误差会导致大型纵横比对象的严重精度下降至关重要。更重要的是,我们证明了KLD是规模不变的。我们进一步表明,KLD丢失可以退化为流行的$ l_ {n} $ - 常规损耗进行水平检测。使用不同探测器的七个数据集的实验结果显示其一致的优势,并且在https://github.com/yangxue0827/rotationDetection提供代码。
translated by 谷歌翻译
面向边界框回归对于定向对象检测至关重要。但是,基于回归的方法通常会遭受边界问题以及损失和评估指标之间的不一致性。在本文中,提出了一个调制的卡尔曼·伊奥(Kalman iou)损失,命名为Mkiou。为了避免边界问题,我们将定向边界框转换为高斯分布,然后使用卡尔曼过滤器近似交叉区域。但是,计算的交叉区域和实际交叉区域之间存在显着差异。因此,我们提出了一个调制因子,以调节角度偏差和宽度高度偏移对损失变化的敏感性,从而使损失与评估度量更一致。此外,高斯建模方法避免了边界问题,但同时引起方形对象的角度混乱。因此,提出了高斯角损失(GA损耗),以通过添加平方目标的校正损失来解决此问题。提出的GA损失可以很容易地扩展到其他基于高斯的方法。在三个公开可用的空中图像数据集(DOTA,UCAS-AOD和HRSC2016)上进行了实验,显示了该方法的有效性。
translated by 谷歌翻译
定向对象检测是在空中图像中的具有挑战性的任务,因为航空图像中的物体以任意的方向显示并且经常密集包装。主流探测器使用五个参数或八个主角表示描述了旋转对象,这遭受了定向对象定义的表示模糊性。在本文中,我们提出了一种基于平行四边形的面积比的新型表示方法,称为ARP。具体地,ARP回归定向对象的最小边界矩形和三个面积比。三个面积比包括指向物体与最小的外接矩形的面积比和两个平行四边形到最小的矩形。它简化了偏移学习,消除了面向对象的角度周期性或标签点序列的问题。为了进一步弥补近横向物体的混淆问题,采用对象和其最小的外缘矩形的面积比来指导每个物体的水平或定向检测的选择。此外,使用水平边界盒和三个面积比的旋转高效交叉点(R-EIOU)丢失和三个面积比旨在优化用于旋转对象的边界盒回归。遥感数据集的实验结果,包括HRSC2016,DOTA和UCAS-AOD,表明我们的方法达到了卓越的检测性能,而不是许多最先进的方法。
translated by 谷歌翻译
With the vigorous development of computer vision, oriented object detection has gradually been featured. In this paper, a novel differentiable angle coder named phase-shifting coder (PSC) is proposed to accurately predict the orientation of objects, along with a dual-frequency version PSCD. By mapping rotational periodicity of different cycles into phase of different frequencies, we provide a unified framework for various periodic fuzzy problems in oriented object detection. Upon such framework, common problems in oriented object detection such as boundary discontinuity and square-like problems are elegantly solved in a unified form. Visual analysis and experiments on three datasets prove the effectiveness and the potentiality of our approach. When facing scenarios requiring high-quality bounding boxes, the proposed methods are expected to give a competitive performance. The codes are publicly available at https://github.com/open-mmlab/mmrotate.
translated by 谷歌翻译
Arbitrary-oriented object detection is a fundamental task in visual scenes involving aerial images and scene text. In this report, we present PP-YOLOE-R, an efficient anchor-free rotated object detector based on PP-YOLOE. We introduce a bag of useful tricks in PP-YOLOE-R to improve detection precision with marginal extra parameters and computational cost. As a result, PP-YOLOE-R-l and PP-YOLOE-R-x achieve 78.14 and 78.28 mAP respectively on DOTA 1.0 dataset with single-scale training and testing, which outperform almost all other rotated object detectors. With multi-scale training and testing, PP-YOLOE-R-l and PP-YOLOE-R-x further improve the detection precision to 80.02 and 80.73 mAP. In this case, PP-YOLOE-R-x surpasses all anchor-free methods and demonstrates competitive performance to state-of-the-art anchor-based two-stage models. Further, PP-YOLOE-R is deployment friendly and PP-YOLOE-R-s/m/l/x can reach 69.8/55.1/48.3/37.1 FPS respectively on RTX 2080 Ti with TensorRT and FP16-precision. Source code and pre-trained models are available at https://github.com/PaddlePaddle/PaddleDetection, which is powered by https://github.com/PaddlePaddle/Paddle.
translated by 谷歌翻译
物体检测在计算机视觉中取得了巨大的进步。具有外观降级的小物体检测是一个突出的挑战,特别是对于鸟瞰观察。为了收集足够的阳性/阴性样本进行启发式训练,大多数物体探测器预设区域锚,以便将交叉联盟(iou)计算在地面判处符号数据上。在这种情况下,小物体经常被遗弃或误标定。在本文中,我们提出了一种有效的动态增强锚(DEA)网络,用于构建新颖的训练样本发生器。与其他最先进的技术不同,所提出的网络利用样品鉴别器来实现基于锚的单元和无锚单元之间的交互式样本筛选,以产生符合资格的样本。此外,通过基于保守的基于锚的推理方案的多任务联合训练增强了所提出的模型的性能,同时降低计算复杂性。所提出的方案支持定向和水平对象检测任务。对两个具有挑战性的空中基准(即,DotA和HRSC2016)的广泛实验表明,我们的方法以适度推理速度和用于训练的计算开销的准确性实现最先进的性能。在DotA上,我们的DEA-NET与ROI变压器的基线集成了0.40%平均平均精度(MAP)的先进方法,以便用较弱的骨干网(Resnet-101 VS Resnet-152)和3.08%平均 - 平均精度(MAP),具有相同骨干网的水平对象检测。此外,我们的DEA网与重新排列的基线一体化实现最先进的性能80.37%。在HRSC2016上,它仅使用3个水平锚点超过1.1%的最佳型号。
translated by 谷歌翻译
最近,已经提出了许多任意定向的物体检测(AOOD)方法并在许多领域中引起了广泛的关注。然而,它们中的大多数基于锚箱或标准高斯热手套。这种标签分配策略不仅可以反映任意取向对象的形状和方向特征,而且还具有高参数调整工作。本文提出了一种称为通用高斯热爱标记(GGH1)的新型Aood方法。具体地,提出了一种无锚性对象适应标签分配(OLA)策略以基于二维(2-D)定向的高斯热手段来定义正面候选物,其反映了任意取向对象的形状和方向特征。基于OLA,开发了定向边界盒(OBB)表示组分(ORC)以指示OBBS并通过神经网络学习适应地调整高斯中心以适应不同对象的特征。此外,具有面积标准化和动态置信度加权的关节优化损耗(JOL)旨在优化不同子特设的错位最佳结果。公共数据集的广泛实验表明,所提出的GGHL具有低参数调整和时间成本的良好性能。此外,通常适用于大多数Aood的方法,以提高其性能,包括嵌入式平台上的轻量级模型。
translated by 谷歌翻译
检测微小的物体是一个非常具有挑战性的问题,因为一个小物体只包含几个像素的大小。我们证明,由于缺乏外观信息,最新的检测器不会对微小物体产生令人满意的结果。我们的主要观察结果是,基于联合(IOU)的相交(例如IOU本身及其扩展)对微小物体的位置偏差非常敏感,并且在基于锚固的检测器中使用时会大大恶化检测性能。为了减轻这一点,我们提出了使用Wasserstein距离进行微小对象检测的新评估度量。具体而言,我们首先将边界框建模为2D高斯分布,然后提出一个新的公制称为标准化的瓦斯汀距离(NWD),以通过相应的高斯分布来计算它们之间的相似性。提出的NWD度量可以轻松地嵌入分配中,非最大抑制作用以及任何基于锚固的检测器的损耗函数,以替换常用的IOU度量。我们在新的数据集上评估了我们的度量,以用于微小对象检测(AI-TOD),其中平均对象大小比现有对象检测数据集小得多。广泛的实验表明,在配备NWD指标时,我们的方法的性能比标准的微调基线高6.7 AP点,并且比最先进的竞争对手高6.0 AP点。代码可在以下网址提供:https://github.com/jwwangchn/nwd。
translated by 谷歌翻译
由于任意方向,大规模和纵横比变化以及物体的极端密度,航行图像中的旋转对象检测仍然具有挑战性。现有的最新旋转对象检测方法主要依赖于基于角度的检测器。但是,角度回归很容易遭受长期的边界问题。为了解决这个问题,我们提出了一个纯粹的无角框架,用于旋转对象检测,称为Point RCNN,该框架主要由Pointrpn和Pointreg组成。特别是,Pointrpn通过用粗到精细的方式转换学到的代表点来生成准确的旋转ROI(RROI),这是由重置的动机。基于学习的Rrois,Pointreg执行角点完善以进行更准确的检测。此外,空中图像通常在类别中严重不平衡,现有方法几乎忽略了这个问题。在本文中,我们还通过实验验证了重新采样罕见类别的图像将稳定训练并进一步改善检测性能。实验表明,我们的点RCNN在常用的空中数据集上实现了新的最先进的检测性能,包括DOTA-V1.0,DOTA-V1.5和HRSC2016。
translated by 谷歌翻译
任意为导向的对象检测(AOOD)在遥感方案中的图像理解起着重要作用。现有的AOOD方法面临歧义和高成本的挑战。为此,提出了由粗粒角分类(CAC)和细粒角回归(FAR)组成的多透明角度表示(MGAR)方法。具体而言,设计的CAC避免了通过离散角编码(DAE)避免角度预测的歧义,并通过使DAE的粒度变形来降低复杂性。基于CAC,FAR的开发是为了优化角度预测,成本比狭窄的DAE粒度要低得多。此外,与IOU指导的自适应重新加权机制相交,旨在提高角度预测的准确性(IFL)。在几个公共遥感数据集上进行了广泛的实验,这证明了拟议的MGAR的有效性。此外,对嵌入式设备进行的实验表明,拟议的MGAR也对轻型部署也很友好。
translated by 谷歌翻译
与通用物体相反,空中目标通常是非轴与具有杂乱的周围环境的任意取向对齐。与回归边界盒取向的主流化方法不同,本文通过利用自适应点表示,提出了一种有效的自适应点学习方法,可以利用自适应点表示来捕获任意定向的实例的几何信息。为此,提出了三个取向的转换功能,以便于准确方向进行分类和本地化。此外,我们提出了一种有效的质量评估和样本分配方案,用于学习在训练期间选择代表导向的检测点样本,能够捕获来自邻近物体或背景噪声的非轴对准特征。引入了空间约束以惩罚ROUST自适应学习的异常点。在包括DotA,HRSC2016,UCAS-AOD和Dior-R的四个具有挑战性的空中数据集上的实验结果证明了我们提出的方法的功效。源代码是可用的:https://github.com/liwentomng/orientedreppoints。
translated by 谷歌翻译
在过去的十年中,由于航空图像引起的物体的规模和取向的巨大变化,对象检测已经实现了自然图像中的显着进展,而不是在空中图像中。更重要的是,缺乏大规模基准已成为在航拍图像(ODAI)中对物体检测发展的主要障碍。在本文中,我们在航空图像(DotA)中的物体检测和用于ODAI的综合基线的大规模数据集。所提出的DOTA数据集包含1,793,658个对象实例,18个类别的面向边界盒注释从11,268个航拍图像中收集。基于该大规模和注释的数据集,我们构建了具有超过70个配置的10个最先进算法的基线,其中已经评估了每个模型的速度和精度性能。此外,我们为ODAI提供了一个代码库,并建立一个评估不同算法的网站。以前在Dota上运行的挑战吸引了全球1300多队。我们认为,扩大的大型DOTA数据集,广泛的基线,代码库和挑战可以促进鲁棒算法的设计和对空中图像对象检测问题的可再现研究。
translated by 谷歌翻译
在对象检测中,广泛采用了非最大抑制(NMS)方法以删除检测到的密集盒的水平重复,以生成最终的对象实例。但是,由于密集检测框的质量降低,而不是对上下文信息的明确探索,因此通过简单的交叉联盟(IOU)指标的现有NMS方法往往在多面向和长尺寸的对象检测方面表现不佳。通过重复删除与常规NMS方法区分,我们提出了一个新的图形融合网络,称为GFNET,用于多个方向的对象检测。我们的GFNET是可扩展的和适应性熔断的密集检测框,可检测更准确和整体的多个方向对象实例。具体而言,我们首先采用一种局部意识的聚类算法将密集检测框分组为不同的簇。我们将为属于一个集群的检测框构建一个实例子图。然后,我们通过图形卷积网络(GCN)提出一个基于图的融合网络,以学习推理并融合用于生成最终实例框的检测框。在公共可用多面向文本数据集(包括MSRA-TD500,ICDAR2015,ICDAR2017-MLT)和多方向对象数据集(DOTA)上进行广泛实验。
translated by 谷歌翻译
现有的锚定面向对象检测方法已经实现了惊人的结果,但这些方法需要一些手动预设盒,这引入了额外的超参数和计算。现有的锚定方法通常具有复杂的架构,并且不易部署。我们的目标是提出一种简单易于部署的空中图像检测算法。在本文中,我们介绍了基于FCOS的单级锚定旋转对象检测器(FCOSR),可以在大多数平台上部署。 FCOSR具有简单的架构,包括卷积图层。我们的工作侧重于培训阶段的标签分配策略。我们使用椭圆中心采样方法来定义面向定向框(obb)的合适采样区域。模糊样本分配策略为重叠对象提供合理的标签。为解决采样问题不足,设计了一种多级采样模块。这些策略将更合适的标签分配给培训样本。我们的算法分别在DOTA1.0,DOTA1.5和HRSC2016数据集上实现79.25,75.41和90.15映射。 FCOSR在单规模评估中展示了其他方法的卓越性能。我们将轻量级FCOSR模型转换为Tensorrt格式,该格式在Dota1.0上以10.68 fps在jetson Xavier NX上实现73.93映射。该代码可用于:https://github.com/lzh420202/fcosr
translated by 谷歌翻译
检测定向对象以及估计其旋转信息是用于分析遥感图像的一个关键步骤。尽管最近提出了许多方法,但大多数人直接学习在仅单独的一个(例如旋转角度)的监督下预测对象方向或仅为几(例如旋转角度)或几(例如若干坐标)地基值。在训练期间采用了关于提议和旋转信息回归的额外约束,在额外约束,在训练期间采用了更准确的对象检测。为此,我们创新地提出了一种通过Naive几何计算以一致的方式同时学习物体的水平提出,面向建议和旋转角度的机制,作为一个额外的稳定约束(参见图1)。提出了一个导向的中心先前引导标签分配策略,以进一步提高建议的质量,产生更好的性能。广泛的实验表明,配备我们的想法的模型显着优于基线,通过大幅度来实现新的最先进的结果,在推理期间没有任何额外的计算负担。我们提出的想法简单直观,可以随时实现。源代码和培训的型号涉及补充文件。
translated by 谷歌翻译
航空图像中的微小对象检测(TOD)是具有挑战性的,因为一个小物体只包含几个像素。最先进的对象探测器由于缺乏判别特征的监督而无法为微小对象提供令人满意的结果。我们的主要观察结果是,联合度量(IOU)及其扩展的相交对微小物体的位置偏差非常敏感,这在基于锚固的探测器中使用时会大大恶化标签分配的质量。为了解决这个问题,我们提出了一种新的评估度量标准,称为标准化的Wasserstein距离(NWD)和一个新的基于排名的分配(RKA)策略,以进行微小对象检测。提出的NWD-RKA策略可以轻松地嵌入到各种基于锚的探测器中,以取代标准的基于阈值的检测器,从而大大改善了标签分配并为网络培训提供了足够的监督信息。在四个数据集中测试,NWD-RKA可以始终如一地提高微小的对象检测性能。此外,在空中图像(AI-TOD)数据集中观察到显着的嘈杂标签,我们有动力将其重新标记并释放AI-TOD-V2及其相应的基准。在AI-TOD-V2中,丢失的注释和位置错误问题得到了大大减轻,从而促进了更可靠的培训和验证过程。将NWD-RKA嵌入探测器中,检测性能比AI-TOD-V2上的最先进竞争对手提高了4.3个AP点。数据集,代码和更多可视化可在以下网址提供:https://chasel-tsui.g​​ithub.io/ai/ai-tod-v2/
translated by 谷歌翻译
由于鸟瞰视角的任意对象方向和复杂的背景,航空图像中的船舶检测仍然是一个活跃但具有挑战性的任务。大多数现有方法依赖于角度预测或预定义的锚盒,使这些方法对不稳定的角度回归和过度的超参数设置非常敏感。为了解决这些问题,我们用锚角和角度范例替换基于角的对象编码,并提出了一种部署中心的新型探测器,用于编码每个定向对象的四个中点,即MIDnet。 MIDNET设计用于增强船舶中点的对称可变形卷积,然后通过预测相应的离心移位和匹配半径来自适应地匹配相同的船的中心和中点。最后,提出了一种简洁的分析几何算法,以逐步优化中心和中点 - 明智地为建立精确定向的边界盒。在两艘公共船舶检测数据集,HRSC2016和FGSD2021,MIDNet通过实现90.52%和86.50%的AP来实现最先进的探测器。此外,MIDNET在DotA的船舶检测中获得竞争结果。
translated by 谷歌翻译
由于基于相交的联盟(IOU)优化维持最终IOU预测度量和损失的一致性,因此它已被广泛用于单级2D对象检测器的回归和分类分支。最近,几种3D对象检测方法采用了基于IOU的优化,并用3D iou直接替换了2D iou。但是,由于复杂的实施和效率低下的向后操作,3D中的这种直接计算非常昂贵。此外,基于3D IOU的优化是优化的,因为它对旋转很敏感,因此可能导致训练不稳定性和检测性能恶化。在本文中,我们提出了一种新型的旋转旋转iou(RDIOU)方法,该方法可以减轻旋转敏感性问题,并在训练阶段与3D IOU相比产生更有效的优化目标。具体而言,我们的RDIOU通过将旋转变量解耦为独立术语,但保留3D iou的几何形状来简化回归参数的复杂相互作用。通过将RDIOU纳入回归和分类分支,鼓励网络学习更精确的边界框,并同时克服分类和回归之间的错位问题。基准Kitti和Waymo开放数据集的广泛实验验证我们的RDIOU方法可以为单阶段3D对象检测带来实质性改进。
translated by 谷歌翻译