本地化自然场景中的文本实例被认为是计算机愿景中的根本挑战。尽管如此,由于实际场景中的极其方向性和文本实例的尺度,大多数传统的文本检测器都遭受子文本问题,该问题仅定位文本实例的片段(即,子文本)。在这项工作中,我们定量分析了子文本问题,并提出了一种简单但有效的设计,对比关系(核心)模块,以减轻该问题。核心首先利用Vanilla关系块来模拟所有文本提案中的关系(多个文本实例的子文本),并以对比的方式进一步通过实例级子文本鉴别来增强关系推理。这种方式自然地学习了文本提案的实例感知表示,从而促进了场景文本检测。我们将核心模块集成到蒙版R-CNN的两级文本检测器中,并设计了我们的文本探测器核心文本。四个基准测试的广泛实验证明了核心文本的优越性。代码可用:\ url {https://github.com/jylins/core-text}。
translated by 谷歌翻译
最近的高性能人对象相互作用(HOI)检测技术受到了基于变压器的对象检测器(即DETR)的高度影响。然而,它们中的大多数直接将参数相互作用查询以一阶段的方式通过香草变压器映射到一组HOI预测中。这会使富裕的相互作用结构富含探索。在这项工作中,我们设计了一种新型的变压器风格的HOI检测器,即相互作用建议(STIP)的结构感知变压器,用于HOI检测。这种设计将HOI集预测的过程分解为两个随后的阶段,即首先执行交互建议的生成,然后通过结构感知的变压器将非参数相互作用建议转换为HOI预测。结构感知的变压器通过对互动提案中的整体语义结构以及每个交互建议中人类/对象的局部空间结构进行整体语义结构来升级香草变压器,从而增强HOI预测。在V-Coco和Hico-Det基准测试上进行的广泛实验已经证明了Stip的有效性,并且在与最先进的HOI探测器进行比较时报告了卓越的结果。源代码可在\ url {https://github.com/zyong812/stip}中获得。
translated by 谷歌翻译
由于字体,大小,颜色和方向的各种文本变化,任意形状的场景文本检测是一项具有挑战性的任务。大多数现有基于回归的方法求助于回归文本区域的口罩或轮廓点以建模文本实例。但是,回归完整的口罩需要高训练的复杂性,并且轮廓点不足以捕获高度弯曲的文本的细节。为了解决上述限制,我们提出了一个名为TextDCT的新颖的轻巧锚文本检测框架,该框架采用离散的余弦变换(DCT)将文本掩码编码为紧凑型向量。此外,考虑到金字塔层中训练样本不平衡的数量,我们仅采用单层头来进行自上而下的预测。为了建模单层头部的多尺度文本,我们通过将缩水文本区域视为正样本,并通过融合来介绍一个新颖的积极抽样策略,并通过融合来设计特征意识模块(FAM),以实现空间意识和规模的意识丰富的上下文信息并关注更重要的功能。此外,我们提出了一种分割的非量最大抑制(S-NMS)方法,该方法可以过滤低质量的掩模回归。在四个具有挑战性的数据集上进行了广泛的实验,这表明我们的TextDCT在准确性和效率上都获得了竞争性能。具体而言,TextDCT分别以每秒17.2帧(FPS)和F-measure的F-MEASIE达到85.1,而CTW1500和Total-Text数据集的F-Measure 84.9分别为15.1 fps。
translated by 谷歌翻译
零拍摄对象检测(ZSD),将传统检测模型扩展到检测来自Unseen类别的对象的任务,已成为计算机视觉中的新挑战。大多数现有方法通过严格的映射传输策略来解决ZSD任务,这可能导致次优ZSD结果:1)这些模型的学习过程忽略了可用的看不见的类信息,因此可以轻松地偏向所看到的类别; 2)原始视觉特征空间并不合适,缺乏歧视信息。为解决这些问题,我们开发了一种用于ZSD的新型语义引导的对比网络,命名为Contrastzsd,一种检测框架首先将对比学习机制带入零拍摄检测的领域。特别地,对比度包括两个语义导向的对比学学习子网,其分别与区域类别和区域区域对之间形成对比。成对对比度任务利用从地面真理标签和预定义的类相似性分布派生的附加监督信号。在那些明确的语义监督的指导下,模型可以了解更多关于看不见的类别的知识,以避免看到概念的偏见问题,同时优化视觉功能的数据结构,以更好地辨别更好的视觉语义对齐。广泛的实验是在ZSD,即Pascal VOC和MS Coco的两个流行基准上进行的。结果表明,我们的方法优于ZSD和广义ZSD任务的先前最先进的。
translated by 谷歌翻译
大多数最先进的实例级人类解析模型都采用了两阶段的基于锚的探测器,因此无法避免启发式锚盒设计和像素级别缺乏分析。为了解决这两个问题,我们设计了一个实例级人类解析网络,该网络在像素级别上无锚固且可解决。它由两个简单的子网络组成:一个用于边界框预测的无锚检测头和一个用于人体分割的边缘引导解析头。无锚探测器的头继承了像素样的优点,并有效地避免了对象检测应用中证明的超参数的敏感性。通过引入部分感知的边界线索,边缘引导的解析头能够将相邻的人类部分与彼此区分开,最多可在一个人类实例中,甚至重叠的实例。同时,利用了精炼的头部整合盒子级别的分数和部分分析质量,以提高解析结果的质量。在两个多个人类解析数据集(即CIHP和LV-MHP-V2.0)和一个视频实例级人类解析数据集(即VIP)上进行实验,表明我们的方法实现了超过全球级别和实例级别的性能最新的一阶段自上而下的替代方案。
translated by 谷歌翻译
行人检测的典型方法侧重于在拥挤的行人之间进行处理,或处理各种行人的各种鳞片。用大量外观多样性检测不同的行人剪影,不同观点或不同的敷料等行人仍然是一个至关重要的挑战。除了大多数现有方法,我们建议使用与学习特征空间中不同外观之间的行人之间的语义距离的方式进行对比学习以引导特征学习,以引导对比学习以引导特征学习。外观多样性,而行人和背景之间的距离最大化。为了促进对比学习的效率和有效性,我们构建具有代表性行人外观的示例性词典作为先验知识,以构建有效的对比训练对并因此引导对比学习。此外,通过测量提议与示例性词典之间的语义距离,进一步利用构建的示例性词典以评估推理期间的行人提案的质量。对白天和夜间行人检测的广泛实验验证了该方法的有效性。
translated by 谷歌翻译
场景文本检测仍然是一个具有挑战性的任务,因为可能存在极小的小或低分辨率的笔划,并且关闭或任意形状的文本。在本文中,提出了通过捕获细粒度的笔划来有效地检测文本,并在图中的分层表示之间推断结构关系。不同于由一系列点或矩形框表示文本区域的现有方法,我们通过笔划辅助预测网络(SAPN)直接本地化每个文本实例的笔划。此外,采用分层关系图网络(HRGN)来执行关系推理和预测链接的可能性,有效地将关闭文本实例和分组节点分类结果分割成任意形状的文本区域。我们介绍了一个小型数据集,其中具有笔划级注释,即SyntheTroke,用于我们模型的脱机预培训。宽范围基准测试的实验验证了我们方法的最先进的性能。我们的数据集和代码将可用。
translated by 谷歌翻译
Recently, models based on deep neural networks have dominated the fields of scene text detection and recognition. In this paper, we investigate the problem of scene text spotting, which aims at simultaneous text detection and recognition in natural images. An end-to-end trainable neural network model for scene text spotting is proposed. The proposed model, named as Mask TextSpotter, is inspired by the newly published work Mask R-CNN. Different from previous methods that also accomplish text spotting with end-to-end trainable deep neural networks, Mask TextSpotter takes advantage of simple and smooth end-to-end learning procedure, in which precise text detection and recognition are acquired via semantic segmentation. Moreover, it is superior to previous methods in handling text instances of irregular shapes, for example, curved text. Experiments on ICDAR2013, ICDAR2015 and Total-Text demonstrate that the proposed method achieves state-of-the-art results in both scene text detection and end-to-end text recognition tasks.
translated by 谷歌翻译
我们介绍了一种名为RobustAbnet的新表检测和结构识别方法,以检测表的边界并从异质文档图像中重建每个表的细胞结构。为了进行表检测,我们建议将Cornernet用作新的区域建议网络来生成更高质量的表建议,以更快的R-CNN,这显着提高了更快的R-CNN的定位准确性以进行表检测。因此,我们的表检测方法仅使用轻巧的RESNET-18骨干网络,在三个公共表检测基准(即CTDAR TRACKA,PUBLAYNET和IIIT-AR-13K)上实现最新性能。此外,我们提出了一种新的基于分裂和合并的表结构识别方法,其中提出了一个新型的基于CNN的新空间CNN分离线预测模块将每个检测到的表分为单元格,并且基于网格CNN的CNN合并模块是应用用于恢复生成细胞。由于空间CNN模块可以有效地在整个表图像上传播上下文信息,因此我们的表结构识别器可以坚固地识别具有较大的空白空间和几何扭曲(甚至弯曲)表的表。得益于这两种技术,我们的表结构识别方法在包括SCITSR,PubTabnet和CTDAR TrackB2-Modern在内的三个公共基准上实现了最先进的性能。此外,我们进一步证明了我们方法在识别具有复杂结构,大空间以及几何扭曲甚至弯曲形状的表上的表格上的优势。
translated by 谷歌翻译
最近,场景文本检测是一个具有挑战性的任务。具有任意形状或大宽高比的文本通常很难检测。以前的基于分段的方法可以更准确地描述曲线文本,但遭受过分分割和文本粘附。在本文中,我们提出了基于关注的特征分解 - 改变 - 用于场景文本检测,它利用上下文信息和低级功能来增强基于分段的文本检测器的性能。在特征融合的阶段,我们引入交叉级注意模块来通过添加融合多缩放功能的注意机制来丰富文本的上下文信息。在概率图生成的阶段,提出了一种特征分解 - 重建模块来缓解大宽高比文本的过分分割问题,其根据其频率特性分解文本特征,然后通过添加低级特征来重建它。实验已经在两个公共基准数据集中进行,结果表明,我们的提出方法实现了最先进的性能。
translated by 谷歌翻译
在对象检测中,广泛采用了非最大抑制(NMS)方法以删除检测到的密集盒的水平重复,以生成最终的对象实例。但是,由于密集检测框的质量降低,而不是对上下文信息的明确探索,因此通过简单的交叉联盟(IOU)指标的现有NMS方法往往在多面向和长尺寸的对象检测方面表现不佳。通过重复删除与常规NMS方法区分,我们提出了一个新的图形融合网络,称为GFNET,用于多个方向的对象检测。我们的GFNET是可扩展的和适应性熔断的密集检测框,可检测更准确和整体的多个方向对象实例。具体而言,我们首先采用一种局部意识的聚类算法将密集检测框分组为不同的簇。我们将为属于一个集群的检测框构建一个实例子图。然后,我们通过图形卷积网络(GCN)提出一个基于图的融合网络,以学习推理并融合用于生成最终实例框的检测框。在公共可用多面向文本数据集(包括MSRA-TD500,ICDAR2015,ICDAR2017-MLT)和多方向对象数据集(DOTA)上进行广泛实验。
translated by 谷歌翻译
物体检测在计算机视觉中取得了巨大的进步。具有外观降级的小物体检测是一个突出的挑战,特别是对于鸟瞰观察。为了收集足够的阳性/阴性样本进行启发式训练,大多数物体探测器预设区域锚,以便将交叉联盟(iou)计算在地面判处符号数据上。在这种情况下,小物体经常被遗弃或误标定。在本文中,我们提出了一种有效的动态增强锚(DEA)网络,用于构建新颖的训练样本发生器。与其他最先进的技术不同,所提出的网络利用样品鉴别器来实现基于锚的单元和无锚单元之间的交互式样本筛选,以产生符合资格的样本。此外,通过基于保守的基于锚的推理方案的多任务联合训练增强了所提出的模型的性能,同时降低计算复杂性。所提出的方案支持定向和水平对象检测任务。对两个具有挑战性的空中基准(即,DotA和HRSC2016)的广泛实验表明,我们的方法以适度推理速度和用于训练的计算开销的准确性实现最先进的性能。在DotA上,我们的DEA-NET与ROI变压器的基线集成了0.40%平均平均精度(MAP)的先进方法,以便用较弱的骨干网(Resnet-101 VS Resnet-152)和3.08%平均 - 平均精度(MAP),具有相同骨干网的水平对象检测。此外,我们的DEA网与重新排列的基线一体化实现最先进的性能80.37%。在HRSC2016上,它仅使用3个水平锚点超过1.1%的最佳型号。
translated by 谷歌翻译
Although it is well believed for years that modeling relations between objects would help object recognition, there has not been evidence that the idea is working in the deep learning era. All state-of-the-art object detection systems still rely on recognizing object instances individually, without exploiting their relations during learning.This work proposes an object relation module. It processes a set of objects simultaneously through interaction between their appearance feature and geometry, thus allowing modeling of their relations. It is lightweight and in-place. It does not require additional supervision and is easy to embed in existing networks. It is shown effective on improving object recognition and duplicate removal steps in the modern object detection pipeline. It verifies the efficacy of modeling object relations in CNN based detection. It gives rise to the first fully end-to-end object detector. Code is available at https://github.com/msracver/ Relation-Networks-for-Object-Detection.
translated by 谷歌翻译
分割高度重叠的图像对象是具有挑战性的,因为图像上的真实对象轮廓和遮挡边界之间通常没有区别。与先前的实例分割方法不同,我们将图像形成模拟为两个重叠层的组成,并提出了双层卷积网络(BCNET),其中顶层检测到遮挡对象(遮挡器),而底层则渗透到部分闭塞实例(胶囊)。遮挡关系与双层结构的显式建模自然地将遮挡和遮挡实例的边界解散,并在掩模回归过程中考虑了它们之间的相互作用。我们使用两种流行的卷积网络设计(即完全卷积网络(FCN)和图形卷积网络(GCN))研究了双层结构的功效。此外,我们通过将图像中的实例表示为单独的可学习封闭器和封闭者查询,从而使用视觉变压器(VIT)制定双层解耦。使用一个/两个阶段和基于查询的对象探测器具有各种骨架和网络层选择验证双层解耦合的概括能力,如图像实例分段基准(可可,亲戚,可可)和视频所示实例分割基准(YTVIS,OVIS,BDD100K MOTS),特别是对于重闭塞病例。代码和数据可在https://github.com/lkeab/bcnet上找到。
translated by 谷歌翻译
基于文本的视频细分旨在通过用文本查询指定演员及其表演动作来细分视频序列中的演员。由于\ emph {emph {语义不对称}的问题,以前的方法无法根据演员及其动作以细粒度的方式将视频内容与文本查询对齐。 \ emph {语义不对称}意味着在多模式融合过程中包含不同量的语义信息。为了减轻这个问题,我们提出了一个新颖的演员和动作模块化网络,该网络将演员及其动作分别定位在两个单独的模块中。具体来说,我们首先从视频和文本查询中学习与参与者相关的内容,然后以对称方式匹配它们以定位目标管。目标管包含所需的参与者和动作,然后将其送入完全卷积的网络,以预测演员的分割掩模。我们的方法还建立了对象的关联,使其与所提出的时间建议聚合机制交叉多个框架。这使我们的方法能够有效地细分视频并保持预测的时间一致性。整个模型允许联合学习参与者的匹配和细分,并在A2D句子和J-HMDB句子数据集上实现单帧细分和完整视频细分的最新性能。
translated by 谷歌翻译
We propose a fully convolutional one-stage object detector (FCOS) to solve object detection in a per-pixel prediction fashion, analogue to semantic segmentation. Almost all state-of-the-art object detectors such as RetinaNet, SSD, YOLOv3, and Faster R-CNN rely on pre-defined anchor boxes. In contrast, our proposed detector FCOS is anchor box free, as well as proposal free. By eliminating the predefined set of anchor boxes, FCOS completely avoids the complicated computation related to anchor boxes such as calculating overlapping during training. More importantly, we also avoid all hyper-parameters related to anchor boxes, which are often very sensitive to the final detection performance. With the only post-processing non-maximum suppression (NMS), FCOS with ResNeXt-64x4d-101 achieves 44.7% in AP with single-model and single-scale testing, surpassing previous one-stage detectors with the advantage of being much simpler. For the first time, we demonstrate a much simpler and flexible detection framework achieving improved detection accuracy. We hope that the proposed FCOS framework can serve as a simple and strong alternative for many other instance-level tasks. Code is available at:tinyurl.com/FCOSv1
translated by 谷歌翻译
标记数据通常昂贵且耗时,特别是对于诸如对象检测和实例分割之类的任务,这需要对图像的密集标签进行密集的标签。虽然几张拍摄对象检测是关于培训小说中的模型(看不见的)对象类具有很少的数据,但它仍然需要在许多标记的基础(见)类的课程上进行训练。另一方面,自我监督的方法旨在从未标记数据学习的学习表示,该数据转移到诸如物体检测的下游任务。结合几次射击和自我监督的物体检测是一个有前途的研究方向。在本调查中,我们审查并表征了几次射击和自我监督对象检测的最新方法。然后,我们给我们的主要外卖,并讨论未来的研究方向。https://gabrielhuang.github.io/fsod-survey/的项目页面
translated by 谷歌翻译
Single-frame InfraRed Small Target (SIRST) detection has been a challenging task due to a lack of inherent characteristics, imprecise bounding box regression, a scarcity of real-world datasets, and sensitive localization evaluation. In this paper, we propose a comprehensive solution to these challenges. First, we find that the existing anchor-free label assignment method is prone to mislabeling small targets as background, leading to their omission by detectors. To overcome this issue, we propose an all-scale pseudo-box-based label assignment scheme that relaxes the constraints on scale and decouples the spatial assignment from the size of the ground-truth target. Second, motivated by the structured prior of feature pyramids, we introduce the one-stage cascade refinement network (OSCAR), which uses the high-level head as soft proposals for the low-level refinement head. This allows OSCAR to process the same target in a cascade coarse-to-fine manner. Finally, we present a new research benchmark for infrared small target detection, consisting of the SIRST-V2 dataset of real-world, high-resolution single-frame targets, the normalized contrast evaluation metric, and the DeepInfrared toolkit for detection. We conduct extensive ablation studies to evaluate the components of OSCAR and compare its performance to state-of-the-art model-driven and data-driven methods on the SIRST-V2 benchmark. Our results demonstrate that a top-down cascade refinement framework can improve the accuracy of infrared small target detection without sacrificing efficiency. The DeepInfrared toolkit, dataset, and trained models are available at https://github.com/YimianDai/open-deepinfrared to advance further research in this field.
translated by 谷歌翻译
任意形状的文本检测是一项具有挑战性的任务,这是由于大小和宽高比,任意取向或形状,不准确的注释等各种变化的任务。最近引起了大量关注。但是,文本的准确像素级注释是强大的,现有的场景文本检测数据集仅提供粗粒的边界注释。因此,始终存在大量错误分类的文本像素或背景像素,从而降低基于分割的文本检测方法的性能。一般来说,像素是否属于文本与与相邻注释边界的距离高度相关。通过此观察,在本文中,我们通过概率图提出了一种创新且可靠的基于分割的检测方法,以准确检测文本实例。为了具体,我们采用Sigmoid alpha函数(SAF)将边界及其内部像素之间的距离传输到概率图。但是,由于粗粒度文本边界注释的不确定性,一个概率图无法很好地覆盖复杂的概率分布。因此,我们采用一组由一系列Sigmoid alpha函数计算出的概率图来描述可能的概率分布。此外,我们提出了一个迭代模型,以学习预测和吸收概率图,以提供足够的信息来重建文本实例。最后,采用简单的区域生长算法来汇总概率图以完成文本实例。实验结果表明,我们的方法在几个基准的检测准确性方面实现了最先进的性能。
translated by 谷歌翻译
基于对比的学习的预培训的目标是利用大量的未标记数据来产生可以容易地调整下游的模型。电流方法围绕求解图像辨别任务:给定锚图像,该图像的增强对应物和一些其他图像,该模型必须产生表示,使得锚和其对应物之间的距离很小,并且锚和其他图像很大。这种方法存在两个重要问题:(i)通过对比图像级别的表示,很难生成有利于下游对象级任务(如实例分段)的详细对象敏感功能; (ii)制造增强对应的增强策略是固定的,在预培训的后期阶段做出更低的学习。在这项工作中,我们引入课程对比对象级预培训(CCOP)来解决这些问题:(i)我们使用选择性搜索来查找粗略对象区域并使用它们构建图像间对象级对比度损耗和一个图像内对象级别歧视损失进入我们的预训练目标; (ii)我们提出了一种课程学习机制,其自适应地增强所生成的区域,这允许模型一致地获取有用的学习信号,即使在预训练的后期阶段也是如此。我们的实验表明,当在多对象场景图像数据集上进行预训练时,我们的方法通过大量对象级任务的大幅度提高了MoCo V2基线。代码可在https://github.com/chenhongyiyang/ccop中找到。
translated by 谷歌翻译