当前的最新显着性检测模型在很大程度上依赖于精确的像素注释的大型数据集,但是手动标记像素是时必的且劳动力密集的。有一些用于减轻该问题的弱监督方法,例如图像标签,边界框标签和涂鸦标签,而在该领域仍未探索点标签。在本文中,我们提出了一种使用点监督的新型弱监督的显着对象检测方法。为了推断显着性图,我们首先设计了一种自适应掩盖洪水填充算法以生成伪标签。然后,我们开发了一个基于变压器的点保护显着性检测模型,以产生第一轮显着图。但是,由于标签的稀疏性,弱监督模型倾向于退化为一般​​的前景检测模型。为了解决这个问题,我们提出了一种非征服方法(NSS)方法,以优化第一轮中产生的错误显着图,并利用它们进行第二轮训练。此外,我们通过重新标记DUTS数据集来构建一个新的监督数据集(P-DUTS)。在p-duts中,每个显着对象只有一个标记点​​。在五个最大基准数据集上进行的全面实验表明,我们的方法的表现优于先前的最先进方法,该方法接受了更强的监督,甚至超过了几种完全监督的最先进模型。该代码可在以下网址获得:https://github.com/shuyonggao/psod。
translated by 谷歌翻译
视频显着对象检测模型在像素密集注释上训练有素的训练有素,已经达到了出色的性能,但获得像素逐像素注释的数据集很费力。尚未探索几项作品,试图使用涂鸦注释来缓解这个问题,但是尚未探讨点监督作为一种更节省劳动的注释方法(即使是对密集预测的手动注释方法中最多的劳动方法)。在本文中,我们提出了一个基于点监督的强基线模型。为了使用时间信息来推断显着性图,我们分别从短期和长期角度挖掘了框架间的互补信息。具体而言,我们提出了一个混合令牌注意模块,该模块将光流和图像信息从正交方向混合在一起,自适应地突出了关键的光流信息(通道维度)和关键令牌信息(空间维度)。为了利用长期提示,我们开发了长期的跨框架注意模块(LCFA),该模块有助于当前框架基于多框架代币推断出显着对象。此外,我们通过重新标记Davis和DavSod数据集来标记两个分配的数据集P-Davis和P-Davsod。六个基准数据集的实验说明了我们的方法优于先前的最先进的弱监督方法,甚至与某些完全监督的方法相当。源代码和数据集可用。
translated by 谷歌翻译
完全监督的显着对象检测(SOD)方法取得了长足的进步,但是这种方法通常依赖大量的像素级注释,这些注释耗时且耗时。在本文中,我们专注于混合标签下的新的弱监督SOD任务,其中监督标签包括传统无监督方法生成的大量粗标签和少量的真实标签。为了解决此任务中标签噪声和数量不平衡问题的问题,我们设计了一个新的管道框架,采用三种复杂的培训策略。在模型框架方面,我们将任务分解为标签细化子任务和显着对象检测子任务,它们相互合作并交替训练。具体而言,R-NET设计为配备有指导和聚合机制的搅拌机的两流编码器模型(BGA),旨在纠正更可靠的伪标签的粗标签,而S-NET是可更换的。由当前R-NET生成的伪标签监督的SOD网络。请注意,我们只需要使用训练有素的S-NET进行测试。此外,为了确保网络培训的有效性和效率,我们设计了三种培训策略,包括替代迭代机制,小组智慧的增量机制和信誉验证机制。五个草皮基准的实验表明,我们的方法在定性和定量上都针对弱监督/无监督/无监督的方法实现了竞争性能。
translated by 谷歌翻译
Fully convolutional neural networks (FCNs) have shown their advantages in the salient object detection task. However, most existing FCNs-based methods still suffer from coarse object boundaries. In this paper, to solve this problem, we focus on the complementarity between salient edge information and salient object information. Accordingly, we present an edge guidance network (EGNet) for salient object detection with three steps to simultaneously model these two kinds of complementary information in a single network. In the first step, we extract the salient object features by a progressive fusion way. In the second step, we integrate the local edge information and global location information to obtain the salient edge features. Finally, to sufficiently leverage these complementary features, we couple the same salient edge features with salient object features at various resolutions. Benefiting from the rich edge information and location information in salient edge features, the fused features can help locate salient objects, especially their boundaries more accurately. Experimental results demonstrate that the proposed method performs favorably against the state-of-the-art methods on six widely used datasets without any pre-processing and post-processing. The source code is available at http: //mmcheng.net/egnet/.
translated by 谷歌翻译
Fully supervised salient object detection (SOD) has made considerable progress based on expensive and time-consuming data with pixel-wise annotations. Recently, to relieve the labeling burden while maintaining performance, some scribble-based SOD methods have been proposed. However, learning precise boundary details from scribble annotations that lack edge information is still difficult. In this paper, we propose to learn precise boundaries from our designed synthetic images and labels without introducing any extra auxiliary data. The synthetic image creates boundary information by inserting synthetic concave regions that simulate the real concave regions of salient objects. Furthermore, we propose a novel self-consistent framework that consists of a global integral branch (GIB) and a boundary-aware branch (BAB) to train a saliency detector. GIB aims to identify integral salient objects, whose input is the original image. BAB aims to help predict accurate boundaries, whose input is the synthetic image. These two branches are connected through a self-consistent loss to guide the saliency detector to predict precise boundaries while identifying salient objects. Experimental results on five benchmarks demonstrate that our method outperforms the state-of-the-art weakly supervised SOD methods and further narrows the gap with the fully supervised methods.
translated by 谷歌翻译
现有的突出实例检测(SID)方法通常从像素级注释数据集中学习。在本文中,我们向SID问题提出了第一个弱监督的方法。虽然在一般显着性检测中考虑了弱监管,但它主要基于使用类标签进行对象本地化。然而,仅使用类标签来学习实例知识的显着性信息是不普遍的,因为标签可能不容易地分离具有高语义亲和力的显着实例。由于子化信息提供了对突出项的数量的即时判断,因此自然地与检测突出实例相关,并且可以帮助分离相同实例的不同部分的同一类别的单独实例。灵感来自这一观察,我们建议使用课程和镇展标签作为SID问题的弱监督。我们提出了一种具有三个分支的新型弱监管网络:显着性检测分支利用类一致性信息来定位候选物体;边界检测分支利用类差异信息来解除对象边界;和Firedroid检测分支,使用子化信息来检测SALICE实例质心。然后融合该互补信息以产生突出的实例图。为方便学习过程,我们进一步提出了一种渐进的培训方案,以减少标签噪声和模型中学到的相应噪声,通过往复式突出实例预测和模型刷新模型。我们广泛的评估表明,该方法对精心设计的基线方法进行了有利地竞争,这些方法适应了相关任务。
translated by 谷歌翻译
This paper presents the first attempt to learn semantic boundary detection using image-level class labels as supervision. Our method starts by estimating coarse areas of object classes through attentions drawn by an image classification network. Since boundaries will locate somewhere between such areas of different classes, our task is formulated as a multiple instance learning (MIL) problem, where pixels on a line segment connecting areas of two different classes are regarded as a bag of boundary candidates. Moreover, we design a new neural network architecture that can learn to estimate semantic boundaries reliably even with uncertain supervision given by the MIL strategy. Our network is used to generate pseudo semantic boundary labels of training images, which are in turn used to train fully supervised models. The final model trained with our pseudo labels achieves an outstanding performance on the SBD dataset, where it is as competitive as some of previous arts trained with stronger supervision.
translated by 谷歌翻译
无监督的突出物体检测(USOD)对于工业应用和下游任务来说是最重要的意义。基于深度学习(DL)的USOD方法利用多种传统的SOD方法提取的一些低质量的显着性预测,作为显着性提示,主要捕获图像中的一些显着区域。此外,它们通过语义信息的助手优化这些显着性提示,该显着性提示是由其他相关视觉任务中的监督学习训练的一些型号获得的。在这项工作中,我们提出了一种两级激活 - 到显着性(A2S)框架,有效地产生了高质量的显着性提示,并使用这些提示培训强大的耐药性检测器。更重要的是,在整个培训过程中没有人类注释参与我们的框架。在第一阶段中,我们将普雷托网络(MOCO V2)转换为将多级别特征聚合到单个激活图,其中提出了一种自适应决策边界(ADB)来帮助训练变换网络。为了便于生成高质量的伪标签,我们提出了一种损失功能来扩大像素之间的特征距离及其手段。在第二阶段,在线标签纠正(OLR)策略在培训过程中更新伪标签,以减少分散的人的负面影响。此外,我们使用两个残余注意模块(RAM)来构造轻量级显着探测器,其使用低级功能中的互补信息,例如边缘和颜色,从而优化高级功能。对几个SOD基准的广泛实验证明,与现有的USOD方法相比,我们的框架报告了显着性能。此外,在3000张图像上培训我们的框架约1小时,比以前的最先进的方法快30倍。
translated by 谷歌翻译
现有的基于深度学习(基于DL的)无监督的显着对象检测(USOD)方法基于传统显着性方法和预处理深网的先验知识,在图像中学习显着信息。但是,这些方法采用了一种简单的学习策略来训练深层网络,因此无法将培训样本的“隐藏”信息正确地纳入学习过程。此外,对于分割对象至关重要的外观信息仅在网络训练过程后用作后处理。为了解决这两个问题,我们提出了一个新颖的外观引导的细心自进度学习框架,以无视显着对象检测。提出的框架将自定进度的学习(SPL)和外观指导集成到统一的学习框架中。具体而言,对于第一期,我们提出了一个细心的自进度学习(ASPL)范式,该范式以有意义的命令组织培训样本,以逐步挖掘更详细的显着性信息。我们的ASPL促进了我们的框架,能够自动产生软关注权重,以纯粹的自学方式衡量训练样本的学习难度。对于第二期,我们提出了一个外观指南模块(AGM),该模块将每个像素作为显着性边界的概率的局部外观对比,并通过最大化概率找到目标对象的潜在边界。此外,我们通过汇总其他模态数据的外观向量,例如深度图,热图像或光流,将框架进一步扩展到其他多模式SOD任务。关于RGB,RGB-D,RGB-T和视频SOD基准的广泛实验证明,我们的框架可以针对现有的USOD方法实现最新性能,并且与最新的监督SOD方法相当。
translated by 谷歌翻译
弱监督的突出物体检测(WSOD)仅使用低成本注释训练基于CNNS的显着性网络的目标。现有的WSOD方法采用各种技术来从低成本注释追求单一的“高质量”伪标签,然后开发其显着网络。虽然这些方法实现了良好的性能,但是所产生的单个标签不可避免地受到采用的细化算法的影响,并且显示了偏见的特征,这进一步影响了显着网络。在这项工作中,我们介绍了一个新的多伪标签框架,以从多个标签集成更全面和准确的显着性提示,避免上述问题。具体地,我们提出了一种多滤波器指令网络(MFNET),包括显着网络以及多个指令滤波器。指令过滤器(DF)旨在从嘈杂的伪标签中提取和过滤更准确的显着性提示。然后,来自多个DF的多个精确的线索随着多引导损耗同时传播到显着网络。在四个度量标准的五个数据集上进行了广泛的实验表明我们的方法优于所有现有的基础方法。此外,还值得注意的是,我们的框架足够灵活,适用于现有方法并提高其性能。
translated by 谷歌翻译
图像级弱监督的语义分割(WSSS)是一个基本但具有挑战性的计算机视觉任务,促进了场景理解和自动驾驶。大多数现有方法都采用基于分类的类激活地图(CAM)作为初始伪标签进行播放,倾向于关注分割任务的定制特征。为了减轻这个问题,我们提出了一种新的激活调制和重新校准(AMR)方案,它利用聚光灯分支和补偿分支来获得加权凸轮,可以提供可重新校准和特定于任务的概念。具体地,用于重新排列来自信道空间顺序透视的特征重要性的分布,这有助于明确地模拟通道 - 方向的相互依赖性和空间编码,以自适应地调制面向分割的激活响应。此外,我们向双分支引入交叉伪监督,这可以被视为对互动两个分支的语义类似的正则化。广泛的实验表明,AMR在Pascal VOC 2012年数据集上建立了新的最先进的性能,不仅超越了当前方法培训的监督图像水平,而且一些方法依赖于更强的监督,如显着性标签。实验还揭示了我们的计划是即插即用的,可以与其他促进其性能的其他方法合并。
translated by 谷歌翻译
突出对象检测在许多下游任务中发挥着重要作用。然而,复杂的现实世界场景具有不同尺度和突出对象的数量仍然构成挑战。在本文中,我们直接解决了在复杂场景中检测多个突出对象的问题。我们提出了一种在空间和频道空间中的非本地特征信息的网络架构,捕获单独对象之间的远程依赖性。传统的自下而上和非本地特征与特征融合门中的边缘特性相结合,逐渐改进解码器中的突出物体预测。我们表明,即使在复杂的情况下,我们的方法也可以准确地定位多个突出区域。为了证明我们对多个突出对象问题的方法的功效,我们策划仅包含多个突出对象的新数据集。我们的实验证明了所提出的方法在没有任何预处理和后处理的情况下展示了五种广泛使用的数据集的最新结果。我们在我们的多对象数据集中获得了对竞争技术的进一步绩效改进。数据集和源代码是可用的:https://github.com/ericdengbowen/dslrdnet。
translated by 谷歌翻译
玻璃在我们的日常生活中非常普遍。现有的计算机视觉系统忽略了它,因此可能会产生严重的后果,例如,机器人可能会坠入玻璃墙。但是,感知玻璃的存在并不简单。关键的挑战是,任意物体/场景可以出现在玻璃后面。在本文中,我们提出了一个重要的问题,即从单个RGB图像中检测玻璃表面。为了解决这个问题,我们构建了第一个大规模玻璃检测数据集(GDD),并提出了一个名为GDNet-B的新颖玻璃检测网络,该网络通过新颖的大型场探索大型视野中的丰富上下文提示上下文特征集成(LCFI)模块并将高级和低级边界特征与边界特征增强(BFE)模块集成在一起。广泛的实验表明,我们的GDNET-B可以在GDD测试集内外的图像上达到满足玻璃检测结果。我们通过将其应用于其他视觉任务(包括镜像分割和显着对象检测)来进一步验证我们提出的GDNET-B的有效性和概括能力。最后,我们显示了玻璃检测的潜在应用,并讨论了可能的未来研究方向。
translated by 谷歌翻译
由于透明玻璃与图像中的任意物体相同,大多数现有物体检测方法产生较差的玻璃检测结果。与众不同的基于深度学习的智慧不同,只需使用对象边界作为辅助监督,我们利用标签解耦将原始标记的地图(GT)映射分解为内部扩散图和边界扩散图。与两个新生成的地图合作的GT映射破坏了物体边界的不平衡分布,导致玻璃检测质量改善。我们有三个关键贡献来解决透明的玻璃探测问题:(1)我们提出了一个三流神经网络(短暂的呼叫GlassNet),完全吸收三张地图中的有益功能。 (2)我们设计多尺度交互扩张模块,以探索更广泛的上下文信息。 (3)我们开发了一个基于关注的边界意识的功能拼接模块,用于集成多模态信息。基准数据集的广泛实验表明,在整体玻璃检测精度和边界清晰度方面,在SOTA方面对我们的方法进行了明确的改进。
translated by 谷歌翻译
Deep Convolutional Neural Networks have been adopted for salient object detection and achieved the state-of-the-art performance. Most of the previous works however focus on region accuracy but not on the boundary quality. In this paper, we propose a predict-refine architecture, BASNet, and a new hybrid loss for Boundary-Aware Salient object detection. Specifically, the architecture is composed of a densely supervised Encoder-Decoder network and a residual refinement module, which are respectively in charge of saliency prediction and saliency map refinement. The hybrid loss guides the network to learn the transformation between the input image and the ground truth in a three-level hierarchy -pixel-, patch-and map-level -by fusing Binary Cross Entropy (BCE), Structural SIMilarity (SSIM) and Intersectionover-Union (IoU) losses. Equipped with the hybrid loss, the proposed predict-refine architecture is able to effectively segment the salient object regions and accurately predict the fine structures with clear boundaries. Experimental results on six public datasets show that our method outperforms the state-of-the-art methods both in terms of regional and boundary evaluation measures. Our method runs at over 25 fps on a single GPU. The code is available at: https://github.com/NathanUA/BASNet.
translated by 谷歌翻译
Recent progress on salient object detection is substantial, benefiting mostly from the explosive development of Convolutional Neural Networks (CNNs). Semantic segmentation and salient object detection algorithms developed lately have been mostly based on Fully Convolutional Neural Networks (FCNs). There is still a large room for improvement over the generic FCN models that do not explicitly deal with the scale-space problem. Holistically-Nested Edge Detector (HED) provides a skip-layer structure with deep supervision for edge and boundary detection, but the performance gain of HED on saliency detection is not obvious. In this paper, we propose a new salient object detection method by introducing short connections to the skip-layer structures within the HED architecture. Our framework takes full advantage of multi-level and multi-scale features extracted from FCNs, providing more advanced representations at each layer, a property that is critically needed to perform segment detection. Our method produces state-of-theart results on 5 widely tested salient object detection benchmarks, with advantages in terms of efficiency (0.08 seconds per image), effectiveness, and simplicity over the existing algorithms. Beyond that, we conduct an exhaustive analysis on the role of training data on performance. Our experimental results provide a more reasonable and powerful training set for future research and fair comparisons.
translated by 谷歌翻译
弱监督的语义分割(WSSS)是具有挑战性的,特别是当使用图像级标签来监督像素级预测时。为了弥合它们的差距,通常生成一个类激活图(CAM)以提供像素级伪标签。卷积神经网络中的凸轮患有部分激活,即,仅激活最多的识别区域。另一方面,基于变压器的方法在探索具有长范围依赖性建模的全球背景下,非常有效,可能会减轻“部分激活”问题。在本文中,我们提出了基于第一变压器的WSSS方法,并介绍了梯度加权元素明智的变压器注意图(GetAn)。 GetaN显示所有特征映射元素的精确激活,跨越变压器层显示对象的不同部分。此外,我们提出了一种激活感知标签完成模块来生成高质量的伪标签。最后,我们将我们的方法纳入了使用双向向上传播的WSS的结束框架。 Pascal VOC和Coco的广泛实验表明,我们的结果通过显着的保证金击败了最先进的端到端方法,并且优于大多数多级方法.M大多数多级方法。
translated by 谷歌翻译
无弱监督的语义细分(WSSS)段对象没有密度注释的沉重负担。虽然作为价格,产生的伪掩模存在明显的嘈杂像素,其导致在这些伪掩模上训练的次优分割模型。但是罕见的研究通知或解决这个问题,即使在他们改进伪掩码后,即使这些嘈杂的像素也是不可避免的。所以我们试图在噪音缓解的方面提高WSSS。并且我们观察到许多嘈杂的像素具有高置信度,特别是当响应范围太宽或狭窄时,呈现不确定的状态。因此,在本文中,我们通过多次缩放预测映射来模拟响应的噪声变化以进行不确定性估计。然后使用不确定性来重量分割损失以减轻嘈杂的监督信号。我们调用此方法URN,通过响应缩放来缩短来自不确定性估计来噪声缓解。实验验证了URN的好处,我们的方法分别在Pascal VOC 2012和MS Coco 2014上实现了最先进的71.2%和41.5%,而无需额外的型号,如显着性检测。代码可在https://github.com/xmed-lab/urn获得。
translated by 谷歌翻译
在本文中,我们提出了一个新颖的端到端集团协作学习网络,称为GCONET+,该网络可以有效,有效地(250 fps)识别自然场景中的共呈含量对象。提出的GCONET+基于以下两个基本标准,通过采矿共识表示,实现了共同降低对象检测(COSOD)的新最新性能:1)组内紧凑型,以更好地提高共同空位之间的一致性通过使用我们的新颖组亲和力模块(GAM)捕获其固有共享属性的对象; 2)组间可分离性通过引入我们的新组协作模块(GCM)条件对不一致的共识进行调理,从而有效抑制嘈杂对象对输出的影响。为了进一步提高准确性,我们设计了一系列简单但有效的组件,如下所示:i)在语义级别促进模型学习的经常性辅助分类模块(RACM); ii)一个置信度增强模块(CEM)帮助模型提高最终预测的质量; iii)基于小组的对称三重态(GST)损失指导模型以学习更多的判别特征。对三个具有挑战性的基准测试(即可口可乐,COSOD3K和COSAL2015)进行了广泛的实验,这表明我们的GCONET+优于现有的12个尖端模型。代码已在https://github.com/zhengpeng7/gconet_plus上发布。
translated by 谷歌翻译
Deep Neural Networks (DNNs) have substantially improved the state-of-the-art in salient object detection. However, training DNNs requires costly pixel-level annotations. In this paper, we leverage the observation that imagelevel tags provide important cues of foreground salient objects, and develop a weakly supervised learning method for saliency detection using image-level tags only. The Foreground Inference Network (FIN) is introduced for this challenging task. In the first stage of our training method, FIN is jointly trained with a fully convolutional network (FCN) for image-level tag prediction. A global smooth pooling layer is proposed, enabling FCN to assign object category tags to corresponding object regions, while FIN is capable of capturing all potential foreground regions with the predicted saliency maps. In the second stage, FIN is fine-tuned with its predicted saliency maps as ground truth. For refinement of ground truth, an iterative Conditional Random Field is developed to enforce spatial label consistency and further boost performance.Our method alleviates annotation efforts and allows the usage of existing large scale training sets with image-level tags. Our model runs at 60 FPS, outperforms unsupervised ones with a large margin, and achieves comparable or even superior performance than fully supervised counterparts.
translated by 谷歌翻译