尽管有重要的表示能力,但馈通仅卷积神经网络(CNNS)可以忽略视觉任务中反馈连接的内在关系和潜在好处。在这项工作中,我们提出了一个反馈递归卷积框架(SALFBNET),可加于显着性检测。所提出的反馈模型可以通过从更高级别的特征块到低级层来缩小递归通路来学习丰富的上下文表示。此外,我们创建了一个大规模的伪显着数据集来缓解显着性检测的数据缺陷问题。我们首先使用所提出的反馈模型来从伪地面真理中学习显着分布。之后,我们微调现有眼固定数据集的反馈模型。此外,我们提出了一种新颖的选择性固定和非固定误差(SFNE)丢失,以使提出的反馈模型更好地学习可区分的基于眼固定的特征。广泛的实验结果表明,我们的SALFBNET具有较少参数的竞争结果对公共显着性检测基准进行了竞争力,这证明了提出的反馈模型和伪显着数据的有效性。源代码和伪显着数据集可以在https://github.com/gqding/salfbnet找到
translated by 谷歌翻译
使用变压器 - 卷积神经网络(CNN)的视觉显着性预测具有显着的高级计算模型,以实现显着性预测。但是,准确模拟人类皮层中视觉注意的机制仍然是一个学术挑战。将人类视力的属性集成到CNN体系结构的设计中,这是至关重要的,从而导致感知上更相关的显着性预测。由于CNN体系结构的固有归纳偏见,因此缺乏足够的长距离上下文编码能力。这阻碍了基于CNN的显着性模型,无法捕获模仿人类观看行为的属性。通过利用自我发项机制来编码远程信息,变形金刚在编码远程信息方面表现出了巨大潜力。在本文中,我们提出了一个新颖的显着性模型,该模型将变压器组件集成到CNNs以捕获远程上下文视觉信息。实验结果表明,变压器为显着性预测提供了附加的价值,从而增强了其在性能中的感知相关性。我们提出的使用变压器的显着性模型在公共基准和显着性预测模型的竞争上取得了卓越的成果。我们提出的显着模型TransAlnet的源代码可在以下网址获得:https://github.com/ljovo/transalnet
translated by 谷歌翻译
玻璃在我们的日常生活中非常普遍。现有的计算机视觉系统忽略了它,因此可能会产生严重的后果,例如,机器人可能会坠入玻璃墙。但是,感知玻璃的存在并不简单。关键的挑战是,任意物体/场景可以出现在玻璃后面。在本文中,我们提出了一个重要的问题,即从单个RGB图像中检测玻璃表面。为了解决这个问题,我们构建了第一个大规模玻璃检测数据集(GDD),并提出了一个名为GDNet-B的新颖玻璃检测网络,该网络通过新颖的大型场探索大型视野中的丰富上下文提示上下文特征集成(LCFI)模块并将高级和低级边界特征与边界特征增强(BFE)模块集成在一起。广泛的实验表明,我们的GDNET-B可以在GDD测试集内外的图像上达到满足玻璃检测结果。我们通过将其应用于其他视觉任务(包括镜像分割和显着对象检测)来进一步验证我们提出的GDNET-B的有效性和概括能力。最后,我们显示了玻璃检测的潜在应用,并讨论了可能的未来研究方向。
translated by 谷歌翻译
RGB和深度图像上的突出物体检测(SOD)引起了越来越多的研究兴趣,因为它的有效性和现在可以方便地捕获深度线索的事实。现有的RGB-D SOD模型通常采用不同的融合策略来学习来自两个模态(\即RGB和深度)的共享表示,而几个方法明确考虑如何保留特定模态特征。在这项研究中,我们提出了一种新的框架,被称为SPNET}(特异性保存网络),这通过探索共享信息和模态特定属性(例如,特异性)来利益SOD性能。具体地,我们建议采用两个模态特定的网络和共享学习网络来分别生成个体和共享显着性预测映射。为了有效地融合共享学习网络中的跨模型特征,我们提出了一个交叉增强的集成模块(CIM),然后将融合特征传播到下一个层以集成交叉级信息。此外,为了捕获丰富的互补多模态信息,用于提高SOD性能,我们提出了一个多模态特征聚合(MFA)模块,将每个单独解码器的模态特定功能集成到共享解码器中。通过使用跳过连接,可以完全组合编码器和解码器层之间的分层功能。广泛的实验表明我们的〜\我们的〜优于六种流行的RGB-D SOD和三个伪装对象检测基准测试的前沿方法。该项目可在公开提供:https://github.com/taozh2017/spnet。
translated by 谷歌翻译
Recent progress on salient object detection is substantial, benefiting mostly from the explosive development of Convolutional Neural Networks (CNNs). Semantic segmentation and salient object detection algorithms developed lately have been mostly based on Fully Convolutional Neural Networks (FCNs). There is still a large room for improvement over the generic FCN models that do not explicitly deal with the scale-space problem. Holistically-Nested Edge Detector (HED) provides a skip-layer structure with deep supervision for edge and boundary detection, but the performance gain of HED on saliency detection is not obvious. In this paper, we propose a new salient object detection method by introducing short connections to the skip-layer structures within the HED architecture. Our framework takes full advantage of multi-level and multi-scale features extracted from FCNs, providing more advanced representations at each layer, a property that is critically needed to perform segment detection. Our method produces state-of-theart results on 5 widely tested salient object detection benchmarks, with advantages in terms of efficiency (0.08 seconds per image), effectiveness, and simplicity over the existing algorithms. Beyond that, we conduct an exhaustive analysis on the role of training data on performance. Our experimental results provide a more reasonable and powerful training set for future research and fair comparisons.
translated by 谷歌翻译
由于复杂且巨大的模型结构,大多数现有的显着对象检测(SOD)模型很难应用。尽管提出了一些轻巧的模型,但准确性几乎不令人满意。在本文中,我们设计了一种新颖的语义引导的上下文融合网络(SCFNET),该网络重点介绍了多层次特征的交互式融合,以进行准确有效的显着对象检测。此外,我们将知识蒸馏应用于SOD任务,并提供相当大的数据集KD-SOD80K。详细说明,我们通过未标记的图像将丰富的知识从经验丰富的老师转移到未经训练的SCFNET,使SCFNET能够学习强大的概括能力,以更准确地检测显着对象。基于知识蒸馏的SCFNET(KDSCFNET)具有与最先进的重量级方法相当的精度,该方法少于1M参数和174 fps实时检测速度。广泛的实验证明了所提出的蒸馏方法和SOD框架的鲁棒性和有效性。代码和数据:https://github.com/zhangjincv/kd-scfnet。
translated by 谷歌翻译
Existing state-of-the-art salient object detection networks rely on aggregating multi-level features of pretrained convolutional neural networks (CNNs). Compared to high-level features, low-level features contribute less to performance but cost more computations because of their larger spatial resolutions. In this paper, we propose a novel Cascaded Partial Decoder (CPD) framework for fast and accurate salient object detection. On the one hand, the framework constructs partial decoder which discards larger resolution features of shallower layers for acceleration. On the other hand, we observe that integrating features of deeper layers obtain relatively precise saliency map. Therefore we directly utilize generated saliency map to refine the features of backbone network. This strategy efficiently suppresses distractors in the features and significantly improves their representation ability. Experiments conducted on five benchmark datasets exhibit that the proposed model not only achieves state-of-the-art performance but also runs much faster than existing models. Besides, the proposed framework is further applied to improve existing multi-level feature aggregation models and significantly improve their efficiency and accuracy.
translated by 谷歌翻译
现有的突出实例检测(SID)方法通常从像素级注释数据集中学习。在本文中,我们向SID问题提出了第一个弱监督的方法。虽然在一般显着性检测中考虑了弱监管,但它主要基于使用类标签进行对象本地化。然而,仅使用类标签来学习实例知识的显着性信息是不普遍的,因为标签可能不容易地分离具有高语义亲和力的显着实例。由于子化信息提供了对突出项的数量的即时判断,因此自然地与检测突出实例相关,并且可以帮助分离相同实例的不同部分的同一类别的单独实例。灵感来自这一观察,我们建议使用课程和镇展标签作为SID问题的弱监督。我们提出了一种具有三个分支的新型弱监管网络:显着性检测分支利用类一致性信息来定位候选物体;边界检测分支利用类差异信息来解除对象边界;和Firedroid检测分支,使用子化信息来检测SALICE实例质心。然后融合该互补信息以产生突出的实例图。为方便学习过程,我们进一步提出了一种渐进的培训方案,以减少标签噪声和模型中学到的相应噪声,通过往复式突出实例预测和模型刷新模型。我们广泛的评估表明,该方法对精心设计的基线方法进行了有利地竞争,这些方法适应了相关任务。
translated by 谷歌翻译
完全监督的显着对象检测(SOD)方法取得了长足的进步,但是这种方法通常依赖大量的像素级注释,这些注释耗时且耗时。在本文中,我们专注于混合标签下的新的弱监督SOD任务,其中监督标签包括传统无监督方法生成的大量粗标签和少量的真实标签。为了解决此任务中标签噪声和数量不平衡问题的问题,我们设计了一个新的管道框架,采用三种复杂的培训策略。在模型框架方面,我们将任务分解为标签细化子任务和显着对象检测子任务,它们相互合作并交替训练。具体而言,R-NET设计为配备有指导和聚合机制的搅拌机的两流编码器模型(BGA),旨在纠正更可靠的伪标签的粗标签,而S-NET是可更换的。由当前R-NET生成的伪标签监督的SOD网络。请注意,我们只需要使用训练有素的S-NET进行测试。此外,为了确保网络培训的有效性和效率,我们设计了三种培训策略,包括替代迭代机制,小组智慧的增量机制和信誉验证机制。五个草皮基准的实验表明,我们的方法在定性和定量上都针对弱监督/无监督/无监督的方法实现了竞争性能。
translated by 谷歌翻译
培训RGB-D突出物体检测(SOD)的深层模型通常需要大量标记的RGB-D图像。然而,不容易获取RGB-D数据,这限制了RGB-D SOD技术的发展。为了减轻这个问题,我们介绍了双半RGB-D突出物体检测网络(DS-Net),以利用未标记的RGB图像来提高RGB-D显着性检测。我们首先设计了深度去耦卷积神经网络(DDCNN),其包含深度估计分支和显着性检测分支。深度估计分支用RGB-D图像训练,然后用于估计所有未标记的RGB图像的伪深度映射以形成配对数据。显着性检测分支用于熔断RGB特征和深度特征以预测RGB-D显着性。然后,整个DDCNN被分配为师生学生框架中的骨干,用于半监督学习。此外,我们还引入了对未标记数据的中间注意力和显着性图的一致性损失,以及标记数据的监督深度和显着性损失。七种广泛使用的基准数据集上的实验结果表明,我们的DDCNN定量和定性地优于最先进的方法。我们还证明,即使在使用具有伪深度图的RGB图像时,我们的半监控DS-Net也可以进一步提高性能。
translated by 谷歌翻译
无监督的突出物体检测(USOD)对于工业应用和下游任务来说是最重要的意义。基于深度学习(DL)的USOD方法利用多种传统的SOD方法提取的一些低质量的显着性预测,作为显着性提示,主要捕获图像中的一些显着区域。此外,它们通过语义信息的助手优化这些显着性提示,该显着性提示是由其他相关视觉任务中的监督学习训练的一些型号获得的。在这项工作中,我们提出了一种两级激活 - 到显着性(A2S)框架,有效地产生了高质量的显着性提示,并使用这些提示培训强大的耐药性检测器。更重要的是,在整个培训过程中没有人类注释参与我们的框架。在第一阶段中,我们将普雷托网络(MOCO V2)转换为将多级别特征聚合到单个激活图,其中提出了一种自适应决策边界(ADB)来帮助训练变换网络。为了便于生成高质量的伪标签,我们提出了一种损失功能来扩大像素之间的特征距离及其手段。在第二阶段,在线标签纠正(OLR)策略在培训过程中更新伪标签,以减少分散的人的负面影响。此外,我们使用两个残余注意模块(RAM)来构造轻量级显着探测器,其使用低级功能中的互补信息,例如边缘和颜色,从而优化高级功能。对几个SOD基准的广泛实验证明,与现有的USOD方法相比,我们的框架报告了显着性能。此外,在3000张图像上培训我们的框架约1小时,比以前的最先进的方法快30倍。
translated by 谷歌翻译
大多数现有的RGB-D突出物体检测方法利用卷积操作并构建复杂的交织融合结构来实现跨模型信息集成。卷积操作的固有局部连接将基于卷积的方法的性能进行了限制到天花板的性能。在这项工作中,我们从全球信息对齐和转换的角度重新思考此任务。具体地,所提出的方法(Transcmd)级联几个跨模型集成单元来构造基于自上而下的变换器的信息传播路径(TIPP)。 Transcmd将多尺度和多模态特征集成作为序列到序列上下文传播和内置于变压器上的更新过程。此外,考虑到二次复杂性W.R.T.输入令牌的数量,我们设计了具有可接受的计算成本的修补程序令牌重新嵌入策略(Ptre)。七个RGB-D SOD基准数据集上的实验结果表明,在配备TIPP时,简单的两流编码器 - 解码器框架可以超越最先进的基于CNN的方法。
translated by 谷歌翻译
Camouflaged object detection (COD) aims to detect/segment camouflaged objects embedded in the environment, which has attracted increasing attention over the past decades. Although several COD methods have been developed, they still suffer from unsatisfactory performance due to the intrinsic similarities between the foreground objects and background surroundings. In this paper, we propose a novel Feature Aggregation and Propagation Network (FAP-Net) for camouflaged object detection. Specifically, we propose a Boundary Guidance Module (BGM) to explicitly model the boundary characteristic, which can provide boundary-enhanced features to boost the COD performance. To capture the scale variations of the camouflaged objects, we propose a Multi-scale Feature Aggregation Module (MFAM) to characterize the multi-scale information from each layer and obtain the aggregated feature representations. Furthermore, we propose a Cross-level Fusion and Propagation Module (CFPM). In the CFPM, the feature fusion part can effectively integrate the features from adjacent layers to exploit the cross-level correlations, and the feature propagation part can transmit valuable context information from the encoder to the decoder network via a gate unit. Finally, we formulate a unified and end-to-end trainable framework where cross-level features can be effectively fused and propagated for capturing rich context information. Extensive experiments on three benchmark camouflaged datasets demonstrate that our FAP-Net outperforms other state-of-the-art COD models. Moreover, our model can be extended to the polyp segmentation task, and the comparison results further validate the effectiveness of the proposed model in segmenting polyps. The source code and results will be released at https://github.com/taozh2017/FAPNet.
translated by 谷歌翻译
现有的RGB-D SOD方法主要依赖于对称的两个基于CNN的网络来分别提取RGB和深度通道特征。但是,对称传统网络结构有两个问题:首先,CNN在学习全球环境中的能力是有限的。其次,对称的两流结构忽略了模态之间的固有差异。在本文中,我们提出了一个基于变压器的非对称网络(TANET),以解决上述问题。我们采用了变压器(PVTV2)的强大功能提取能力,从RGB数据中提取全局语义信息,并设计轻巧的CNN骨架(LWDEPTHNET),以从深度数据中提取空间结构信息,而无需预训练。不对称混合编码器(AHE)有效地减少了模型中参数的数量,同时不牺牲性能而增加速度。然后,我们设计了一个跨模式特征融合模块(CMFFM),该模块增强并互相融合了RGB和深度特征。最后,我们将边缘预测添加为辅助任务,并提出一个边缘增强模块(EEM)以生成更清晰的轮廓。广泛的实验表明,我们的方法在六个公共数据集上实现了超过14种最先进的RGB-D方法的卓越性能。我们的代码将在https://github.com/lc012463/tanet上发布。
translated by 谷歌翻译
弱监督的突出物体检测(WSOD)仅使用低成本注释训练基于CNNS的显着性网络的目标。现有的WSOD方法采用各种技术来从低成本注释追求单一的“高质量”伪标签,然后开发其显着网络。虽然这些方法实现了良好的性能,但是所产生的单个标签不可避免地受到采用的细化算法的影响,并且显示了偏见的特征,这进一步影响了显着网络。在这项工作中,我们介绍了一个新的多伪标签框架,以从多个标签集成更全面和准确的显着性提示,避免上述问题。具体地,我们提出了一种多滤波器指令网络(MFNET),包括显着网络以及多个指令滤波器。指令过滤器(DF)旨在从嘈杂的伪标签中提取和过滤更准确的显着性提示。然后,来自多个DF的多个精确的线索随着多引导损耗同时传播到显着网络。在四个度量标准的五个数据集上进行了广泛的实验表明我们的方法优于所有现有的基础方法。此外,还值得注意的是,我们的框架足够灵活,适用于现有方法并提高其性能。
translated by 谷歌翻译
神经网络的高计算成本阻止了RGB-D突出物体检测(SOD)的最新成功,从受益现实世界应用。因此,本文介绍了一种新颖的网络,Mobily,它专注于使用移动网络进行深度特征提取的高效RGB-D SOD。然而,移动网络在特征表示中的功能较小比麻烦的网络更强大。为此,我们观察到彩色图像的深度信息可以加强与SOD相关的特征表示,如果正确杠杆。因此,我们提出了一种隐式深度恢复(IDR)技术,以加强用于RGB-D SOD的移动网络的特征表示能力。 IDR仅在训练阶段采用并在测试期间省略,因此它是免费的。此外,我们提出了用于有效的多级特征聚合的紧凑金字塔精制(CPR),以获得具有清晰边界的突出对象。与IDR和CPR合并,Mobilesal在六个挑战RGB-D SOD数据集上具有更快的速度(450fps 320 $ 320的输入尺寸为320美元)和更少的参数(6.5米)。代码在https://mmcheng.net/mobilesal发布。
translated by 谷歌翻译
尽管当前的显着对象检测(SOD)作品已经取得了重大进展,但在预测的显着区域的完整性方面,它们受到限制。我们在微观和宏观水平上定义了完整性的概念。具体而言,在微观层面上,该模型应突出显示属于某个显着对象的所有部分。同时,在宏观层面上,模型需要在给定图像中发现所有显着对象。为了促进SOD的完整性学习,我们设计了一个新颖的完整性认知网络(ICON),该网络探讨了学习强大完整性特征的三个重要组成部分。 1)与现有模型不同,该模型更多地集中在功能可区分性上,我们引入了各种功能集合(DFA)组件,以汇总具有各种接受场(即内核形状和背景)的特征,并增加了功能多样性。这种多样性是挖掘积分显着物体的基础。 2)基于DFA功能,我们引入了一个完整性通道增强(ICE)组件,其目标是增强功能通道,以突出积分显着对象,同时抑制其他分心的对象。 3)提取增强功能后,采用零件整体验证(PWV)方法来确定零件和整个对象特征是否具有很强的一致性。这样的部分协议可以进一步改善每个显着对象的微观完整性。为了证明我们图标的有效性,对七个具有挑战性的基准进行了全面的实验。我们的图标在广泛的指标方面优于基线方法。值得注意的是,我们的图标在六个数据集上的平均假阴影(FNR)(FNR)方面,相对于以前的最佳模型的相对改善约为10%。代码和结果可在以下网址获得:https://github.com/mczhuge/icon。
translated by 谷歌翻译
显着对象检测(SOD)模拟了人类视觉感知系统以在场景中定位最具吸引力的对象,已广泛应用于各种计算机视觉任务。现在,随着深度传感器的出现,可以轻松捕获具有富裕的空间信息的深度图,并有利于提高SOD的性能。尽管在过去几年中提出了各种具有有前途的性能的基于RGB-D的SOD模型,但仍缺乏对这些主题的这些模型和挑战的深入了解。在本文中,我们从各个角度提供了基于RGB-D的SOD模型的全面调查,并详细介绍了相关的基准数据集。此外,考虑到光场还可以提供深度图,我们还从该域中回顾了SOD模型和流行的基准数据集。此外,为了研究现有模型的SOD能力,我们进行了全面的评估,以及基于属性的几种基于RGB-D的SOD模型的评估。最后,我们讨论了基于RGB-D的SOD的几个挑战和开放方向,以供未来的研究。将在https://github.com/taozh2017/rgbdsodsurvey上公开提供所有收集的模型,基准数据集,源代码链接,用于基于属性的评估的数据集以及评估代码
translated by 谷歌翻译
We solve the problem of salient object detection by investigating how to expand the role of pooling in convolutional neural networks. Based on the U-shape architecture, we first build a global guidance module (GGM) upon the bottom-up pathway, aiming at providing layers at different feature levels the location information of potential salient objects. We further design a feature aggregation module (FAM) to make the coarse-level semantic information well fused with the fine-level features from the top-down pathway. By adding FAMs after the fusion operations in the topdown pathway, coarse-level features from the GGM can be seamlessly merged with features at various scales. These two pooling-based modules allow the high-level semantic features to be progressively refined, yielding detail enriched saliency maps. Experiment results show that our proposed approach can more accurately locate the salient objects with sharpened details and hence substantially improve the performance compared to the previous state-of-the-arts. Our approach is fast as well and can run at a speed of more than 30 FPS when processing a 300 × 400 image. Code can be found at http://mmcheng.net/poolnet/.
translated by 谷歌翻译
视频突出对象检测旨在在视频中找到最具视觉上的对象。为了探索时间依赖性,现有方法通常是恢复性的神经网络或光学流量。然而,这些方法需要高计算成本,并且往往会随着时间的推移积累不准确性。在本文中,我们提出了一种带有注意模块的网络,以学习视频突出物体检测的对比特征,而没有高计算时间建模技术。我们开发了非本地自我关注方案,以捕获视频帧中的全局信息。共注意配方用于结合低级和高级功能。我们进一步应用了对比学学习以改善来自相同视频的前景区域对的特征表示,并将前景 - 背景区域对被推除在潜在的空间中。帧内对比损失有助于将前景和背景特征分开,并且帧间的对比损失提高了时间的稠度。我们对多个基准数据集进行广泛的实验,用于视频突出对象检测和无监督的视频对象分割,并表明所提出的方法需要较少的计算,并且对最先进的方法进行有利地执行。
translated by 谷歌翻译