突出物体检测本质上是主观的,这意味着多个估计应与相同的输入图像相关。大多数现有的突出物体检测模型是在点对点估计学习管道的指向点之后确定的,使得它们无法估计预测分布。尽管存在基于潜在的变量模型的随机预测网络来模拟预测变体,但基于单个清洁显着注释的潜在空间在探索显着性的主观性质方面不太可靠,导致效率较低,导致显着性“发散建模”较少。给定多个显着注释,我们通过随机采样介绍一般的分歧建模策略,并将我们的策略应用于基于集合的框架和三个基于变量模型的解决方案。实验结果表明,我们的一般发散模型策略在探索显着性的主观性质方面效果。
translated by 谷歌翻译
在最近的文献中,在最近的文献中已经过度研究了不确定性估计,通常可以被归类为炼体不确定性和认知不确定性。在当前的炼拉内不确定性估计框架中,往往忽略了炼拉线性的不确定性是数据的固有属性,只能用一个无偏见的Oracle模型正确估计。由于在大多数情况下,Oracle模型无法访问,我们提出了一个新的采样和选择策略,在火车时间近似甲骨文模型以实现炼梯不确定性估计。此外,我们在基于双头的异源型梯级不确定性估计框架中显示了一种琐碎的解决方案,并引入了新的不确定性一致性损失,以避免它。对于认知不确定性估算,我们认为条件潜在变量模型中的内部变量是模拟预测分布的另一个认识性的不确定性,并探索了关于隐藏的真实模型的有限知识。我们验证了我们对密集预测任务的观察,即伪装对象检测。我们的研究结果表明,我们的解决方案实现了准确的确定性结果和可靠的不确定性估算。
translated by 谷歌翻译
Transformer, which originates from machine translation, is particularly powerful at modeling long-range dependencies. Currently, the transformer is making revolutionary progress in various vision tasks, leading to significant performance improvements compared with the convolutional neural network (CNN) based frameworks. In this paper, we conduct extensive research on exploiting the contributions of transformers for accurate and reliable salient object detection. For the former, we apply transformer to a deterministic model, and explain that the effective structure modeling and global context modeling abilities lead to its superior performance compared with the CNN based frameworks. For the latter, we observe that both CNN and transformer based frameworks suffer greatly from the over-confidence issue, where the models tend to generate wrong predictions with high confidence. To estimate the reliability degree of both CNN- and transformer-based frameworks, we further present a latent variable model, namely inferential generative adversarial network (iGAN), based on the generative adversarial network (GAN). The stochastic attribute of the latent variable makes it convenient to estimate the predictive uncertainty, serving as an auxiliary output to evaluate the reliability of model prediction. Different from the conventional GAN, which defines the distribution of the latent variable as fixed standard normal distribution $\mathcal{N}(0,\mathbf{I})$, the proposed iGAN infers the latent variable by gradient-based Markov Chain Monte Carlo (MCMC), namely Langevin dynamics, leading to an input-dependent latent variable model. We apply our proposed iGAN to both fully and weakly supervised salient object detection, and explain that iGAN within the transformer framework leads to both accurate and reliable salient object detection.
translated by 谷歌翻译
现有突出物体检测模型的成功依赖于大像素标记的训练数据集。如何,收集这样的数据集不仅耗时,而且非常昂贵。为了减少标签负担,我们研究半监督的突出物体检测,并通过识别具有较小自信预测的像素来将其作为未标记的数据集像素级置信度估计问题。具体地,我们在有效的潜在空间探索之前引入了一种新的潜在变量模型,以获得有效的潜伏空间探索,导致更可靠的置信度图。通过拟议的策略,未标记的图像可以有效地参与模型培训。实验结果表明,与原始培训数据集仅有1/16的注释,与最先进的完全监督模型相比,所提出的解决方案实现了竞争性能。
translated by 谷歌翻译
伪装的物体检测(COD)旨在将伪装的物体掩盖隐藏在环境中,这是由于伪装对象及其周围环境的类似外观而具有挑战性。生物学研究表明深度可以为伪装对象发现提供有用的对象本地化提示。在本文中,我们研究了伪装对象检测的深度贡献,其中利用现有的单目深度估计(MDE)方法产生深度图。由于MDE数据集和我们的COD数据集之间的域间隙,所生成的深度映射不足以直接使用。然后,我们介绍了两个解决方案,以避免嘈杂的深度地图从主导培训过程中。首先,我们介绍了辅助深度估计分支(“ADE”),旨在重新映射深度图。我们发现我们的“生成深度”情景特别需要“Ade”。其次,我们通过生成的对抗性网络引入多模态的信心感知损失函数,以对伪装对象检测的深度的贡献。我们对各种伪装对象检测数据集的广泛实验说明了现有的“传感器深度”的RGB-D分段技术与“生成深度”工作,我们提出的两个解决方案协同工作,实现了伪装对象检测的有效深度贡献探索。
translated by 谷歌翻译
视觉变压器网络在许多计算机视觉任务中显示出优越性。在本文中,我们通过在基于信息的基于能量检测之前提出具有潜在变量的新型生成视觉变压器进一步逐步。视觉变压器网络和基于能量的先前模型都是通过Markov链蒙特卡罗的最大似然估计共同训练,其中来自居民后的静缘和先前分布的采样由Langevin Dynamics进行。此外,对于生成视觉变压器,我们可以容易地从图像中获得像素明智的不确定性图,该图像指示对从图像预测显着性的模型置信度。与现有的生成模型不同,该模型定义了潜在变量的先前分配作为简单的各向同性高斯分布,我们的模型使用基于能量的信息性,以捕获数据的潜在空间更具表现力。我们将建议的框架应用于RGB和RGB-D突出对象检测任务。广泛的实验结果表明,我们的框架不仅可以达到准确的显着性预测,而且可以实现与人类感知一致的有意义的不确定性地图。
translated by 谷歌翻译
常规的显着性预测模型通常会学习从图像到其显着图的确定性映射,因此无法解释人类注意力的主观性质。在本文中,为了模拟视觉显着性的不确定性,我们通过在给定输入图像上学习有条件的概率分布来研究显着性预测问题,并将其视为从显着图中的有条件预测问题,并将显着性预测视为从该过程中的样本预测。学会的分布。具体而言,我们提出了一个生成合作的显着性预测框架,其中有条件的潜在变量模型(LVM)和有条件的基于能量的模型(EBM)经过共同训练以以合作的方式预测显着物体。 LVM用作快速但粗糙的预测指标,可有效地生成初始显着图,然后通过EBM的迭代langevin修订将其作为缓慢但良好的预测指标进行完善。如此粗略的合作显着性预测策略提供了两者中最好的。此外,我们提出了“恢复合作学习”策略,并将其应用于弱监督的显着性预测,其中部分观察到了训练图像的显着性注释。最后,我们发现EBM中学习的能量函数可以用作改进模块,可以完善其他预训练的显着性预测模型的结果。实验结果表明,我们的模型可以生成图像的一组不同和合理的显着性图,并在完全监督和弱监督的显着性预测任务中获得最先进的性能。
translated by 谷歌翻译
Preys in the wild evolve to be camouflaged to avoid being recognized by predators. In this way, camouflage acts as a key defence mechanism across species that is critical to survival. To detect and segment the whole scope of a camouflaged object, camouflaged object detection (COD) is introduced as a binary segmentation task, with the binary ground truth camouflage map indicating the exact regions of the camouflaged objects. In this paper, we revisit this task and argue that the binary segmentation setting fails to fully understand the concept of camouflage. We find that explicitly modeling the conspicuousness of camouflaged objects against their particular backgrounds can not only lead to a better understanding about camouflage, but also provide guidance to designing more sophisticated camouflage techniques. Furthermore, we observe that it is some specific parts of camouflaged objects that make them detectable by predators. With the above understanding about camouflaged objects, we present the first triple-task learning framework to simultaneously localize, segment, and rank camouflaged objects, indicating the conspicuousness level of camouflage. As no corresponding datasets exist for either the localization model or the ranking model, we generate localization maps with an eye tracker, which are then processed according to the instance level labels to generate our ranking-based training and testing dataset. We also contribute the largest COD testing set to comprehensively analyse performance of the COD models. Experimental results show that our triple-task learning framework achieves new state-of-the-art, leading to a more explainable COD network. Our code, data, and results are available at: \url{https://github.com/JingZhang617/COD-Rank-Localize-and-Segment}.
translated by 谷歌翻译
现有的RGB-D显着性检测模型没有明确鼓励RGB和深度来实现有效的多模态学习。在本文中,我们通过互信息最小化介绍了一种新的多级级联学习框架,以“明确”模拟RGB图像和深度数据之间的多模态信息。具体地,我们首先将每个模式的特征映射到较低的维度特征向量,并采用互信息最小化作为常规器,以减少来自RGB的外观特征与来自深度的几何特征之间的冗余。然后,我们执行多级级联学习,在网络的每个阶段强加相互信息最小化约束。基准RGB-D显着数据集的广泛实验说明了我们框架的有效性。此外,为了繁荣发展该领域,我们贡献了最大(比NJU2K大7倍)数据集,其中包含具有高质量多边形/杂文/对象/ instance- / rank级注释的15,625图像对。基于这些丰富的标签,我们另外构建了具有强大基线的四个新基准,并观察了一些有趣的现象,可以激励未来的模型设计。源代码和数据集可在“https://github.com/jingzhang617/cascaded_rgbd_sod”中获得。
translated by 谷歌翻译
量化监督学习模型的不确定性在制定更可靠的预测方面发挥着重要作用。认知不确定性,通常是由于对模型的知识不足,可以通过收集更多数据或精炼学习模型来减少。在过去的几年里,学者提出了许多认识的不确定性处理技术,这些技术可以大致分为两类,即贝叶斯和集合。本文对过去五年来提供了对监督学习的认识性不确定性学习技术的全面综述。因此,我们首先,将认知不确定性分解为偏见和方差术语。然后,介绍了认知不确定性学习技术以及其代表模型的分层分类。此外,提出了几种应用,例如计算机视觉(CV)和自然语言处理(NLP),然后讨论研究差距和可能的未来研究方向。
translated by 谷歌翻译
自动行动质量评估(AQA)由于其广泛的应用而吸引了更多的兴趣。但是,现有的AQA方法通常采用多分支模型来生成多个分数,这对于处理可变数量的法官而言并不灵活。在本文中,我们提出了一种新型的不确定性驱动的AQA(UD-AQA)模型,以仅使用一个单个分支生成多个预测。具体而言,我们设计了基于CVAE(条件变异自动编码器)模块来编码不确定性,其中可以通过多次从学习的潜在空间进行采样来产生多个分数。此外,我们输出了不确定性的估计,并利用预测的不确定性重新体重AQA回归损失,这可以减少不确定样本训练的贡献。我们进一步设计了一种不确定性引导的训练策略,以动态调整样本的学习顺序,从低不确定性到高不确定性。实验表明,我们提出的方法在奥林匹克事件MTL-AQA和手术技能jigsaws数据集上实现了新的最新结果。
translated by 谷歌翻译
近年来,拥抱集群研究中的表演学习的深度学习技术引起了广泛的关注,产生了一个新开发的聚类范式,QZ。深度聚类(DC)。通常,DC型号大写AutoEncoders,以了解促进聚类过程的内在特征。如今,一个名为变变AualEncoder(VAE)的生成模型在DC研究中得到了广泛的认可。然而,平原VAE不足以察觉到综合潜在特征,导致细分性能恶化。本文提出了一种新的DC方法来解决这个问题。具体地,生成的逆势网络和VAE被聚结成了一种名为Fusion AutoEncoder(FAE)的新的AutoEncoder,以辨别出更多的辨别性表示,从而使下游聚类任务受益。此外,FAE通过深度剩余网络架构实施,进一步提高了表示学习能力。最后,将FAE的潜在空间转变为由深密神经网络的嵌入空间,用于彼此从彼此拉出不同的簇,并将数据点折叠在单个簇内。在几个图像数据集上进行的实验证明了所提出的DC模型对基线方法的有效性。
translated by 谷歌翻译
培训RGB-D突出物体检测(SOD)的深层模型通常需要大量标记的RGB-D图像。然而,不容易获取RGB-D数据,这限制了RGB-D SOD技术的发展。为了减轻这个问题,我们介绍了双半RGB-D突出物体检测网络(DS-Net),以利用未标记的RGB图像来提高RGB-D显着性检测。我们首先设计了深度去耦卷积神经网络(DDCNN),其包含深度估计分支和显着性检测分支。深度估计分支用RGB-D图像训练,然后用于估计所有未标记的RGB图像的伪深度映射以形成配对数据。显着性检测分支用于熔断RGB特征和深度特征以预测RGB-D显着性。然后,整个DDCNN被分配为师生学生框架中的骨干,用于半监督学习。此外,我们还引入了对未标记数据的中间注意力和显着性图的一致性损失,以及标记数据的监督深度和显着性损失。七种广泛使用的基准数据集上的实验结果表明,我们的DDCNN定量和定性地优于最先进的方法。我们还证明,即使在使用具有伪深度图的RGB图像时,我们的半监控DS-Net也可以进一步提高性能。
translated by 谷歌翻译
由遮挡,信号丢失或手动注释错误引起的3D边界框的地面真相注释的固有歧义可能会使训练过程中的深3D对象检测器混淆,从而使检测准确性恶化。但是,现有方法在某种程度上忽略了此类问题,并将标签视为确定性。在本文中,我们提出了GLENET,这是一个从条件变异自动编码器改编的生成标签不确定性估计框架,以建模典型的3D对象与其潜在的潜在基边界框之间具有潜在变量的一对一关系。 Glenet产生的标签不确定性是一个插件模块,可以方便地集成到现有的深3D检测器中,以构建概率检测器并监督本地化不确定性的学习。此外,我们提出了概率探测器中的不确定性质量估计量架构,以指导对IOU分支的培训,并预测了本地化不确定性。我们将提出的方法纳入各种流行的3D检测器中,并观察到它们的性能显着提高到Waymo Open DataSet和Kitti数据集中的当前最新技术。
translated by 谷歌翻译
基于深度学习的水下图像增强(UIE)面临的主要挑战是地面真相高质量的图像是不可用的。大多数现有方法首先生成近似参考图,然后可以确定地训练增强网络。这种方法无法处理参考图的歧义。在本文中,我们将UIE解决为分布估计和共识过程。我们提出了一个新颖的概率网络,以了解退化的水下图像的增强分布。具体而言,我们将条件变异自动编码器与自适应实例归一化结合在一起,以构建增强分布。之后,我们采用共识过程来根据分布中的一组样本来预测确定性结果。通过学习增强分布,我们的方法可以在某种程度上应对参考图标记中引入的偏差。此外,共识过程对于捕获强大而稳定的结果很有用。我们在两个广泛使用的现实水下图像增强数据集上检查了提出的方法。实验结果表明,我们的方法可以对可能的增强预测进行抽样。同时,与最先进的UIE方法相比,共识估计会产生竞争性能。代码可在https://github.com/zhenqifu/puie-net上找到。
translated by 谷歌翻译
完全监督的显着对象检测(SOD)方法取得了长足的进步,但是这种方法通常依赖大量的像素级注释,这些注释耗时且耗时。在本文中,我们专注于混合标签下的新的弱监督SOD任务,其中监督标签包括传统无监督方法生成的大量粗标签和少量的真实标签。为了解决此任务中标签噪声和数量不平衡问题的问题,我们设计了一个新的管道框架,采用三种复杂的培训策略。在模型框架方面,我们将任务分解为标签细化子任务和显着对象检测子任务,它们相互合作并交替训练。具体而言,R-NET设计为配备有指导和聚合机制的搅拌机的两流编码器模型(BGA),旨在纠正更可靠的伪标签的粗标签,而S-NET是可更换的。由当前R-NET生成的伪标签监督的SOD网络。请注意,我们只需要使用训练有素的S-NET进行测试。此外,为了确保网络培训的有效性和效率,我们设计了三种培训策略,包括替代迭代机制,小组智慧的增量机制和信誉验证机制。五个草皮基准的实验表明,我们的方法在定性和定量上都针对弱监督/无监督/无监督的方法实现了竞争性能。
translated by 谷歌翻译
Existing state-of-the-art salient object detection networks rely on aggregating multi-level features of pretrained convolutional neural networks (CNNs). Compared to high-level features, low-level features contribute less to performance but cost more computations because of their larger spatial resolutions. In this paper, we propose a novel Cascaded Partial Decoder (CPD) framework for fast and accurate salient object detection. On the one hand, the framework constructs partial decoder which discards larger resolution features of shallower layers for acceleration. On the other hand, we observe that integrating features of deeper layers obtain relatively precise saliency map. Therefore we directly utilize generated saliency map to refine the features of backbone network. This strategy efficiently suppresses distractors in the features and significantly improves their representation ability. Experiments conducted on five benchmark datasets exhibit that the proposed model not only achieves state-of-the-art performance but also runs much faster than existing models. Besides, the proposed framework is further applied to improve existing multi-level feature aggregation models and significantly improve their efficiency and accuracy.
translated by 谷歌翻译
Fully convolutional neural networks (FCNs) have shown their advantages in the salient object detection task. However, most existing FCNs-based methods still suffer from coarse object boundaries. In this paper, to solve this problem, we focus on the complementarity between salient edge information and salient object information. Accordingly, we present an edge guidance network (EGNet) for salient object detection with three steps to simultaneously model these two kinds of complementary information in a single network. In the first step, we extract the salient object features by a progressive fusion way. In the second step, we integrate the local edge information and global location information to obtain the salient edge features. Finally, to sufficiently leverage these complementary features, we couple the same salient edge features with salient object features at various resolutions. Benefiting from the rich edge information and location information in salient edge features, the fused features can help locate salient objects, especially their boundaries more accurately. Experimental results demonstrate that the proposed method performs favorably against the state-of-the-art methods on six widely used datasets without any pre-processing and post-processing. The source code is available at http: //mmcheng.net/egnet/.
translated by 谷歌翻译
尽管有重要的表示能力,但馈通仅卷积神经网络(CNNS)可以忽略视觉任务中反馈连接的内在关系和潜在好处。在这项工作中,我们提出了一个反馈递归卷积框架(SALFBNET),可加于显着性检测。所提出的反馈模型可以通过从更高级别的特征块到低级层来缩小递归通路来学习丰富的上下文表示。此外,我们创建了一个大规模的伪显着数据集来缓解显着性检测的数据缺陷问题。我们首先使用所提出的反馈模型来从伪地面真理中学习显着分布。之后,我们微调现有眼固定数据集的反馈模型。此外,我们提出了一种新颖的选择性固定和非固定误差(SFNE)丢失,以使提出的反馈模型更好地学习可区分的基于眼固定的特征。广泛的实验结果表明,我们的SALFBNET具有较少参数的竞争结果对公共显着性检测基准进行了竞争力,这证明了提出的反馈模型和伪显着数据的有效性。源代码和伪显着数据集可以在https://github.com/gqding/salfbnet找到
translated by 谷歌翻译
不确定性量化对于机器人感知至关重要,因为过度自信或点估计人员可以导致环境和机器人侵犯和损害。在本文中,我们评估了单视图监督深度学习中的不确定量化的可扩展方法,特别是MC辍学和深度集成。特别是对于MC辍学,我们探讨了阵列在架构中不同级别的效果。我们表明,在编码器的所有层中添加丢失会带来比文献中的其他变化更好的结果。此配置类似地执行与Deep Ensembles具有更低的内存占用,这是相关的简单。最后,我们探讨了伪RGBD ICP的深度不确定性,并展示其估计具有实际规模的准确的双视图相对运动的可能性。
translated by 谷歌翻译