常规的显着性预测模型通常会学习从图像到其显着图的确定性映射,因此无法解释人类注意力的主观性质。在本文中,为了模拟视觉显着性的不确定性,我们通过在给定输入图像上学习有条件的概率分布来研究显着性预测问题,并将其视为从显着图中的有条件预测问题,并将显着性预测视为从该过程中的样本预测。学会的分布。具体而言,我们提出了一个生成合作的显着性预测框架,其中有条件的潜在变量模型(LVM)和有条件的基于能量的模型(EBM)经过共同训练以以合作的方式预测显着物体。 LVM用作快速但粗糙的预测指标,可有效地生成初始显着图,然后通过EBM的迭代langevin修订将其作为缓慢但良好的预测指标进行完善。如此粗略的合作显着性预测策略提供了两者中最好的。此外,我们提出了“恢复合作学习”策略,并将其应用于弱监督的显着性预测,其中部分观察到了训练图像的显着性注释。最后,我们发现EBM中学习的能量函数可以用作改进模块,可以完善其他预训练的显着性预测模型的结果。实验结果表明,我们的模型可以生成图像的一组不同和合理的显着性图,并在完全监督和弱监督的显着性预测任务中获得最先进的性能。
translated by 谷歌翻译
视觉变压器网络在许多计算机视觉任务中显示出优越性。在本文中,我们通过在基于信息的基于能量检测之前提出具有潜在变量的新型生成视觉变压器进一步逐步。视觉变压器网络和基于能量的先前模型都是通过Markov链蒙特卡罗的最大似然估计共同训练,其中来自居民后的静缘和先前分布的采样由Langevin Dynamics进行。此外,对于生成视觉变压器,我们可以容易地从图像中获得像素明智的不确定性图,该图像指示对从图像预测显着性的模型置信度。与现有的生成模型不同,该模型定义了潜在变量的先前分配作为简单的各向同性高斯分布,我们的模型使用基于能量的信息性,以捕获数据的潜在空间更具表现力。我们将建议的框架应用于RGB和RGB-D突出对象检测任务。广泛的实验结果表明,我们的框架不仅可以达到准确的显着性预测,而且可以实现与人类感知一致的有意义的不确定性地图。
translated by 谷歌翻译
Transformer, which originates from machine translation, is particularly powerful at modeling long-range dependencies. Currently, the transformer is making revolutionary progress in various vision tasks, leading to significant performance improvements compared with the convolutional neural network (CNN) based frameworks. In this paper, we conduct extensive research on exploiting the contributions of transformers for accurate and reliable salient object detection. For the former, we apply transformer to a deterministic model, and explain that the effective structure modeling and global context modeling abilities lead to its superior performance compared with the CNN based frameworks. For the latter, we observe that both CNN and transformer based frameworks suffer greatly from the over-confidence issue, where the models tend to generate wrong predictions with high confidence. To estimate the reliability degree of both CNN- and transformer-based frameworks, we further present a latent variable model, namely inferential generative adversarial network (iGAN), based on the generative adversarial network (GAN). The stochastic attribute of the latent variable makes it convenient to estimate the predictive uncertainty, serving as an auxiliary output to evaluate the reliability of model prediction. Different from the conventional GAN, which defines the distribution of the latent variable as fixed standard normal distribution $\mathcal{N}(0,\mathbf{I})$, the proposed iGAN infers the latent variable by gradient-based Markov Chain Monte Carlo (MCMC), namely Langevin dynamics, leading to an input-dependent latent variable model. We apply our proposed iGAN to both fully and weakly supervised salient object detection, and explain that iGAN within the transformer framework leads to both accurate and reliable salient object detection.
translated by 谷歌翻译
现有突出物体检测模型的成功依赖于大像素标记的训练数据集。如何,收集这样的数据集不仅耗时,而且非常昂贵。为了减少标签负担,我们研究半监督的突出物体检测,并通过识别具有较小自信预测的像素来将其作为未标记的数据集像素级置信度估计问题。具体地,我们在有效的潜在空间探索之前引入了一种新的潜在变量模型,以获得有效的潜伏空间探索,导致更可靠的置信度图。通过拟议的策略,未标记的图像可以有效地参与模型培训。实验结果表明,与原始培训数据集仅有1/16的注释,与最先进的完全监督模型相比,所提出的解决方案实现了竞争性能。
translated by 谷歌翻译
突出物体检测本质上是主观的,这意味着多个估计应与相同的输入图像相关。大多数现有的突出物体检测模型是在点对点估计学习管道的指向点之后确定的,使得它们无法估计预测分布。尽管存在基于潜在的变量模型的随机预测网络来模拟预测变体,但基于单个清洁显着注释的潜在空间在探索显着性的主观性质方面不太可靠,导致效率较低,导致显着性“发散建模”较少。给定多个显着注释,我们通过随机采样介绍一般的分歧建模策略,并将我们的策略应用于基于集合的框架和三个基于变量模型的解决方案。实验结果表明,我们的一般发散模型策略在探索显着性的主观性质方面效果。
translated by 谷歌翻译
由于难以应变的分区功能,通过最大可能性培训基于能量的模型(EBMS)需要Markov链蒙特卡罗(MCMC)采样,以近似数据和模型分布之间的kullback-Leibler发散的梯度。然而,由于模式之间的混合难以混合,因此从EBM中的样本是不普遍的。在本文中,我们建议学习变形式自动编码器(VAE)以初始化有限步骤MCMC,例如源自能量函数的Langevin动态,用于EBM的有效摊销采样。利用这些倒置的MCMC样品,可以通过最大似然训练EBM,其遵循“通过合成分析”方案;虽然VAE通过变分贝叶斯从这些MCMC样品中学习。我们称之为该联合训练算法的变分MCMC教学,其中VAE将ebm追溯到数据分布。我们将学习算法解释为信息几何上下文中的动态交替投影。我们所提出的模型可以生成与GANS和EBM相当的样本。此外,我们证明我们的模型可以了解有效的概率分布对受监督的条件学习任务。
translated by 谷歌翻译
在最近的文献中,在最近的文献中已经过度研究了不确定性估计,通常可以被归类为炼体不确定性和认知不确定性。在当前的炼拉内不确定性估计框架中,往往忽略了炼拉线性的不确定性是数据的固有属性,只能用一个无偏见的Oracle模型正确估计。由于在大多数情况下,Oracle模型无法访问,我们提出了一个新的采样和选择策略,在火车时间近似甲骨文模型以实现炼梯不确定性估计。此外,我们在基于双头的异源型梯级不确定性估计框架中显示了一种琐碎的解决方案,并引入了新的不确定性一致性损失,以避免它。对于认知不确定性估算,我们认为条件潜在变量模型中的内部变量是模拟预测分布的另一个认识性的不确定性,并探索了关于隐藏的真实模型的有限知识。我们验证了我们对密集预测任务的观察,即伪装对象检测。我们的研究结果表明,我们的解决方案实现了准确的确定性结果和可靠的不确定性估算。
translated by 谷歌翻译
当前的最新显着性检测模型在很大程度上依赖于精确的像素注释的大型数据集,但是手动标记像素是时必的且劳动力密集的。有一些用于减轻该问题的弱监督方法,例如图像标签,边界框标签和涂鸦标签,而在该领域仍未探索点标签。在本文中,我们提出了一种使用点监督的新型弱监督的显着对象检测方法。为了推断显着性图,我们首先设计了一种自适应掩盖洪水填充算法以生成伪标签。然后,我们开发了一个基于变压器的点保护显着性检测模型,以产生第一轮显着图。但是,由于标签的稀疏性,弱监督模型倾向于退化为一般​​的前景检测模型。为了解决这个问题,我们提出了一种非征服方法(NSS)方法,以优化第一轮中产生的错误显着图,并利用它们进行第二轮训练。此外,我们通过重新标记DUTS数据集来构建一个新的监督数据集(P-DUTS)。在p-duts中,每个显着对象只有一个标记点​​。在五个最大基准数据集上进行的全面实验表明,我们的方法的表现优于先前的最先进方法,该方法接受了更强的监督,甚至超过了几种完全监督的最先进模型。该代码可在以下网址获得:https://github.com/shuyonggao/psod。
translated by 谷歌翻译
我们提出了一种在数据样本集合中共同推断标签的方法,其中每个样本都包含一个观察和对标签的先验信念。通过隐式假设存在一种生成模型,可区分预测因子是后部,我们得出了一个训练目标,该目标允许在弱信念下学习。该配方统一了各种机器学习设置;弱信念可以以嘈杂或不完整的标签形式出现,由辅助输入的不同预测机制给出的可能性,或反映出有关手头问题结构的知识的常识性先验。我们证明了有关各种问题的建议算法:通过负面培训示例进行分类,从排名中学习,弱和自我监督的空中成像细分,视频框架的共段以及粗糙的监督文本分类。
translated by 谷歌翻译
完全监督的显着对象检测(SOD)方法取得了长足的进步,但是这种方法通常依赖大量的像素级注释,这些注释耗时且耗时。在本文中,我们专注于混合标签下的新的弱监督SOD任务,其中监督标签包括传统无监督方法生成的大量粗标签和少量的真实标签。为了解决此任务中标签噪声和数量不平衡问题的问题,我们设计了一个新的管道框架,采用三种复杂的培训策略。在模型框架方面,我们将任务分解为标签细化子任务和显着对象检测子任务,它们相互合作并交替训练。具体而言,R-NET设计为配备有指导和聚合机制的搅拌机的两流编码器模型(BGA),旨在纠正更可靠的伪标签的粗标签,而S-NET是可更换的。由当前R-NET生成的伪标签监督的SOD网络。请注意,我们只需要使用训练有素的S-NET进行测试。此外,为了确保网络培训的有效性和效率,我们设计了三种培训策略,包括替代迭代机制,小组智慧的增量机制和信誉验证机制。五个草皮基准的实验表明,我们的方法在定性和定量上都针对弱监督/无监督/无监督的方法实现了竞争性能。
translated by 谷歌翻译
我们呈现深度区域竞争(DRC),这是一种旨在以完全无监督的方式从图像中提取前景对象的算法。前景提取可以被视为一种特殊的泛型图像分段的情况,专注于从背景中识别和解开对象。在这项工作中,我们通过以专家(MOE)的混合形式的生成图像建模和生成图像建模来重新思考前景提取,我们进一步介绍了学习的像素重新分配作为捕获规律的基本诱导偏差背景区域。通过这种建模,可以通过期望最大化(EM)自然地发现前景背景分区。我们表明,该方法有效利用了在分区过程中混合成分之间的相互作用,该分区过程紧密地连接到区域竞争,是通用图像分割的一个精细方法。实验表明,与现有方法相比,DRC在复杂的真实数据上表现出更具竞争力的性能和具有挑战性的多对象场景。此外,我们认为,即使在训练期间看不见的类别,DRC也可能概括为新的前景物体。
translated by 谷歌翻译
现有的突出实例检测(SID)方法通常从像素级注释数据集中学习。在本文中,我们向SID问题提出了第一个弱监督的方法。虽然在一般显着性检测中考虑了弱监管,但它主要基于使用类标签进行对象本地化。然而,仅使用类标签来学习实例知识的显着性信息是不普遍的,因为标签可能不容易地分离具有高语义亲和力的显着实例。由于子化信息提供了对突出项的数量的即时判断,因此自然地与检测突出实例相关,并且可以帮助分离相同实例的不同部分的同一类别的单独实例。灵感来自这一观察,我们建议使用课程和镇展标签作为SID问题的弱监督。我们提出了一种具有三个分支的新型弱监管网络:显着性检测分支利用类一致性信息来定位候选物体;边界检测分支利用类差异信息来解除对象边界;和Firedroid检测分支,使用子化信息来检测SALICE实例质心。然后融合该互补信息以产生突出的实例图。为方便学习过程,我们进一步提出了一种渐进的培训方案,以减少标签噪声和模型中学到的相应噪声,通过往复式突出实例预测和模型刷新模型。我们广泛的评估表明,该方法对精心设计的基线方法进行了有利地竞争,这些方法适应了相关任务。
translated by 谷歌翻译
基于能量的模型(EBMS)最近成功地代表了少量图像的复杂分布。然而,对它们的抽样需要昂贵的马尔可夫链蒙特卡罗(MCMC)迭代在高维像素空间中缓慢混合。与EBMS不同,变形AutoEncoders(VAES)快速生成样本,并配备潜在的空间,使得数据歧管的快速遍历。然而,VAE倾向于将高概率密度分配到实际数据分布之外的数据空间中的区域,并且经常在产生清晰图像时失败。在本文中,我们提出了VAE的一个共生组成和ebm的vaebm,提供了两个世界的eBM。 VAEBM使用最先进的VAE捕获数据分布的整体模式结构,它依赖于其EBM组件,以明确地从模型中排除非数据样区域并优化图像样本。此外,VAEBM中的VAE组件允许我们通过在VAE的潜空间中重新处理它们来加速MCMC更新。我们的实验结果表明,VAEBM在几个基准图像数据集上以大量边距开辟了最先进的VAES和EBMS。它可以产生高于256 $ \倍的高质量图像,使用短MCMC链。我们还证明了VAEBM提供了完整的模式覆盖范围,并在分配外检测中表现良好。源代码可在https://github.com/nvlabs/vaebm上获得
translated by 谷歌翻译
本文研究了发电机模型潜在空间中基于学习能量模型(EBM)的基本问题。学习这种先前的模型通常需要运行昂贵的马尔可夫链蒙特卡洛(MCMC)。取而代之的是,我们建议使用噪声对比度估计(NCE)通过潜在的先验密度和潜在后部密度之间的密度比估计来区分EBM。但是,如果两个密度之间的差距很大,则NCE通常无法准确估计这种密度比。为了有效解决此问题并学习更具表现力的先验模型,我们开发了自适应多阶段密度比估计,该估计将估计分为多个阶段,并依次和适应性地学习密度比的不同阶段。可以使用前阶段估计的比率逐渐学习潜在的先验模型,以便最终的潜在空间EBM先验可以通过不同阶段的比率产物自然形成。所提出的方法比现有基线可以提供信息,并且可以有效地培训。我们的实验表明在图像产生和重建以及异常检测中表现出色。
translated by 谷歌翻译
潜在空间基于能量的模型(EBM),也称为基于能量的先验,引起了对生成建模的日益兴趣。由于其在潜在空间的配方和强大的建模能力方面的灵活性所推动,最近构建的作品已经进行了有趣的尝试,目的是针对文本建模的解释性。但是,潜在空间EBM还继承了数据空间中EBM的一些缺陷。实践中退化的MCMC抽样质量会导致培训中的发电质量和不稳定差,尤其是在具有复杂潜在结构的数据上。受到最近的努力的启发,该努力利用扩散恢复的可能性学习是解决抽样问题的一种方法,我们在变异学习框架中引入了扩散模型和潜在空间EBM之间的新型共生,这是潜在扩散能量基于能量的模型。我们与信息瓶颈共同开发基于几何聚类的正则化,以进一步提高学到的潜在空间的质量。对几个具有挑战性的任务进行的实验证明了我们模型在可解释的文本建模上的优越性能而不是强大的同行。
translated by 谷歌翻译
现有的基于深度学习(基于DL的)无监督的显着对象检测(USOD)方法基于传统显着性方法和预处理深网的先验知识,在图像中学习显着信息。但是,这些方法采用了一种简单的学习策略来训练深层网络,因此无法将培训样本的“隐藏”信息正确地纳入学习过程。此外,对于分割对象至关重要的外观信息仅在网络训练过程后用作后处理。为了解决这两个问题,我们提出了一个新颖的外观引导的细心自进度学习框架,以无视显着对象检测。提出的框架将自定进度的学习(SPL)和外观指导集成到统一的学习框架中。具体而言,对于第一期,我们提出了一个细心的自进度学习(ASPL)范式,该范式以有意义的命令组织培训样本,以逐步挖掘更详细的显着性信息。我们的ASPL促进了我们的框架,能够自动产生软关注权重,以纯粹的自学方式衡量训练样本的学习难度。对于第二期,我们提出了一个外观指南模块(AGM),该模块将每个像素作为显着性边界的概率的局部外观对比,并通过最大化概率找到目标对象的潜在边界。此外,我们通过汇总其他模态数据的外观向量,例如深度图,热图像或光流,将框架进一步扩展到其他多模式SOD任务。关于RGB,RGB-D,RGB-T和视频SOD基准的广泛实验证明,我们的框架可以针对现有的USOD方法实现最新性能,并且与最新的监督SOD方法相当。
translated by 谷歌翻译
Preys in the wild evolve to be camouflaged to avoid being recognized by predators. In this way, camouflage acts as a key defence mechanism across species that is critical to survival. To detect and segment the whole scope of a camouflaged object, camouflaged object detection (COD) is introduced as a binary segmentation task, with the binary ground truth camouflage map indicating the exact regions of the camouflaged objects. In this paper, we revisit this task and argue that the binary segmentation setting fails to fully understand the concept of camouflage. We find that explicitly modeling the conspicuousness of camouflaged objects against their particular backgrounds can not only lead to a better understanding about camouflage, but also provide guidance to designing more sophisticated camouflage techniques. Furthermore, we observe that it is some specific parts of camouflaged objects that make them detectable by predators. With the above understanding about camouflaged objects, we present the first triple-task learning framework to simultaneously localize, segment, and rank camouflaged objects, indicating the conspicuousness level of camouflage. As no corresponding datasets exist for either the localization model or the ranking model, we generate localization maps with an eye tracker, which are then processed according to the instance level labels to generate our ranking-based training and testing dataset. We also contribute the largest COD testing set to comprehensively analyse performance of the COD models. Experimental results show that our triple-task learning framework achieves new state-of-the-art, leading to a more explainable COD network. Our code, data, and results are available at: \url{https://github.com/JingZhang617/COD-Rank-Localize-and-Segment}.
translated by 谷歌翻译
DeNoising扩散模型代表了计算机视觉中最新的主题,在生成建模领域表现出了显着的结果。扩散模型是一个基于两个阶段的深层生成模型,一个正向扩散阶段和反向扩散阶段。在正向扩散阶段,通过添加高斯噪声,输入数据在几个步骤中逐渐受到干扰。在反向阶段,模型的任务是通过学习逐步逆转扩散过程来恢复原始输入数据。尽管已知的计算负担,即由于采样过程中涉及的步骤数量,扩散模型对生成样品的质量和多样性得到了广泛赞赏。在这项调查中,我们对视觉中应用的denoising扩散模型的文章进行了全面综述,包括该领域的理论和实际贡献。首先,我们识别并介绍了三个通用扩散建模框架,这些框架基于扩散概率模型,噪声调节得分网络和随机微分方程。我们进一步讨论了扩散模型与其他深层生成模型之间的关系,包括变异自动编码器,生成对抗网络,基于能量的模型,自回归模型和正常流量。然后,我们介绍了计算机视觉中应用的扩散模型的多角度分类。最后,我们说明了扩散模型的当前局限性,并设想了一些有趣的未来研究方向。
translated by 谷歌翻译
现有的RGB-D显着性检测模型没有明确鼓励RGB和深度来实现有效的多模态学习。在本文中,我们通过互信息最小化介绍了一种新的多级级联学习框架,以“明确”模拟RGB图像和深度数据之间的多模态信息。具体地,我们首先将每个模式的特征映射到较低的维度特征向量,并采用互信息最小化作为常规器,以减少来自RGB的外观特征与来自深度的几何特征之间的冗余。然后,我们执行多级级联学习,在网络的每个阶段强加相互信息最小化约束。基准RGB-D显着数据集的广泛实验说明了我们框架的有效性。此外,为了繁荣发展该领域,我们贡献了最大(比NJU2K大7倍)数据集,其中包含具有高质量多边形/杂文/对象/ instance- / rank级注释的15,625图像对。基于这些丰富的标签,我们另外构建了具有强大基线的四个新基准,并观察了一些有趣的现象,可以激励未来的模型设计。源代码和数据集可在“https://github.com/jingzhang617/cascaded_rgbd_sod”中获得。
translated by 谷歌翻译
我们提出了一种基于示例的图像翻译的新方法,称为匹配交织的扩散模型(MIDMS)。该任务的大多数现有方法都是基于GAN的匹配,然后代表了代代框架。但是,在此框架中,跨跨域的语义匹配难度引起的匹配误差,例如草图和照片,可以很容易地传播到生成步骤,从而导致结果退化。由于扩散模型的最新成功激发了克服GAN的缺点,我们结合了扩散模型以克服这些局限性。具体而言,我们制定了一个基于扩散的匹配和生成框架,该框架通过将中间扭曲馈入尖锐的过程并将其变形以生成翻译的图像,从而交织了潜在空间中的跨域匹配和扩散步骤。此外,为了提高扩散过程的可靠性,我们使用周期一致性设计了一种置信度的过程,以在翻译过程中仅考虑自信区域。实验结果表明,我们的MIDM比最新方法产生的图像更合理。
translated by 谷歌翻译