现有突出物体检测模型的成功依赖于大像素标记的训练数据集。如何,收集这样的数据集不仅耗时,而且非常昂贵。为了减少标签负担,我们研究半监督的突出物体检测,并通过识别具有较小自信预测的像素来将其作为未标记的数据集像素级置信度估计问题。具体地,我们在有效的潜在空间探索之前引入了一种新的潜在变量模型,以获得有效的潜伏空间探索,导致更可靠的置信度图。通过拟议的策略,未标记的图像可以有效地参与模型培训。实验结果表明,与原始培训数据集仅有1/16的注释,与最先进的完全监督模型相比,所提出的解决方案实现了竞争性能。
translated by 谷歌翻译
Transformer, which originates from machine translation, is particularly powerful at modeling long-range dependencies. Currently, the transformer is making revolutionary progress in various vision tasks, leading to significant performance improvements compared with the convolutional neural network (CNN) based frameworks. In this paper, we conduct extensive research on exploiting the contributions of transformers for accurate and reliable salient object detection. For the former, we apply transformer to a deterministic model, and explain that the effective structure modeling and global context modeling abilities lead to its superior performance compared with the CNN based frameworks. For the latter, we observe that both CNN and transformer based frameworks suffer greatly from the over-confidence issue, where the models tend to generate wrong predictions with high confidence. To estimate the reliability degree of both CNN- and transformer-based frameworks, we further present a latent variable model, namely inferential generative adversarial network (iGAN), based on the generative adversarial network (GAN). The stochastic attribute of the latent variable makes it convenient to estimate the predictive uncertainty, serving as an auxiliary output to evaluate the reliability of model prediction. Different from the conventional GAN, which defines the distribution of the latent variable as fixed standard normal distribution $\mathcal{N}(0,\mathbf{I})$, the proposed iGAN infers the latent variable by gradient-based Markov Chain Monte Carlo (MCMC), namely Langevin dynamics, leading to an input-dependent latent variable model. We apply our proposed iGAN to both fully and weakly supervised salient object detection, and explain that iGAN within the transformer framework leads to both accurate and reliable salient object detection.
translated by 谷歌翻译
突出物体检测本质上是主观的,这意味着多个估计应与相同的输入图像相关。大多数现有的突出物体检测模型是在点对点估计学习管道的指向点之后确定的,使得它们无法估计预测分布。尽管存在基于潜在的变量模型的随机预测网络来模拟预测变体,但基于单个清洁显着注释的潜在空间在探索显着性的主观性质方面不太可靠,导致效率较低,导致显着性“发散建模”较少。给定多个显着注释,我们通过随机采样介绍一般的分歧建模策略,并将我们的策略应用于基于集合的框架和三个基于变量模型的解决方案。实验结果表明,我们的一般发散模型策略在探索显着性的主观性质方面效果。
translated by 谷歌翻译
视觉变压器网络在许多计算机视觉任务中显示出优越性。在本文中,我们通过在基于信息的基于能量检测之前提出具有潜在变量的新型生成视觉变压器进一步逐步。视觉变压器网络和基于能量的先前模型都是通过Markov链蒙特卡罗的最大似然估计共同训练,其中来自居民后的静缘和先前分布的采样由Langevin Dynamics进行。此外,对于生成视觉变压器,我们可以容易地从图像中获得像素明智的不确定性图,该图像指示对从图像预测显着性的模型置信度。与现有的生成模型不同,该模型定义了潜在变量的先前分配作为简单的各向同性高斯分布,我们的模型使用基于能量的信息性,以捕获数据的潜在空间更具表现力。我们将建议的框架应用于RGB和RGB-D突出对象检测任务。广泛的实验结果表明,我们的框架不仅可以达到准确的显着性预测,而且可以实现与人类感知一致的有意义的不确定性地图。
translated by 谷歌翻译
在最近的文献中,在最近的文献中已经过度研究了不确定性估计,通常可以被归类为炼体不确定性和认知不确定性。在当前的炼拉内不确定性估计框架中,往往忽略了炼拉线性的不确定性是数据的固有属性,只能用一个无偏见的Oracle模型正确估计。由于在大多数情况下,Oracle模型无法访问,我们提出了一个新的采样和选择策略,在火车时间近似甲骨文模型以实现炼梯不确定性估计。此外,我们在基于双头的异源型梯级不确定性估计框架中显示了一种琐碎的解决方案,并引入了新的不确定性一致性损失,以避免它。对于认知不确定性估算,我们认为条件潜在变量模型中的内部变量是模拟预测分布的另一个认识性的不确定性,并探索了关于隐藏的真实模型的有限知识。我们验证了我们对密集预测任务的观察,即伪装对象检测。我们的研究结果表明,我们的解决方案实现了准确的确定性结果和可靠的不确定性估算。
translated by 谷歌翻译
常规的显着性预测模型通常会学习从图像到其显着图的确定性映射,因此无法解释人类注意力的主观性质。在本文中,为了模拟视觉显着性的不确定性,我们通过在给定输入图像上学习有条件的概率分布来研究显着性预测问题,并将其视为从显着图中的有条件预测问题,并将显着性预测视为从该过程中的样本预测。学会的分布。具体而言,我们提出了一个生成合作的显着性预测框架,其中有条件的潜在变量模型(LVM)和有条件的基于能量的模型(EBM)经过共同训练以以合作的方式预测显着物体。 LVM用作快速但粗糙的预测指标,可有效地生成初始显着图,然后通过EBM的迭代langevin修订将其作为缓慢但良好的预测指标进行完善。如此粗略的合作显着性预测策略提供了两者中最好的。此外,我们提出了“恢复合作学习”策略,并将其应用于弱监督的显着性预测,其中部分观察到了训练图像的显着性注释。最后,我们发现EBM中学习的能量函数可以用作改进模块,可以完善其他预训练的显着性预测模型的结果。实验结果表明,我们的模型可以生成图像的一组不同和合理的显着性图,并在完全监督和弱监督的显着性预测任务中获得最先进的性能。
translated by 谷歌翻译
在许多图像引导的临床方法中,医学图像分割是一个基本和关键的步骤。基于深度学习的细分方法的最新成功通常取决于大量标记的数据,这特别困难且昂贵,尤其是在医学成像领域中,只有专家才能提供可靠和准确的注释。半监督学习已成为一种吸引人的策略,并广泛应用于医学图像分割任务,以训练注释有限的深层模型。在本文中,我们对最近提议的半监督学习方法进行了全面综述,并总结了技术新颖性和经验结果。此外,我们分析和讨论现有方法的局限性和几个未解决的问题。我们希望这篇评论可以激发研究界探索解决这一挑战的解决方案,并进一步促进医学图像细分领域的发展。
translated by 谷歌翻译
本文为半监督医学图像分割提供了一个简单而有效的两阶段框架。我们的主要洞察力是探索用标记和未标记的(即伪标记)图像的特征表示学习,以增强分段性能。在第一阶段,我们介绍了一种炼层的不确定感知方法,即Aua,以改善产生高质量伪标签的分割性能。考虑到医学图像的固有歧义,Aua自适应地规范了具有低歧义的图像的一致性。为了提高代表学习,我们提出了一种舞台适应性的对比学习方法,包括边界意识的对比损失,以规范第一阶段中标记的图像,并在第二阶段中的原型感知对比损失优化标记和伪标记的图像阶段。边界意识的对比损失仅优化分段边界周围的像素,以降低计算成本。原型感知对比损失通过为每个类构建质心来充分利用标记的图像和伪标记的图像,以减少对比较的计算成本。我们的方法在两个公共医学图像分割基准上实现了最佳结果。值得注意的是,我们的方法在结肠肿瘤分割的骰子上以5.7%的骰子依赖于只有5%标记的图像而表现出5.7%。
translated by 谷歌翻译
医学图像分割是许多临床方法的基本和关键步骤。半监督学习已被广​​泛应用于医学图像分割任务,因为它减轻了收购专家审查的注释的沉重负担,并利用了更容易获得的未标记数据的优势。虽然已被证明是通过实施不同分布下的预测的不变性的一致性学习,但现有方法无法充分利用来自未标记数据的区域级形状约束和边界级距离信息。在本文中,我们提出了一种新颖的不确定性引导的相互一致学习框架,通过将任务中的一致性学习与自组合和交叉任务一致性学习从任务级正则化的最新预测集成了任务内的一致性学习,从而有效地利用了未标记的数据利用几何形状信息。该框架是由模型的估计分割不确定性指导,以便为一致性学习选择相对某些预测,以便有效地利用来自未标记数据的更可靠的信息。我们在两个公开的基准数据集中广泛地验证了我们提出的方法:左心房分割(LA)数据集和大脑肿瘤分割(BRATS)数据集。实验结果表明,我们的方法通过利用未标记的数据和优于现有的半监督分段方法来实现性能增益。
translated by 谷歌翻译
强大的语义细分面临的一个普遍挑战是昂贵的数据注释成本。现有的半监督解决方案显示出解决此问题的巨大潜力。他们的关键想法是通过未经监督的数据增加未标记的数据来构建一致性正则化,以进行模型培训。未标记数据的扰动使一致性训练损失使半监督的语义分割受益。但是,这些扰动破坏了图像上下文并引入了不自然的边界,这对语义分割是有害的。此外,广泛采用的半监督学习框架,即均值老师,遭受了绩效限制,因为学生模型最终会收敛于教师模型。在本文中,首先,我们提出了一个友好的可区分几何扭曲,以进行无监督的数据增强。其次,提出了一个新颖的对抗双重学生框架,以从以下两个方面从以下两个方面改善均等老师:(1)双重学生模型是独立学习的,除了稳定约束以鼓励利用模型多样性; (2)对对抗性训练计划适用于学生,并诉诸歧视者以区分无标记数据的可靠伪标签进行自我训练。通过对Pascal VOC2012和CityScapes进行的广泛实验来验证有效性。我们的解决方案可显着提高两个数据集的性能和最先进的结果。值得注意的是,与完全监督相比,我们的解决方案仅使用Pascal VOC2012上的12.5%注释数据获得了73.4%的可比MIOU。我们的代码和模型可在https://github.com/caocong/ads-semiseg上找到。
translated by 谷歌翻译
半监督学习在医疗领域取得了重大进展,因为它减轻了收集丰富的像素的沉重负担,用于针对语义分割任务。现有的半监督方法增强了利用从有限标记数据获得的现有知识从未标记数据提取功能的能力。然而,由于标记数据的稀缺性,模型提取的特征在监督学习中受到限制,并且对未标记数据的预测质量也无法保证。两者都将妨碍一致培训。为此,我们提出了一种新颖的不确定性感知计划,以使模型自动学习地区。具体而言,我们采用Monte Carlo采样作为获得不确定性地图的估计方法,该方法可以作为损失损失的重量,以强制根据监督学习和无监督学习的特征将模型专注于有价值的区域。同时,在后退过程中,我们通过增强不同任务之间的梯度流动,联合无监督和监督损失来加速网络的融合。定量地,我们对三个挑战的医疗数据集进行了广泛的实验。实验结果表明,最先进的对应物的理想改善。
translated by 谷歌翻译
自我训练在半监督学习中表现出巨大的潜力。它的核心思想是使用在标记数据上学习的模型来生成未标记样本的伪标签,然后自我教学。为了获得有效的监督,主动尝试通常会采用动量老师进行伪标签的预测,但要观察确认偏见问题,在这种情况下,错误的预测可能会提供错误的监督信号并在培训过程中积累。这种缺点的主要原因是,现行的自我训练框架充当以前的知识指导当前状态,因为老师仅与过去的学生更新。为了减轻这个问题,我们提出了一种新颖的自我训练策略,该策略使模型可以从未来学习。具体而言,在每个培训步骤中,我们都会首先优化学生(即,在不将其应用于模型权重的情况下缓存梯度),然后用虚拟未来的学生更新老师,最后要求老师为伪标记生产伪标签目前的学生作为指导。这样,我们设法提高了伪标签的质量,从而提高了性能。我们还通过深入(FST-D)和广泛(FST-W)窥视未来,开发了我们未来自我训练(FST)框架的两个变体。将无监督的域自适应语义分割和半监督语义分割的任务作为实例,我们在广泛的环境下实验表明了我们方法的有效性和优越性。代码将公开可用。
translated by 谷歌翻译
伪装的物体检测(COD)旨在将伪装的物体掩盖隐藏在环境中,这是由于伪装对象及其周围环境的类似外观而具有挑战性。生物学研究表明深度可以为伪装对象发现提供有用的对象本地化提示。在本文中,我们研究了伪装对象检测的深度贡献,其中利用现有的单目深度估计(MDE)方法产生深度图。由于MDE数据集和我们的COD数据集之间的域间隙,所生成的深度映射不足以直接使用。然后,我们介绍了两个解决方案,以避免嘈杂的深度地图从主导培训过程中。首先,我们介绍了辅助深度估计分支(“ADE”),旨在重新映射深度图。我们发现我们的“生成深度”情景特别需要“Ade”。其次,我们通过生成的对抗性网络引入多模态的信心感知损失函数,以对伪装对象检测的深度的贡献。我们对各种伪装对象检测数据集的广泛实验说明了现有的“传感器深度”的RGB-D分段技术与“生成深度”工作,我们提出的两个解决方案协同工作,实现了伪装对象检测的有效深度贡献探索。
translated by 谷歌翻译
监管基于深度学习的方法,产生医学图像分割的准确结果。但是,它们需要大量标记的数据集,并获得它们是一种艰苦的任务,需要临床专业知识。基于半/自我监督的学习方法通​​过利用未标记的数据以及有限的注释数据来解决此限制。最近的自我监督学习方法使用对比损失来从未标记的图像中学习良好的全球层面表示,并在像想象网那样的流行自然图像数据集上实现高性能。在诸如分段的像素级预测任务中,对于学习良好的本地级别表示以及全局表示来说至关重要,以实现更好的准确性。然而,现有的局部对比损失的方法的影响仍然是学习良好本地表现的限制,因为类似于随机增强和空间接近定义了类似和不同的局部区域;由于半/自我监督设置缺乏大规模专家注释,而不是基于当地地区的语义标签。在本文中,我们提出了局部对比损失,以便通过利用从未标记的图像的未标记图像的伪标签获得的语义标签信息来学习用于分割的良好像素级别特征。特别地,我们定义了建议的损失,以鼓励具有相同伪标签/标签的像素的类似表示,同时与数据集中的不同伪标签/标签的像素的表示。我们通过联合优化标记和未标记的集合和仅限于标记集的分割损失,通过联合优化拟议的对比损失来进行基于伪标签的自培训和培训网络。我们在三个公共心脏和前列腺数据集上进行了评估,并获得高分割性能。
translated by 谷歌翻译
在最近的半监督语义分割方法中,一致性正则化已被广泛研究。从图像,功能和网络扰动中受益,已经实现了出色的性能。为了充分利用这些扰动,在这项工作中,我们提出了一个新的一致性正则化框架,称为相互知识蒸馏(MKD)。我们创新地基于一致性正则化方法,创新了两个辅助均值老师模型。更具体地说,我们使用一位卑鄙的老师生成的伪标签来监督另一个学生网络,以在两个分支之间进行相互知识蒸馏。除了使用图像级强和弱的增强外,我们还采用了特征增强,考虑隐性语义分布来增加对学生的进一步扰动。提出的框架大大增加了训练样本的多样性。公共基准测试的广泛实验表明,我们的框架在各种半监督设置下都优于先前的最先进方法(SOTA)方法。
translated by 谷歌翻译
完全监督的显着对象检测(SOD)方法取得了长足的进步,但是这种方法通常依赖大量的像素级注释,这些注释耗时且耗时。在本文中,我们专注于混合标签下的新的弱监督SOD任务,其中监督标签包括传统无监督方法生成的大量粗标签和少量的真实标签。为了解决此任务中标签噪声和数量不平衡问题的问题,我们设计了一个新的管道框架,采用三种复杂的培训策略。在模型框架方面,我们将任务分解为标签细化子任务和显着对象检测子任务,它们相互合作并交替训练。具体而言,R-NET设计为配备有指导和聚合机制的搅拌机的两流编码器模型(BGA),旨在纠正更可靠的伪标签的粗标签,而S-NET是可更换的。由当前R-NET生成的伪标签监督的SOD网络。请注意,我们只需要使用训练有素的S-NET进行测试。此外,为了确保网络培训的有效性和效率,我们设计了三种培训策略,包括替代迭代机制,小组智慧的增量机制和信誉验证机制。五个草皮基准的实验表明,我们的方法在定性和定量上都针对弱监督/无监督/无监督的方法实现了竞争性能。
translated by 谷歌翻译
We present Self Meta Pseudo Labels, a novel semi-supervised learning method similar to Meta Pseudo Labels but without the teacher model. We introduce a novel way to use a single model for both generating pseudo labels and classification, allowing us to store only one model in memory instead of two. Our method attains similar performance to the Meta Pseudo Labels method while drastically reducing memory usage.
translated by 谷歌翻译
基于深度学习的半监督学习(SSL)方法在医学图像细分中实现了强大的性能,可以通过使用大量未标记的数据来减轻医生昂贵的注释。与大多数现有的半监督学习方法不同,基于对抗性训练的方法通过学习分割图的数据分布来区分样本与不同来源,导致细分器生成更准确的预测。我们认为,此类方法的当前绩效限制是特征提取和学习偏好的问题。在本文中,我们提出了一种新的半监督的对抗方法,称为贴片置信疗法训练(PCA),用于医疗图像分割。我们提出的歧视器不是单个标量分类结果或像素级置信度图,而是创建贴片置信图,并根据斑块的规模进行分类。未标记数据的预测学习了每个贴片中的像素结构和上下文信息,以获得足够的梯度反馈,这有助于歧视器以融合到最佳状态,并改善半监督的分段性能。此外,在歧视者的输入中,我们补充了图像上的语义信息约束,使得未标记的数据更简单,以适合预期的数据分布。关于自动心脏诊断挑战(ACDC)2017数据集和脑肿瘤分割(BRATS)2019挑战数据集的广泛实验表明,我们的方法优于最先进的半监督方法,这证明了其对医疗图像分割的有效性。
translated by 谷歌翻译
最近,已经提出了几种半监督医学图像分割的贝叶斯深度学习方法。尽管他们在医疗基准方面取得了令人鼓舞的结果,但仍然存在一些问题。首先,他们的整体体系结构属于判别模型,因此,在培训的早期阶段,它们仅使用标记的数据进行培训,这可能会使它们过于贴合标记的数据。其次,实际上,它们仅部分基于贝叶斯深度学习,因为它们的整体体系结构不是在贝叶斯框架下设计的。但是,统一贝叶斯观点下的整体体系结构可以使体系结构具有严格的理论依据,因此体系结构的每个部分都可以具有明确的概率解释。因此,为了解决问题,我们提出了一种新的生成贝叶斯深度学习(GBDL)体系结构。 GBDL属于生成模型,其目标是估计输入医疗量及其相应标签的联合分布。估计联合分布隐式涉及数据的分布,因此在培训的早期阶段都可以使用标记和未标记的数据,从而减轻潜在的过度拟合问题。此外,GBDL是在贝叶斯框架下完全设计的,因此我们提供了其完整的贝叶斯配方,这为我们的建筑奠定了理论上的概率基础。广泛的实验表明,我们的GBDL在三个公共医疗数据集上的四个常用评估指标方面优于先前的最新方法。
translated by 谷歌翻译
使用输入图像,功能或网络扰动的一致性学习已经显示出半监督语义分割的显着结果,但这种方法可能受到未准确的未标记训练图像的预测的严重影响。这些不准确的预测有两种后果:1)基于“严格”的跨熵(CE)损失的培训可以容易地过度造成预测错误,导致确认偏见; 2)应用于这些不准确的预测的扰动将使用可能错误的预测作为训练信号,降低一致性学习。在本文中,我们解决了具有新颖的教师(MT)模型的一致性学习方法的预测准确性问题,包括新的辅助教师,并通过更严格的信心更换MT的均方误差(MSE) - 加权交叉熵(CONF-CE)损失。该模型的准确预测使我们能够利用网络,输入数据和特征扰动的具有挑战性的组合,以改善特征扰动的一致性学习概括,其中包括新的对抗扰动。 Public基准的结果表明,我们的方法通过现场上一个SOTA方法实现了显着的改进。
translated by 谷歌翻译