深度学习已成为火星探索的强大工具。火星地形细分是一项重要的火星愿景任务,它是漫游者自动计划和安全驾驶的基础。但是,现有的基于深度学习的地形细分方法遇到了两个问题:一个是缺乏足够的详细和高信心注释,另一个是模型过度依赖于注释的培训数据。在本文中,我们从联合数据和方法设计的角度解决了这两个问题。我们首先提出了一个新的火星地形细分数据集,该数据集包含6K高分辨率图像,并根据置信度稀疏注释,以确保标签的高质量。然后从这些稀疏的数据中学习,我们为火星地形细分的基于表示的学习框架,包括一个自我监督的学习阶段(用于预训练)和半监督的学习阶段(用于微调)。具体而言,对于自我监督的学习,我们设计了一个基于掩盖图像建模(MIM)概念的多任务机制,以强调图像的纹理信息。对于半监督的学习,由于我们的数据集很少注释,因此我们鼓励该模型通过在线生成和利用伪标签来挖掘每个图像中未标记的区域的信息。我们将数据集和方法命名为MARS(S $^{5} $ MARS)的自我监督和半监督分割。实验结果表明,我们的方法可以超越最先进的方法,并通过很大的边距提高地形分割性能。
translated by 谷歌翻译
在深度学习研究中,自学学习(SSL)引起了极大的关注,引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功,但SSL在地球观测领域的大部分潜力仍然锁定。在本文中,我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍,并回顾了SSL中的概念和最新发展。此外,我们在流行的遥感数据集上提供了现代SSL算法的初步基准,从而验证了SSL在遥感中的潜力,并提供了有关数据增强的扩展研究。最后,我们确定了SSL未来研究的有希望的方向的地球观察(SSL4EO),以铺平了两个领域的富有成效的相互作用。
translated by 谷歌翻译
我们对最近的自我和半监督ML技术进行严格的评估,从而利用未标记的数据来改善下游任务绩效,以河床分割的三个遥感任务,陆地覆盖映射和洪水映射。这些方法对于遥感任务特别有价值,因为易于访问未标记的图像,并获得地面真理标签通常可以昂贵。当未标记的图像(标记数据集之外)提供培训时,我们量化性能改进可以对这些遥感分割任务进行期望。我们还设计实验以测试这些技术的有效性,当测试集相对于训练和验证集具有域移位时。
translated by 谷歌翻译
组织病理学图像包含丰富的表型信息和病理模式,这是疾病诊断的黄金标准,对于预测患者预后和治疗结果至关重要。近年来,在临床实践中迫切需要针对组织病理学图像的计算机自动化分析技术,而卷积神经网络代表的深度学习方法已逐渐成为数字病理领域的主流。但是,在该领域获得大量细粒的注释数据是一项非常昂贵且艰巨的任务,这阻碍了基于大量注释数据的传统监督算法的进一步开发。最新的研究开始从传统的监督范式中解放出来,最有代表性的研究是基于弱注释,基于有限的注释的半监督学习范式以及基于自我监督的学习范式的弱监督学习范式的研究图像表示学习。这些新方法引发了针对注释效率的新自动病理图像诊断和分析。通过对130篇论文的调查,我们对从技术和方法论的角度来看,对计算病理学领域中有关弱监督学习,半监督学习以及自我监督学习的最新研究进行了全面的系统综述。最后,我们提出了这些技术的关键挑战和未来趋势。
translated by 谷歌翻译
从医用试剂染色图像中分割牙齿斑块为诊断和确定随访治疗计划提供了宝贵的信息。但是,准确的牙菌斑分割是一项具有挑战性的任务,需要识别牙齿和牙齿斑块受到语义腔区域的影响(即,在牙齿和牙齿斑块之间的边界区域中存在困惑的边界)以及实例形状的复杂变化,这些变化均未完全解决。现有方法。因此,我们提出了一个语义分解网络(SDNET),该网络介绍了两个单任务分支,以分别解决牙齿和牙齿斑块的分割,并设计了其他约束,以学习每个分支的特定类别特征,从而促进语义分解并改善该类别的特征牙齿分割的性能。具体而言,SDNET以分裂方式学习了两个单独的分割分支和牙齿的牙齿,以解除它们之间的纠缠关系。指定类别的每个分支都倾向于产生准确的分割。为了帮助这两个分支更好地关注特定类别的特征,进一步提出了两个约束模块:1)通过最大化不同类别表示之间的距离来学习判别特征表示,以了解判别特征表示形式,以减少减少负面影响关于特征提取的语义腔区域; 2)结构约束模块(SCM)通过监督边界感知的几何约束提供完整的结构信息,以提供各种形状的牙菌斑。此外,我们构建了一个大规模的开源染色牙菌斑分割数据集(SDPSEG),该数据集为牙齿和牙齿提供高质量的注释。 SDPSEG数据集的实验结果显示SDNET达到了最新的性能。
translated by 谷歌翻译
Jitendra Malik once said, "Supervision is the opium of the AI researcher". Most deep learning techniques heavily rely on extreme amounts of human labels to work effectively. In today's world, the rate of data creation greatly surpasses the rate of data annotation. Full reliance on human annotations is just a temporary means to solve current closed problems in AI. In reality, only a tiny fraction of data is annotated. Annotation Efficient Learning (AEL) is a study of algorithms to train models effectively with fewer annotations. To thrive in AEL environments, we need deep learning techniques that rely less on manual annotations (e.g., image, bounding-box, and per-pixel labels), but learn useful information from unlabeled data. In this thesis, we explore five different techniques for handling AEL.
translated by 谷歌翻译
深度学习的快速发展在分割方面取得了长足的进步,这是计算机视觉的基本任务之一。但是,当前的细分算法主要取决于像素级注释的可用性,这些注释通常昂贵,乏味且费力。为了减轻这一负担,过去几年见证了越来越多的关注,以建立标签高效,深度学习的细分算法。本文对标签有效的细分方法进行了全面的审查。为此,我们首先根据不同类型的弱标签提供的监督(包括没有监督,粗略监督,不完整的监督和嘈杂的监督和嘈杂的监督),首先开发出一种分类法来组织这些方法,并通过细分类型(包括语义细分)补充,实例分割和全景分割)。接下来,我们从统一的角度总结了现有的标签有效的细分方法,该方法讨论了一个重要的问题:如何弥合弱监督和密集预测之间的差距 - 当前的方法主要基于启发式先导,例如交叉像素相似性,跨标签约束,跨视图一致性,跨图像关系等。最后,我们分享了对标签有效深层细分的未来研究方向的看法。
translated by 谷歌翻译
手术场景细分对于促使机器人手术的认知援助至关重要。但是,以逐帧方式以像素为单位的注释视频是昂贵且耗时的。为了大大减轻标签负担,在这项工作中,我们从机器人手术视频中研究了半监督的场景细分,这实际上是必不可少的,但以前很少探索。我们考虑在等距采样下的临床上适当的注释情况。然后,我们提出了PGV-CL,这是一种新型的伪标签引导的跨视频对比学习方法,以增强场景分割。它有效地利用了未标记的数据来实现可信赖和全球模型的正则化,从而产生更具歧视性的特征表示。具体来说,对于可信赖的表示学习,我们建议合并伪标签以指导对选择,从而获得更可靠的代表对像素对比度。此外,我们将代表学习空间从以前的图像级扩展到交叉视频,该图像可以捕获全球语义以使学习过程受益。我们广泛评估了公共机器人手术数据集Edovis18和公共白内障数据集Cadis的方法。实验结果证明了我们方法的有效性,在不同的标签比下始终超过了最先进的半监督方法,甚至超过了10.1%标签的destovis18上的全面监督培训。
translated by 谷歌翻译
大规模点云的注释仍然耗时,并且对于许多真实世界任务不可用。点云预训练是用于获得快速适配的可扩展模型的一个潜在解决方案。因此,在本文中,我们调查了一种新的自我监督学习方法,称为混合和解除戒(MD),用于点云预培训。顾名思义,我们探索如何将原始点云与混合点云分开,并利用这一具有挑战的任务作为模型培训的借口优化目标。考虑到原始数据集中的有限培训数据,这远低于普遍的想象,混合过程可以有效地产生更高质量的样本。我们构建一个基线网络以验证我们的直觉,只包含两个模块,编码器和解码器。给定混合点云,首先预先训练编码器以提取语义嵌入。然后,利用实例 - 自适应解码器根据嵌入来解除点云。尽管简单,编码器本质上是能够在训练后捕获点云关键点,并且可以快速适应下游任务,包括预先训练和微调范例的分类和分割。在两个数据集上的广泛实验表明编码器+我们的(MD)显着超越了从头划痕培训的编码器和快速收敛的编码器。在消融研究中,我们进一步研究了每个部件的效果,并讨论了拟议的自我监督学习策略的优势。我们希望这种自我监督的学习尝试点云可以铺平了减少对大规模标记数据的深度学习模型依赖的方式,并在将来节省了大量的注释成本。
translated by 谷歌翻译
在许多图像引导的临床方法中,医学图像分割是一个基本和关键的步骤。基于深度学习的细分方法的最新成功通常取决于大量标记的数据,这特别困难且昂贵,尤其是在医学成像领域中,只有专家才能提供可靠和准确的注释。半监督学习已成为一种吸引人的策略,并广泛应用于医学图像分割任务,以训练注释有限的深层模型。在本文中,我们对最近提议的半监督学习方法进行了全面综述,并总结了技术新颖性和经验结果。此外,我们分析和讨论现有方法的局限性和几个未解决的问题。我们希望这篇评论可以激发研究界探索解决这一挑战的解决方案,并进一步促进医学图像细分领域的发展。
translated by 谷歌翻译
监管基于深度学习的方法,产生医学图像分割的准确结果。但是,它们需要大量标记的数据集,并获得它们是一种艰苦的任务,需要临床专业知识。基于半/自我监督的学习方法通​​过利用未标记的数据以及有限的注释数据来解决此限制。最近的自我监督学习方法使用对比损失来从未标记的图像中学习良好的全球层面表示,并在像想象网那样的流行自然图像数据集上实现高性能。在诸如分段的像素级预测任务中,对于学习良好的本地级别表示以及全局表示来说至关重要,以实现更好的准确性。然而,现有的局部对比损失的方法的影响仍然是学习良好本地表现的限制,因为类似于随机增强和空间接近定义了类似和不同的局部区域;由于半/自我监督设置缺乏大规模专家注释,而不是基于当地地区的语义标签。在本文中,我们提出了局部对比损失,以便通过利用从未标记的图像的未标记图像的伪标签获得的语义标签信息来学习用于分割的良好像素级别特征。特别地,我们定义了建议的损失,以鼓励具有相同伪标签/标签的像素的类似表示,同时与数据集中的不同伪标签/标签的像素的表示。我们通过联合优化标记和未标记的集合和仅限于标记集的分割损失,通过联合优化拟议的对比损失来进行基于伪标签的自培训和培训网络。我们在三个公共心脏和前列腺数据集上进行了评估,并获得高分割性能。
translated by 谷歌翻译
汽车MMWAVE雷达在高级驾驶员辅助系统(ADA)和自动驾驶中起关键作用。基于深度学习的实例细分可以从雷达检测点实时对象识别。在常规培训过程中,准确的注释是关键。然而,由于雷达检测点的高质量注释,由于其歧义和稀疏性,要实现挑战。为了解决这个问题,我们提出了一种实施基于雷达检测点的实例细分的对比学习方法。我们根据地面真相标签定义正面和负样品,将对比度损失首先训练模型,然后对以下下游任务进行微调。此外,可以将这两个步骤合并为一个,并且可以为未标记的数据生成伪标签,以进一步提高性能。因此,我们的方法有四种不同的培训设置。实验表明,当仅适用于一小部分培训数据时,我们的方法仍然可以与以100%基真实信息进行监督的方式实现可比的性能。
translated by 谷歌翻译
语义分割在广泛的计算机视觉应用中起着基本作用,提供了全球对图像​​的理解的关键信息。然而,最先进的模型依赖于大量的注释样本,其比在诸如图像分类的任务中获得更昂贵的昂贵的样本。由于未标记的数据替代地获得更便宜,因此无监督的域适应达到了语义分割社区的广泛成功并不令人惊讶。本调查致力于总结这一令人难以置信的快速增长的领域的五年,这包含了语义细分本身的重要性,以及将分段模型适应新环境的关键需求。我们提出了最重要的语义分割方法;我们对语义分割的域适应技术提供了全面的调查;我们揭示了多域学习,域泛化,测试时间适应或无源域适应等较新的趋势;我们通过描述在语义细分研究中最广泛使用的数据集和基准测试来结束本调查。我们希望本调查将在学术界和工业中提供具有全面参考指导的研究人员,并有助于他们培养现场的新研究方向。
translated by 谷歌翻译
基于深度学习的半监督学习(SSL)方法在医学图像细分中实现了强大的性能,可以通过使用大量未标记的数据来减轻医生昂贵的注释。与大多数现有的半监督学习方法不同,基于对抗性训练的方法通过学习分割图的数据分布来区分样本与不同来源,导致细分器生成更准确的预测。我们认为,此类方法的当前绩效限制是特征提取和学习偏好的问题。在本文中,我们提出了一种新的半监督的对抗方法,称为贴片置信疗法训练(PCA),用于医疗图像分割。我们提出的歧视器不是单个标量分类结果或像素级置信度图,而是创建贴片置信图,并根据斑块的规模进行分类。未标记数据的预测学习了每个贴片中的像素结构和上下文信息,以获得足够的梯度反馈,这有助于歧视器以融合到最佳状态,并改善半监督的分段性能。此外,在歧视者的输入中,我们补充了图像上的语义信息约束,使得未标记的数据更简单,以适合预期的数据分布。关于自动心脏诊断挑战(ACDC)2017数据集和脑肿瘤分割(BRATS)2019挑战数据集的广泛实验表明,我们的方法优于最先进的半监督方法,这证明了其对医疗图像分割的有效性。
translated by 谷歌翻译
当前,借助监督学习方法,基于深度学习的视觉检查已取得了非常成功的成功。但是,在实际的工业场景中,缺陷样本的稀缺性,注释的成本以及缺乏缺陷的先验知识可能会使基于监督的方法无效。近年来,无监督的异常定位算法已在工业检查任务中广泛使用。本文旨在通过深入学习在工业图像中无视无视的异常定位中的最新成就来帮助该领域的研究人员。该调查回顾了120多个重要出版物,其中涵盖了异常定位的各个方面,主要涵盖了所审查方法的各种概念,挑战,分类法,基准数据集和定量性能比较。在审查迄今为止的成就时,本文提供了一些未来研究方向的详细预测和分析。这篇综述为对工业异常本地化感兴趣的研究人员提供了详细的技术信息,并希望将其应用于其他领域的异常本质。
translated by 谷歌翻译
本文为半监督医学图像分割提供了一个简单而有效的两阶段框架。我们的主要洞察力是探索用标记和未标记的(即伪标记)图像的特征表示学习,以增强分段性能。在第一阶段,我们介绍了一种炼层的不确定感知方法,即Aua,以改善产生高质量伪标签的分割性能。考虑到医学图像的固有歧义,Aua自适应地规范了具有低歧义的图像的一致性。为了提高代表学习,我们提出了一种舞台适应性的对比学习方法,包括边界意识的对比损失,以规范第一阶段中标记的图像,并在第二阶段中的原型感知对比损失优化标记和伪标记的图像阶段。边界意识的对比损失仅优化分段边界周围的像素,以降低计算成本。原型感知对比损失通过为每个类构建质心来充分利用标记的图像和伪标记的图像,以减少对比较的计算成本。我们的方法在两个公共医学图像分割基准上实现了最佳结果。值得注意的是,我们的方法在结肠肿瘤分割的骰子上以5.7%的骰子依赖于只有5%标记的图像而表现出5.7%。
translated by 谷歌翻译
我们呈现蒙版特征预测(MaskFeat),用于自我监督的视频模型的预训练。我们的方法首先随机地掩盖输入序列的一部分,然后预测蒙面区域的特征。我们研究五种不同类型的功能,找到面向导向渐变(HOG)的直方图,手工制作的特征描述符,在性能和效率方面尤其良好。我们观察到猪中的局部对比标准化对于良好的结果至关重要,这与使用HOG进行视觉识别的早期工作符合。我们的方法可以学习丰富的视觉知识和基于大规模的变压器的模型。在不使用额外的模型重量或监督的情况下,在未标记视频上预先培训的MaskFeat在动力学-400上使用MVIT-L达到86.7%的前所未有的结果,在动力学-600,88.3%上,88.3%,在动力学-700,88.8地图上SSV2上的75.0%。 MaskFeat进一步推广到图像输入,其可以被解释为具有单个帧的视频,并在想象中获得竞争结果。
translated by 谷歌翻译
目前,在有监督的学习下,由大规模自然界数据集预测的模型,然后在一些特定的任务标签数据上进行微调,这是主导知识转移学习的范式。它已达到遥感域(RSD)中任务感知模型培训的共识解决方案的状态。不幸的是,由于不同类别的成像数据和数据注释的严峻挑战,因此没有足够大且均匀的遥感数据集来支持RSD中的大规模预处理。此外,通过监督学习,然后直接对不同的下游任务进行微调,在大规模自然场景数据集上进行了预处理的模型似乎是一种粗略的方法,这很容易受到不可避免的标记噪声,严重的域间隙和任务意识到的差异的影响。因此,在本文中,考虑了一个简洁有效的知识转移学习策略,称为连续预审计(CSPT),考虑了不停止在自然语言处理中预处理的想法(CSPT)(CSPT)(CSPT)(CSPT)(CSPT)(CSPT)(CSPT)(CSPT)(CSPT)(CSPT)(CSPT)(CSPT)(CSPT)(CSPT)(CSPT),那么在本文中。 NLP),可以逐渐弥合域间隙并将知识从自然场景域转移到RSD。拟议的CSPT还可以发布未标记数据的巨大潜力,以进行任务感知模型培训。最后,在RSD的十二个数据集上进行了广泛的实验,涉及三种类型的下游任务(例如,场景分类,对象检测和土地覆盖分类)和两种类型的成像数据(例如,光学和SAR)。结果表明,通过利用拟议的CSPT进行任务感知模型培训,RSD中的几乎所有下游任务都可以胜过先前的监督预处理的方法,然后再进行预先调整,甚至超过了最先进的方法(SOTA)(SOTA)(SOTA)性能没有任何昂贵的标签消费和仔细的模型设计。
translated by 谷歌翻译
As an important data selection schema, active learning emerges as the essential component when iterating an Artificial Intelligence (AI) model. It becomes even more critical given the dominance of deep neural network based models, which are composed of a large number of parameters and data hungry, in application. Despite its indispensable role for developing AI models, research on active learning is not as intensive as other research directions. In this paper, we present a review of active learning through deep active learning approaches from the following perspectives: 1) technical advancements in active learning, 2) applications of active learning in computer vision, 3) industrial systems leveraging or with potential to leverage active learning for data iteration, 4) current limitations and future research directions. We expect this paper to clarify the significance of active learning in a modern AI model manufacturing process and to bring additional research attention to active learning. By addressing data automation challenges and coping with automated machine learning systems, active learning will facilitate democratization of AI technologies by boosting model production at scale.
translated by 谷歌翻译
在灾难后评估领域,为了及时准确的救援和本地化,人们需要知道损坏的建筑物的位置。在深度学习中,一些学者提出了通过遥感图像进行自动且高度准确的建筑损害评估的方法,事实证明,这些方法比域专家评估更有效。但是,由于缺乏大量标记的数据,这些任务可能因能够进行准确的评估而遭受损失,因为深度学习模型的效率高度依赖于标记的数据。尽管现有的半监督和无监督研究在这一领域取得了突破,但它们都没有完全解决这个问题。因此,我们建议采用一种自制的比较学习方法来解决任务,而无需标记数据。我们构建了一个新颖的非对称双网络架构,并在XBD数据集上测试了其性能。我们模型的实验结果表明,与基线和常用方法相比,改善了。我们还展示了自我监督方法建立损害识别意识的潜力。
translated by 谷歌翻译