炎症性肠病(IBD),尤其是溃疡性结肠炎(UC),由内镜医生分级,该评估是风险分层和治疗监测的基础。目前,内窥镜表征在很大程度上取决于操作员,导致IBD患者有时不良的临床结果。我们专注于广泛使用但需要可靠地鉴定粘膜炎症变化的蛋黄酱内窥镜评分(MES)系统。大多数现有的深度学习分类方法无法检测到这些细粒度的变化,从而使UC的分级成为一项具有挑战性的任务。在这项工作中,我们介绍了一个新颖的贴片级实例组歧视,并使用借口 - 不变的表示学习(PLD-pirl)进行自我监督学习(SSL)。我们的实验表明,与基线监督网络和几种最先进的SSL方法相比,准确性和鲁棒性提高了。与基线(RESNET50)监督分类相比,我们提出的PLD-pirl在Hold-Out测试数据中获得了4.75%的改善,而在看不见的中心测试数据中获得了6.64%的速度,以获得TOP-1的准确性。
translated by 谷歌翻译
The goal of self-supervised learning from images is to construct image representations that are semantically meaningful via pretext tasks that do not require semantic annotations. Many pretext tasks lead to representations that are covariant with image transformations. We argue that, instead, semantic representations ought to be invariant under such transformations. Specifically, we develop Pretext-Invariant Representation Learning (PIRL, pronounced as "pearl") that learns invariant representations based on pretext tasks. We use PIRL with a commonly used pretext task that involves solving jigsaw puzzles. We find that PIRL substantially improves the semantic quality of the learned image representations. Our approach sets a new stateof-the-art in self-supervised learning from images on several popular benchmarks for self-supervised learning. Despite being unsupervised, PIRL outperforms supervised pre-training in learning image representations for object detection. Altogether, our results demonstrate the potential of self-supervised representations with good invariance properties.
translated by 谷歌翻译
组织病理学图像的出现取决于组织类型,染色和数字化过程。这些因素因来源而异,是域转移问题的潜在原因。由于这个问题,尽管深度学习模型在计算病理学中取得了巨大的成功,但在特定领域训练的模型当我们将其应用于另一个领域时,仍可能会表现出色。为了克服这一点,我们提出了一种称为PatchShuffling的新扩展,并为预训练的深度学习模型而被称为Impash的新型自我监视的对比学习框架。使用这些,我们获得了一个RESNET50编码器,该编码器可以提取对域移位抗性的图像表示。我们通过使用其他域普通化技术来比较了我们的派生表示形式,它们通过将它们用于结直肠组织图像的跨域分类。我们表明,所提出的方法优于其他传统的组织学领域适应和最先进的自我监督学习方法。代码可在以下网址获得:https://github.com/trinhvg/impash。
translated by 谷歌翻译
近年来,随着深度神经网络方法的普及,手术计算机视觉领域经历了相当大的突破。但是,用于培训的标准全面监督方法需要大量的带注释的数据,从而实现高昂的成本;特别是在临床领域。已经开始在一般计算机视觉社区中获得吸引力的自我监督学习(SSL)方法代表了对这些注释成本的潜在解决方案,从而使仅从未标记的数据中学习有用的表示形式。尽管如此,SSL方法在更复杂和有影响力的领域(例如医学和手术)中的有效性仍然有限且未开发。在这项工作中,我们通过在手术计算机视觉的背景下研究了四种最先进的SSL方法(Moco V2,Simclr,Dino,SWAV),以解决这一关键需求。我们对这些方法在cholec80数据集上的性能进行了广泛的分析,以在手术环境理解,相位识别和工具存在检测中为两个基本和流行的任务。我们检查了它们的参数化,然后在半监督设置中相对于训练数据数量的行为。如本工作所述和进行的那样,将这些方法的正确转移到手术中,可以使SSL的一般用途获得可观的性能 - 相位识别率高达7%,而在工具存在检测方面,则具有20% - 半监督相位识别方法高达14%。该代码将在https://github.com/camma-public/selfsupsurg上提供。
translated by 谷歌翻译
眼科图像和衍生物,例如视网膜神经纤维层(RNFL)厚度图对于检测和监测眼科疾病至关重要(例如,青光眼)。对于计算机辅助诊断眼疾病,关键技术是自动从眼科图像中提取有意义的特征,这些特征可以揭示与功能视觉丧失相关的生物标志物(例如RNFL变薄模式)。然而,将结构性视网膜损伤与人类视力丧失联系起来的眼科图像的表示,主要是由于患者之间的解剖学变化很大。在存在图像伪像的情况下,这项任务变得更加具有挑战性,由于图像采集和自动细分,这很常见。在本文中,我们提出了一个耐伪造的无监督的学习框架,该框架称为眼科图像的学习表示。 Eyelearn具有一个伪影校正模块,可以学习可以最好地预测无伪影眼镜图像的表示形式。此外,Eyelearn采用聚类引导的对比度学习策略,以明确捕获内部和间形的亲和力。在训练过程中,图像在簇中动态组织,以形成对比样品,其中鼓励在相同或不同的簇中分别学习相似或不同的表示形式。为了评估包冰者,我们使用青光眼患者的现实世界眼科摄影图数据集使用学习的表示形式进行视野预测和青光眼检测。广泛的实验和与最先进方法的比较验证了眼球从眼科图像中学习最佳特征表示的有效性。
translated by 谷歌翻译
H&E载玻片中的细胞识别是必不可少的先决条件,可以为进一步的病理分析铺平道路,包括组织分类,癌症分级和表型预测。但是,使用深度学习技术执行此类任务需要大型的细胞级注释数据集。尽管以前的研究已经调查了组织分类中对比度自我监督方法的性能,但该类别算法在细胞鉴定和聚类中的实用性仍然未知。在这项工作中,我们通过提出对比度细胞表示学习(CCRL)模型来研究了在细胞聚类中自学学习(SSL)的实用性。通过全面的比较,我们表明该模型可以通过来自不同组织类型的两个数据集的大幅度优于所有当前可用的细胞聚类模型。更有趣的是,结果表明,我们提出的模型在几个单元格类别中运作良好,而SSL模型的实用性主要在具有大量类别的自然图像数据集的背景下显示(例如Imagenet)。本研究中提出的无监督表示学习方法消除了细胞分类任务中数据注释的耗时步骤,这使我们能够在与以前的方法相比更大的数据集上训练我们的模型。因此,考虑到有希望的结果,这种方法可以为自动细胞表示学习打开新的途径。
translated by 谷歌翻译
背景:宫颈癌严重影响了女性生殖系统的健康。光学相干断层扫描(OCT)作为宫颈疾病检测的非侵入性,高分辨率成像技术。然而,OCT图像注释是知识密集型和耗时的,这阻碍了基于深度学习的分类模型的培训过程。目的:本研究旨在基于自我监督学习,开发一种计算机辅助诊断(CADX)方法来对体内宫颈OCT图像进行分类。方法:除了由卷积神经网络(CNN)提取的高电平语义特征外,建议的CADX方法利用了通过对比纹理学习来利用未标记的宫颈OCT图像的纹理特征。我们在中国733名患者的多中心临床研究中对OCT图像数据集进行了十倍的交叉验证。结果:在用于检测高风险疾病的二元分类任务中,包括高级鳞状上皮病变和宫颈癌,我们的方法实现了0.9798加号或减去0.0157的面积曲线值,灵敏度为91.17加或对于OCT图像贴片,减去4.99%,特异性为93.96加仑或减去4.72%;此外,它在测试集上的四位医学专家中表现出两种。此外,我们的方法在使用交叉形阈值投票策略的118名中国患者中达到了91.53%的敏感性和97.37%的特异性。结论:所提出的基于对比 - 学习的CADX方法表现优于端到端的CNN模型,并基于纹理特征提供更好的可解释性,其在“见和治疗”的临床协议中具有很大的潜力。
translated by 谷歌翻译
对比性自我监督学习(CSL)是一种实用解决方案,它以无监督的方法从大量数据中学习有意义的视觉表示。普通的CSL将从神经网络提取的特征嵌入到特定的拓扑结构上。在训练进度期间,对比度损失将同一输入的不同视图融合在一起,同时将不同输入分开的嵌入。 CSL的缺点之一是,损失项需要大量的负样本才能提供更好的相互信息理想。但是,通过较大的运行批量大小增加负样本的数量也增强了错误的负面影响:语义上相似的样品与锚分开,因此降低了下游性能。在本文中,我们通过引入一个简单但有效的对比学习框架来解决这个问题。关键的见解是使用暹罗风格的度量损失来匹配原型内特征,同时增加了原型间特征之间的距离。我们对各种基准测试进行了广泛的实验,其中结果证明了我们方法在提高视觉表示质量方面的有效性。具体而言,我们使用线性探针的无监督预训练的Resnet-50在Imagenet-1K数据集上超过了受访的训练有素的版本。
translated by 谷歌翻译
人们普遍认为,污渍差异引起的颜色变化是组织病理学图像分析的关键问题。现有方法采用颜色匹配,染色分离,污渍转移或它们的组合以减轻污渍变化问题。在本文中,我们提出了一种用于组织病理学图像分析的新型染色自适应自我监督学习(SASSL)方法。我们的SASSL将一个域 - 交流训练模块集成到SSL框架中,以学习独特的特征,这些功能对各种转换和污渍变化都具有鲁棒性。所提出的SASSL被视为域不变特征提取的一般方法,可以通过对特定下游任务的特征进行细微调整特征来灵活地与任意下游组织病理学图像分析模块(例如核/组织分割)结合。我们进行了有关公开可用的病理图像分析数据集的实验,包括熊猫,乳腺癌和camelyon16数据集,以实现最先进的性能。实验结果表明,所提出的方法可以鲁棒地提高模型的特征提取能力,并在下游任务中实现稳定的性能改善。
translated by 谷歌翻译
使用超越欧几里德距离的神经网络,深入的Bregman分歧测量数据点的分歧,并且能够捕获分布的发散。在本文中,我们提出了深深的布利曼对视觉表现的对比学习的分歧,我们的目标是通过基于功能Bregman分歧培训额外的网络来提高自我监督学习中使用的对比损失。与完全基于单点之间的分歧的传统对比学学习方法相比,我们的框架可以捕获分布之间的发散,这提高了学习表示的质量。我们展示了传统的对比损失和我们提出的分歧损失优于基线的结合,并且最先前的自我监督和半监督学习的大多数方法在多个分类和对象检测任务和数据集中。此外,学习的陈述在转移到其他数据集和任务时概括了良好。源代码和我们的型号可用于补充,并将通过纸张释放。
translated by 谷歌翻译
Vision Transformer(VIT)表明了其比卷积神经网络(CNN)的优势,其能够捕获全球远程依赖性以进行视觉表示学习。除了VIT,对比度学习是最近的另一个流行研究主题。尽管以前的对比学习作品主要基于CNN,但一些最新的研究试图共同对VIT进行建模和对比度学习,以增强自我监督的学习。尽管取得了很大的进步,但这些VIT和对比学习的组合主要集中在实例级对比度上,这些对比度通常忽略了全球聚类结构的对比度,并且缺乏直接学习聚类结果(例如图像)的能力。鉴于这一点,本文提出了一种端到端的深层图像聚类方法,称为对比群(VTCC)的视觉变压器(VTCC),据我们所知,该方法首次统一了变压器和对比度学习的对比度学习。图像聚类任务。具体而言,在微型批次中,在每个图像上执行了两个随机增强,我们利用具有两个重量分担视图的VIT编码器作为学习增强样品的表示形式。为了纠正VIT的潜在不稳定,我们结合了一个卷积茎,该卷积茎使用多个堆叠的小卷积而不是斑块投影层中的大卷积,将每个增强样品分为一系列斑块。通过通过主干学到的表示形式,实例投影仪和群集投影仪将进一步用于实例级对比度学习和全球聚类结构学习。在八个图像数据集上进行的广泛实验证明了VTCC的稳定性(在训练中)和优越性(在聚类性能中)比最先进的。
translated by 谷歌翻译
局部表示学习是促进组织病理学整体幻灯片图像分析的性能的关键挑战。先前的表示学习方法遵循监督学习范式。但是,大规模WSIS的手动注释是耗时且劳动力密集的。因此,自我监督的对比学习最近引起了密集的关注。目前的对比学习方法将每个样本视为一个类别,这遭受了类碰撞问题,尤其是在组织病理学图像分析的领域。在本文中,我们提出了一个新颖的对比表示学习框架,称为病变感染对比学习(LACL),用于组织病理学整个幻灯片图像分析。我们基于内存库结构建立了病变队列,以存储不同类别WSIS的表示形式,这使对比模型可以在训练过程中选择性定义负面对。此外,我们设计了一个队列改进策略,以净化病变队列中存储的表示形式。实验结果表明,LACL在不同数据集上学习在组织病理学图像表示学习中的最佳性能,并且在不同的WSI分类基准下的最先进方法优于最先进的方法。该代码可在https://github.com/junl21/lacl上获得。
translated by 谷歌翻译
在过去几年中,无监督的学习取得了很大的进展,特别是通过对比的自我监督学习。用于基准测试自我监督学习的主导数据集已经想象,最近的方法正在接近通过完全监督培训实现的性能。然而,ImageNet DataSet在很大程度上是以对象为中心的,并且目前尚不清楚这些方法的广泛不同的数据集和任务,这些方法是非以对象为中心的,例如数字病理学。虽然自我监督的学习已经开始在这个领域探讨了令人鼓舞的结果,但有理由看起来更接近这个环境与自然图像和想象成的不同。在本文中,我们对组织病理学进行了对比学学习的深入分析,引脚指向对比物镜的表现如何不同,由于组织病理学数据的特征。我们提出了一些考虑因素,例如对比目标和超参数调整的观点。在大量的实验中,我们分析了组织分类的下游性能如何受到这些考虑因素的影响。结果指出了对比学习如何减少数字病理中的注释工作,但需要考虑特定的数据集特征。为了充分利用对比学习目标,需要不同的视野和超参数校准。我们的结果为实现组织病理学应用的自我监督学习的全部潜力铺平了道路。
translated by 谷歌翻译
由于其最近在减少监督学习的差距方面取得了成功,自我监督的学习方法正在增加计算机愿景的牵引力。在自然语言处理(NLP)中,自我监督的学习和变形金刚已经是选择的方法。最近的文献表明,变压器也在计算机愿景中越来越受欢迎。到目前为止,当使用大规模监督数据或某种共同监督时,视觉变压器已被证明可以很好地工作。在教师网络方面。这些监督的普试视觉变压器在下游任务中实现了非常好的变化,变化最小。在这项工作中,我们调查自我监督学习的预用图像/视觉变压器,然后使用它们进行下游分类任务的优点。我们提出了自我监督的视觉变压器(坐在)并讨论了几种自我监督的培训机制,以获得借口模型。静坐的架构灵活性允许我们将其用作自动统计器,并无缝地使用多个自我监控任务。我们表明,可以在小规模数据集上进行预训练,以便在小型数据集上进行下游分类任务,包括几千个图像而不是数百万的图像。使用公共协议对所提出的方法进行评估标准数据集。结果展示了变压器的强度及其对自我监督学习的适用性。我们通过大边缘表现出现有的自我监督学习方法。我们还观察到坐着很好,很少有镜头学习,并且还表明它通过简单地训练从坐的学到的学习功能的线性分类器来学习有用的表示。预先训练,FineTuning和评估代码将在以下:https://github.com/sara-ahmed/sit。
translated by 谷歌翻译
对比度学习最近在无监督的视觉表示学习中显示出巨大的潜力。在此轨道中的现有研究主要集中于图像内不变性学习。学习通常使用丰富的图像内变换来构建正对,然后使用对比度损失最大化一致性。相反,相互影响不变性的优点仍然少得多。利用图像间不变性的一个主要障碍是,尚不清楚如何可靠地构建图像间的正对,并进一步从它们中获得有效的监督,因为没有配对注释可用。在这项工作中,我们提出了一项全面的实证研究,以更好地了解从三个主要组成部分的形象间不变性学习的作用:伪标签维护,采样策略和决策边界设计。为了促进这项研究,我们引入了一个统一的通用框架,该框架支持无监督的内部和间形内不变性学习的整合。通过精心设计的比较和分析,揭示了多个有价值的观察结果:1)在线标签收敛速度比离线标签更快; 2)半硬性样品比硬否定样品更可靠和公正; 3)一个不太严格的决策边界更有利于形象间的不变性学习。借助所有获得的食谱,我们的最终模型(即InterCLR)对多个标准基准测试的最先进的内图内不变性学习方法表现出一致的改进。我们希望这项工作将为设计有效的无监督间歇性不变性学习提供有用的经验。代码:https://github.com/open-mmlab/mmselfsup。
translated by 谷歌翻译
This paper studies the unsupervised embedding learning problem, which requires an effective similarity measurement between samples in low-dimensional embedding space. Motivated by the positive concentrated and negative separated properties observed from category-wise supervised learning, we propose to utilize the instance-wise supervision to approximate these properties, which aims at learning data augmentation invariant and instance spreadout features. To achieve this goal, we propose a novel instance based softmax embedding method, which directly optimizes the 'real' instance features on top of the softmax function. It achieves significantly faster learning speed and higher accuracy than all existing methods. The proposed method performs well for both seen and unseen testing categories with cosine similarity. It also achieves competitive performance even without pre-trained network over samples from fine-grained categories.
translated by 谷歌翻译
Collecting large-scale medical datasets with fully annotated samples for training of deep networks is prohibitively expensive, especially for 3D volume data. Recent breakthroughs in self-supervised learning (SSL) offer the ability to overcome the lack of labeled training samples by learning feature representations from unlabeled data. However, most current SSL techniques in the medical field have been designed for either 2D images or 3D volumes. In practice, this restricts the capability to fully leverage unlabeled data from numerous sources, which may include both 2D and 3D data. Additionally, the use of these pre-trained networks is constrained to downstream tasks with compatible data dimensions. In this paper, we propose a novel framework for unsupervised joint learning on 2D and 3D data modalities. Given a set of 2D images or 2D slices extracted from 3D volumes, we construct an SSL task based on a 2D contrastive clustering problem for distinct classes. The 3D volumes are exploited by computing vectored embedding at each slice and then assembling a holistic feature through deformable self-attention mechanisms in Transformer, allowing incorporating long-range dependencies between slices inside 3D volumes. These holistic features are further utilized to define a novel 3D clustering agreement-based SSL task and masking embedding prediction inspired by pre-trained language models. Experiments on downstream tasks, such as 3D brain segmentation, lung nodule detection, 3D heart structures segmentation, and abnormal chest X-ray detection, demonstrate the effectiveness of our joint 2D and 3D SSL approach. We improve plain 2D Deep-ClusterV2 and SwAV by a significant margin and also surpass various modern 2D and 3D SSL approaches.
translated by 谷歌翻译
胸部射线照相是一种相对便宜,广泛的医疗程序,可传达用于进行诊断决策的关键信息。胸部X射线几乎总是用于诊断呼吸系统疾病,如肺炎或最近的Covid-19。在本文中,我们提出了一个自我监督的深神经网络,其在未标记的胸部X射线数据集上掠夺。学习的陈述转移到下游任务 - 呼吸系统疾病的分类。在四个公共数据集获得的结果表明,我们的方法在不需要大量标记的培训数据的情况下产生竞争力。
translated by 谷歌翻译
现有人重新识别(Reid)方法通常直接加载预先训练的ImageNet权重以进行初始化。然而,作为一个细粒度的分类任务,Reid更具挑战性,并且存在于想象成分类之间的大域差距。在本文中,通过自我监督的代表性的巨大成功的巨大成功,在本文中,我们为基于对比学习(CL)管道的对比训练,为REID设计了一个无人监督的训练框架,被称为上限。在预培训期间,我们试图解决学习细粒度的重点问题的两个关键问题:(1)CL流水线中的增强可能扭曲人物图像中的鉴别条款。 (2)未完全探索人物图像的细粒度局部特征。因此,我们在Up-Reid中引入了一个身份内 - 身份(i $ ^ 2 $ - )正则化,该正常化是从全局图像方面和本地补丁方面的两个约束:在增强和原始人物图像之间强制强制实施全局一致性为了增加增强的稳健性,而使用每个图像的本地斑块之间的内在对比度约束来完全探索局部鉴别的线索。在多个流行的RE-ID数据集上进行了广泛的实验,包括PersonX,Market1501,CuHK03和MSMT17,表明我们的上部Reid预训练模型可以显着使下游REID微调和实现最先进的性能。代码和模型将被释放到https://github.com/frost-yang-99/up -reid。
translated by 谷歌翻译
对比度学习是视觉表示学习最成功的方法之一,可以通过在学习的表示上共同执行聚类来进一步提高其性能。但是,现有的联合聚类和对比度学习的方法在长尾数据分布上表现不佳,因为多数班级压倒了少数群体的损失,从而阻止了学习有意义的表示形式。由此激励,我们通过适应偏见的对比损失,以避免群集中的少数群体类别的不平衡数据集来开发一种新颖的联合聚类和对比度学习框架。我们表明,我们提出的修改后的对比损失和分歧聚类损失可改善多个数据集和学习任务的性能。源代码可从https://anonymon.4open.science/r/ssl-debiased-clustering获得
translated by 谷歌翻译