与临床上建立的疾病类别相比,缺乏大型标记的医学成像数据集以及个体间的显着可变性,在精确医学范式中利用医学成像信息方面面临重大挑战个体预测和/或将患者分为较细粒的群体,这些群体可能遵循更多均匀的轨迹,从而赋予临床试验能力。为了有效地探索以无监督的方式探索医学图像中有效的自由度可变性,在这项工作中,我们提出了一个无监督的自动编码器框架,并增加了对比度损失,以鼓励潜在空间中的高可分离性。该模型在(医学)基准数据集上进行了验证。由于群集标签是根据集群分配分配给每个示例的,因此我们将性能与监督的转移学习基线进行比较。我们的方法达到了与监督体系结构相似的性能,表明潜在空间中的分离再现了专家医学观察者分配的标签。所提出的方法可能对患者分层有益,探索较大类或病理连续性的新细分,或者由于其在变化环境中的采样能力,因此医学图像处理中的数据增强。
translated by 谷歌翻译
在医学中,精心策划的图像数据集经常采用离散标签来描述所谓的健康状况与病理状况的连续光谱,例如阿尔茨海默氏病连续体或图像在诊断中起关键点的其他领域。我们提出了一个基于条件变异自动编码器的图像分层的体系结构。我们的框架VAESIM利用连续的潜在空间来表示疾病的连续体并在训练过程中找到簇,然后可以将其用于图像/患者分层。该方法的核心学习一组原型向量,每个向量与群集关联。首先,我们将每个数据样本的软分配给群集。然后,我们根据样品嵌入和簇的原型向量之间的相似性度量重建样品。为了更新原型嵌入,我们使用批处理大小中实际原型和样品之间最相似表示的指数移动平均值。我们在MNIST手写数字数据集和名为Pneumoniamnist的医疗基准数据集上测试了我们的方法。我们证明,我们的方法在两个数据集中针对标准VAE的分类任务(性能提高了15%)的KNN准确性优于基准,并且还以完全监督的方式培训的分类模型同等。我们还展示了我们的模型如何优于无监督分层的当前,端到端模型。
translated by 谷歌翻译
眼科图像和衍生物,例如视网膜神经纤维层(RNFL)厚度图对于检测和监测眼科疾病至关重要(例如,青光眼)。对于计算机辅助诊断眼疾病,关键技术是自动从眼科图像中提取有意义的特征,这些特征可以揭示与功能视觉丧失相关的生物标志物(例如RNFL变薄模式)。然而,将结构性视网膜损伤与人类视力丧失联系起来的眼科图像的表示,主要是由于患者之间的解剖学变化很大。在存在图像伪像的情况下,这项任务变得更加具有挑战性,由于图像采集和自动细分,这很常见。在本文中,我们提出了一个耐伪造的无监督的学习框架,该框架称为眼科图像的学习表示。 Eyelearn具有一个伪影校正模块,可以学习可以最好地预测无伪影眼镜图像的表示形式。此外,Eyelearn采用聚类引导的对比度学习策略,以明确捕获内部和间形的亲和力。在训练过程中,图像在簇中动态组织,以形成对比样品,其中鼓励在相同或不同的簇中分别学习相似或不同的表示形式。为了评估包冰者,我们使用青光眼患者的现实世界眼科摄影图数据集使用学习的表示形式进行视野预测和青光眼检测。广泛的实验和与最先进方法的比较验证了眼球从眼科图像中学习最佳特征表示的有效性。
translated by 谷歌翻译
我们介绍了代表学习(CARL)的一致分配,通过组合来自自我监督对比学习和深层聚类的思路来学习视觉表现的无监督学习方法。通过从聚类角度来看对比学习,Carl通过学习一组一般原型来学习无监督的表示,该原型用作能量锚来强制执行给定图像的不同视图被分配给相同的原型。与与深层聚类的对比学习的当代工作不同,Carl建议以在线方式学习一组一般原型,使用梯度下降,而无需使用非可微分算法或k手段来解决群集分配问题。卡尔在许多代表性学习基准中超越了竞争对手,包括线性评估,半监督学习和转移学习。
translated by 谷歌翻译
Unsupervised image representations have significantly reduced the gap with supervised pretraining, notably with the recent achievements of contrastive learning methods. These contrastive methods typically work online and rely on a large number of explicit pairwise feature comparisons, which is computationally challenging. In this paper, we propose an online algorithm, SwAV, that takes advantage of contrastive methods without requiring to compute pairwise comparisons. Specifically, our method simultaneously clusters the data while enforcing consistency between cluster assignments produced for different augmentations (or "views") of the same image, instead of comparing features directly as in contrastive learning. Simply put, we use a "swapped" prediction mechanism where we predict the code of a view from the representation of another view. Our method can be trained with large and small batches and can scale to unlimited amounts of data. Compared to previous contrastive methods, our method is more memory efficient since it does not require a large memory bank or a special momentum network. In addition, we also propose a new data augmentation strategy, multi-crop, that uses a mix of views with different resolutions in place of two full-resolution views, without increasing the memory or compute requirements. We validate our findings by achieving 75.3% top-1 accuracy on ImageNet with ResNet-50, as well as surpassing supervised pretraining on all the considered transfer tasks.
translated by 谷歌翻译
This paper presents a novel positive and negative set selection strategy for contrastive learning of medical images based on labels that can be extracted from clinical data. In the medical field, there exists a variety of labels for data that serve different purposes at different stages of a diagnostic and treatment process. Clinical labels and biomarker labels are two examples. In general, clinical labels are easier to obtain in larger quantities because they are regularly collected during routine clinical care, while biomarker labels require expert analysis and interpretation to obtain. Within the field of ophthalmology, previous work has shown that clinical values exhibit correlations with biomarker structures that manifest within optical coherence tomography (OCT) scans. We exploit this relationship between clinical and biomarker data to improve performance for biomarker classification. This is accomplished by leveraging the larger amount of clinical data as pseudo-labels for our data without biomarker labels in order to choose positive and negative instances for training a backbone network with a supervised contrastive loss. In this way, a backbone network learns a representation space that aligns with the clinical data distribution available. Afterwards, we fine-tune the network trained in this manner with the smaller amount of biomarker labeled data with a cross-entropy loss in order to classify these key indicators of disease directly from OCT scans. Our method is shown to outperform state of the art self-supervised methods by as much as 5% in terms of accuracy on individual biomarker detection.
translated by 谷歌翻译
This paper presents Prototypical Contrastive Learning (PCL), an unsupervised representation learning method that bridges contrastive learning with clustering. PCL not only learns low-level features for the task of instance discrimination, but more importantly, it encodes semantic structures discovered by clustering into the learned embedding space. Specifically, we introduce prototypes as latent variables to help find the maximum-likelihood estimation of the network parameters in an Expectation-Maximization framework. We iteratively perform E-step as finding the distribution of prototypes via clustering and M-step as optimizing the network via contrastive learning. We propose ProtoNCE loss, a generalized version of the InfoNCE loss for contrastive learning, which encourages representations to be closer to their assigned prototypes. PCL outperforms state-of-the-art instance-wise contrastive learning methods on multiple benchmarks with substantial improvement in low-resource transfer learning. Code and pretrained models are available at https://github.com/salesforce/PCL.
translated by 谷歌翻译
无监督学习的最有前途的方法之一是将深层表示学习和深入的聚类结合在一起。最近的一些作品建议使用深层神经网络同时学习表示形式,并通过在嵌入式特征之上定义聚类损失来执行聚类。但是,这些方法对数据不平衡和分布样本敏感。结果,这些方法通过将数据推向接近随机初始化的群集中心来优化聚类。当实例的数量在不同的类别中有所不同,或者很少有样本的群集的机会较小的机会被分配给良好的质心时,这是有问题的。为了克服这些局限性,我们引入了一个新的无监督框架,用于联合表述学习和图像群集。我们同时训练两个深度学习模型,一个捕获数据分布的深度表示网络,以及一个学习嵌入式功能并执行聚类的深度聚类网络。具体而言,聚类网络和学习表示网络都利用了我们提出的统计池块,该统计数据池块代表均值,方差和基数,以处理分布外样本和类不平衡。我们的实验表明,使用这些表示形式,可以大大改善各种图像数据集的不平衡图像聚类的结果。此外,当传输到分布数据集时,学到的表示形式可以很好地推广。
translated by 谷歌翻译
纵向电子健康记录(EHR)数据的可用性增加导致改善对疾病的理解和新颖表型的发现。大多数聚类算法仅关注患者轨迹,但具有类似轨迹的患者可能具有不同的结果。寻找不同轨迹和结果的患者亚组可以引导未来的药物开发,改善临床试验的招募。我们使用可以加权的重建,结果和聚类损耗开发经常性神经网络自动拓群体以群集EHR数据,以查找不同类型的患者群集。我们展示我们的模型能够从数据偏差和结果差异中发现已知的集群,表现优于基线模型。我们展示了29,222,229美元糖尿病患者的模型性能,显示出发现患有不同轨迹和不同结果的患者的簇,可用于帮助临床决策。
translated by 谷歌翻译
卷积神经网络(CNN)在一系列医学成像任务中表现出了出色的性能。但是,常规的CNN无法解释其推理过程,因此限制了它们在临床实践中的采用。在这项工作中,我们建议使用基于相似性的比较(Indightr-net)回归的固有解释的CNN,并演示了我们关于糖尿病性视网膜病变的任务的方法。结合到体系结构中的原型层可以可视化图像中与学到的原型最相似的区域。然后将最终预测直观地建模为原型标签的平均值,并由相似性加权。与重新网基的基线相比,我们在无效的网络中实现了竞争性预测性能,这表明没有必要损害性能以实现可解释性。此外,我们使用稀疏性和多样性量化了解释的质量,这两个概念对良好的解释很重要,并证明了几个参数对潜在空间嵌入的影响。
translated by 谷歌翻译
事实证明,无监督的表示学习方法在学习目标数据集的视觉语义方面有效。这些方法背后的主要思想是,同一图像的不同视图代表相同的语义。在本文中,我们进一步引入了一个附加模块,以促进对样品之间空间跨相关性的知识注入。反过来,这导致了类内部信息的提炼,包括特征级别的位置和同类实例之间的相似性。建议的附加组件可以添加到现有方法中,例如SWAV。稍后,我们可以删除用于推理的附加模块,而无需修改学识的权重。通过一系列广泛的经验评估,我们验证我们的方法在检测类激活图,TOP-1分类准确性和下游任务(例如对象检测)的情况下会提高性能,并具有不同的配置设置。
translated by 谷歌翻译
我们对自我监督,监督或半监督设置的代表学习感兴趣。在应用自我监督学习的平均移位思想的事先工作,通过拉动查询图像来概括拜尔的想法,不仅更接近其其他增强,而且还可以到其他增强的最近邻居(NNS)。我们认为,学习可以从选择远处与查询相关的邻居选择遥远的邻居。因此,我们建议通过约束最近邻居的搜索空间来概括MSF算法。我们显示我们的方法在SSL设置中优于MSF,当约束使用不同的图像时,并且当约束确保NNS具有与查询相同的伪标签时,在半监控设置中优于培训资源的半监控设置中的爪子。
translated by 谷歌翻译
对比度学习是视觉表示学习最成功的方法之一,可以通过在学习的表示上共同执行聚类来进一步提高其性能。但是,现有的联合聚类和对比度学习的方法在长尾数据分布上表现不佳,因为多数班级压倒了少数群体的损失,从而阻止了学习有意义的表示形式。由此激励,我们通过适应偏见的对比损失,以避免群集中的少数群体类别的不平衡数据集来开发一种新颖的联合聚类和对比度学习框架。我们表明,我们提出的修改后的对比损失和分歧聚类损失可改善多个数据集和学习任务的性能。源代码可从https://anonymon.4open.science/r/ssl-debiased-clustering获得
translated by 谷歌翻译
由于获取和存储标准的差异,从多个来源创建大量的医学放射学图像数据集可能具有挑战性。控制和/或评估图像选择过程的一种可能方法是通过医学图像聚类。但是,这需要一种有效的方法来学习潜在图像表示。在本文中,我们仅使用像素数据来解决医学图像的全面观察聚类的问题。我们测试了几种现代方法的性能,该方法建立在卷积自动编码器(CAE)的顶部 - 卷积深层嵌入式聚类(CDEC)和卷积改进的深层嵌入聚类(CIDEC)和基于预设特征提取的三种方法 - 方向提取的方法(HOG),局部二进制模式(LBP)和主成分分析(PCA)。 CDEC和CIDEC是端到端聚类解决方案,涉及同时学习潜在表示和聚类分配,而其余方法则依赖于固定嵌入的K-均值聚类。我们在30,000张图像上训练模型,并使用由8,000张图像组成的单独测试集进行测试。我们从临床医院中心Rijeka的PACS存储库档案库中取样了数据。为了进行评估,我们在两个目标参数上使用轮廓分数,同质性评分和归一化的相互信息(NMI),与通常发生的DICOM标签紧密相关 - 模态和解剖区域(调整后的身体培养标签)。 CIDEC相对于解剖区域的NMI得分为0.473,而CDEC相对于TAG模式,NMI得分为0.645,两者都优于其他常用的特征描述符。
translated by 谷歌翻译
图级表示在各种现实世界中至关重要,例如预测分子的特性。但是实际上,精确的图表注释通常非常昂贵且耗时。为了解决这个问题,图形对比学习构造实例歧视任务,将正面对(同一图的增强对)汇总在一起,并将负面对(不同图的增强对)推开,以进行无监督的表示。但是,由于为了查询,其负面因素是从所有图中均匀抽样的,因此现有方法遭受关键采样偏置问题的损失,即,否定物可能与查询具有相同的语义结构,从而导致性能降解。为了减轻这种采样偏见问题,在本文中,我们提出了一种典型的图形对比度学习(PGCL)方法。具体而言,PGCL通过将语义相似的图形群群归为同一组的群集数据的基础语义结构,并同时鼓励聚类的一致性,以实现同一图的不同增强。然后给出查询,它通过从与查询群集不同的群集中绘制图形进行负采样,从而确保查询及其阴性样本之间的语义差异。此外,对于查询,PGCL根据其原型(集群质心)和查询原型之间的距离进一步重新重新重新重新重新享受其负样本,从而使那些具有中等原型距离的负面因素具有相对较大的重量。事实证明,这种重新加权策略比统一抽样更有效。各种图基准的实验结果证明了我们的PGCL比最新方法的优势。代码可在https://github.com/ha-lins/pgcl上公开获取。
translated by 谷歌翻译
当前的对比学习方法使用从大量转换列表(固定的超参数)中采样的随机转换来从未经注释的数据库中学习不变性。遵循以前引入少量监督的作品,我们提出了一个框架,以找到使用可区分转换网络的对比度学习的最佳转换。我们的方法在监督准确性和收敛速度方面都在低注释的数据制度下提高了性能。与以前的工作相反,转换优化不需要生成模型。转换的图像保留相关信息以解决监督任务,此处分类。在34000 2D切片的大脑磁共振图像和11200胸X射线图像上进行实验。在两个数据集(具有标记数据的10%)上,我们的模型比具有100%标签的完全监督模型获得了更好的性能。
translated by 谷歌翻译
在这项工作中,我们引入了削减(对对比和无监督的分割培训),这是第一个完全无监督的深度学习框架,以进行医学图像细分,从而促进了未经标记或注释的绝大多数成像数据的使用。将医学图像分割成感兴趣的区域是促进患者诊断和定量研究的关键任务。该细分的一个主要限制因素是缺乏标记的数据,因为在注释者之间获得每组新的成像数据或任务的专家注释可能是昂贵,劳动力且不一致的:因此,我们利用基于Pixel-的自学意义图像本身的居中补丁。我们无监督的方法是基于对比度学习和自动编码方面的培训目标。以前的医学图像细分学习方法集中在图像级对比度训练上,而不是我们的图像内贴片级别的方法,或者将其用作一项预训练的任务,此后网络之后需要进一步监督培训。相比之下,我们构建了第一个完全无监督的框架,该框架在以像素为中心的斑点级别上运行。具体来说,我们添加了新颖的增强,补丁重建损失,并引入了一个新的像素聚类和识别框架。我们的模型在几个关键的医学成像任务上取得了改进的结果,这是通过对视网膜图像的地理萎缩(GA)区域进行分割的任务进行了固定的专家注释的验证。
translated by 谷歌翻译
现有的无监督方法用于关键点学习的方法在很大程度上取决于以下假设:特定关键点类型(例如肘部,数字,抽象几何形状)仅在图像中出现一次。这极大地限制了它们的适用性,因为在应用未经讨论或评估的方法之前必须隔离每个实例。因此,我们提出了一种新的方法来学习任务无关的,无监督的关键点(Tusk),可以处理多个实例。为了实现这一目标,我们使用单个热图检测,而不是常用的多个热图的常用策略,而是专门针对特定的关键点类型,并通过群集实现了对关键点类型的无监督学习。具体来说,我们通过教导它们从一组稀疏的关键点及其描述符中重建图像来编码语义,并在其中被迫在学术原型中形成特征空间中的不同簇。这使我们的方法适合于更广泛的任务范围,而不是以前的任何无监督关键点方法:我们显示了有关多种现实检测和分类,对象发现和地标检测的实验 - 与艺术状况相同的无监督性能,同时也能够处理多个实例。
translated by 谷歌翻译
近年来,深度学习算法在地球观察(EO)中的应用使依赖远程感知数据的领域取得了重大进展。但是,鉴于EO中的数据量表,创建具有专家使用像素级注释的大型数据集是昂贵且耗时的。在这种情况下,先验被视为一种有吸引力的方法,可以减轻在训练EO的深度学习方法时手动标签的负担。对于某些应用,这些先验很容易获得。本研究以许多计算机视觉任务中的自我监督特征表示学习的对比学习方法取得了巨大成功的动机,本研究提出了一种使用作物标签比例的在线深度聚类方法,作为研究基于政府作物的样本级别的先验者 - 整个农业地区的比例数据。我们使用来自巴西两个不同农业地区的两个大数据集评估了该方法。广泛的实验表明,该方法对不同的数据类型(合成句子雷达和光学图像)具有鲁棒性,考虑到目标区域中主要的作物类型,报告了更高的精度值。因此,它可以减轻EO应用中大规模图像注释的负担。
translated by 谷歌翻译
放射学报告产生(RRG)旨在用类似人类的语言描述自动放射学图像,并有可能支持放射科医生的工作,从而减轻手动报告的负担。先前的方法通常采用编码器架构,并专注于单模式特征学习,而很少的研究探索了跨模式特征交互。在这里,我们提出了一个跨模式原型驱动网络(XPRONET),以促进跨模式模式学习并利用它以改善放射学报告生成的任务。这是通过三个精心设计,完全可区分和互补的模块来实现的:共享的跨模式原型矩阵来记录跨模式原型;一个跨模式原型网络,可学习跨模式原型,并将交叉模式信息嵌入视觉和文本特征中;以及改进的多标签对比度损失,以实现和增强多标签原型学习。 Xpronet在IU-XRAR和MIMIC-CXR基准方面取得了重大改进,其性能超过了最新的最新方法,从IU-XRAY上的差距很大,并且在Mimic-CXR上的性能可比性。
translated by 谷歌翻译