Recently deep neural networks, which require a large amount of annotated samples, have been widely applied in nuclei instance segmentation of H\&E stained pathology images. However, it is inefficient and unnecessary to label all pixels for a dataset of nuclei images which usually contain similar and redundant patterns. Although unsupervised and semi-supervised learning methods have been studied for nuclei segmentation, very few works have delved into the selective labeling of samples to reduce the workload of annotation. Thus, in this paper, we propose a novel full nuclei segmentation framework that chooses only a few image patches to be annotated, augments the training set from the selected samples, and achieves nuclei segmentation in a semi-supervised manner. In the proposed framework, we first develop a novel consistency-based patch selection method to determine which image patches are the most beneficial to the training. Then we introduce a conditional single-image GAN with a component-wise discriminator, to synthesize more training samples. Lastly, our proposed framework trains an existing segmentation model with the above augmented samples. The experimental results show that our proposed method could obtain the same-level performance as a fully-supervised baseline by annotating less than 5% pixels on some benchmarks.
translated by 谷歌翻译
Document-level relation extraction faces two overlooked challenges: long-tail problem and multi-label problem. Previous work focuses mainly on obtaining better contextual representations for entity pairs, hardly address the above challenges. In this paper, we analyze the co-occurrence correlation of relations, and introduce it into DocRE task for the first time. We argue that the correlations can not only transfer knowledge between data-rich relations and data-scarce ones to assist in the training of tailed relations, but also reflect semantic distance guiding the classifier to identify semantically close relations for multi-label entity pairs. Specifically, we use relation embedding as a medium, and propose two co-occurrence prediction sub-tasks from both coarse- and fine-grained perspectives to capture relation correlations. Finally, the learned correlation-aware embeddings are used to guide the extraction of relational facts. Substantial experiments on two popular DocRE datasets are conducted, and our method achieves superior results compared to baselines. Insightful analysis also demonstrates the potential of relation correlations to address the above challenges.
translated by 谷歌翻译
深度神经网络(DNN)已在脑病变检测和分割中广泛采用。但是,在2D MRI切片中定位小病变是具有挑战性的,需要在3D上下文聚集的粒度和计算复杂性之间取得平衡。在本文中,我们提出了一种新型的视角变压器,以增强MRI特征的提取,以进行更准确的肿瘤检测。首先,所提出的变压器在3D脑扫描中收获了不同位置之间的远程相关性。其次,变压器将一堆切片功能堆叠为多个2D视图,并增强这些特征的视图,该功能大致以有效的方式实现了3D相关计算。第三,我们将提出的变压器模块部署在变压器主链中,该模块可以有效地检测到脑损伤周围的2D区域。实验结果表明,我们提出的观看式变压器在具有挑战性的大脑MRI数据集上对大脑病变检测表现良好。
translated by 谷歌翻译
基于图像补丁重建的自我监督学习方法在培训自动编码器方面取得了巨大的成功,其预训练的权重可以转移到微调图像理解的其他下游任务。但是,现有方法很少研究重建斑块的各种重要性和解剖结构的对称性,当它们应用于3D医学图像时。在本文中,我们提出了一种基于3D脑MRI分割任务的视觉变压器(VIT)的新颖的对称自动编码器(ASA)。我们猜想,强迫自动编码器恢复信息性图像区域可以收获更多的判别性表示,而不是恢复光滑的图像贴片。然后,我们采用基于梯度的指标来估计每个图像补丁的重要性。在预训练阶段,提议的自动编码器更多地注意根据梯度指标重建信息贴片。此外,我们求助于大脑结构的先验,并开发一种对称位置编码(SPE)方法,以更好地利用远距离但空间对称区域之间的相关性以获得有效的特征。实验结果表明,我们提出的细心对称自动编码器的表现优于三个大脑MRI分割基准的最先进的自我监督学习方法和医学图像分割模型。
translated by 谷歌翻译
医学视觉和语言预训练(MED-VLP)由于适用于从医学图像和文本中提取通用视觉和语言表示的适用性而受到了相当大的关注。大多数现有方法主要包含三个元素:Uni-Modal编码器(即视觉编码器和语言编码器),多模式融合模块以及借口任务,很少有研究考虑医疗领域专家知识的重要性,并明确利用此类此类此类此类此类。知识以促进Med-vlp。尽管在通用域中存在具有知识增强的视觉和语言预训练(VLP)方法,但大多数人都需要现成的工具包(例如,对象检测器和场景图解析器),这些工具包在医疗领域中是不可用的。在本文中,我们提出了一种系统有效的方法,从三个角度通过结构化医学知识来增强MED-VLP。首先,考虑知识可以被视为视觉和语言之间的中间媒介,我们通过知识对齐视觉编码器和语言编码器的表示。其次,我们将知识注入多模式融合模型,以使模型能够使用知识作为补充输入图像和文本进行推理。第三,我们指导该模型通过设计知识引起的借口任务来强调图像和文本中最关键的信息。为了进行全面的评估并促进进一步的研究,我们构建了包括三个任务的医学视觉和语言基准。实验结果说明了我们方法的有效性,在所有下游任务上都实现了最先进的性能。进一步的分析探讨了我们方法的不同组成部分和预训练的各种环境的影响。
translated by 谷歌翻译
医学视觉和语言预训练提供了一种可行的解决方案,可以从医学图像和文本中提取有效的视觉和语言表示。但是,很少有研究专门研究该领域,以促进医学视觉和语言理解。在本文中,我们提出了一种自我监督的学习范式,该学习范式使用多模式掩盖的自动编码器(M $^3 $ ae),通过从随机掩盖的图像和文本中重新构造缺失的像素和代币来学习跨模式域知识。有三个关键设计可以使这种简单的方法起作用。首先,考虑到视觉和语言的不同信息密度,我们为输入图像和文本采用不同的掩蔽比,其中将较大的掩模比用于图像。其次,我们使用来自不同层的视觉和文本特征来执行重建,以处理视觉和语言中不同级别的抽象。第三,我们为视觉和语言解码器开发了不同的设计(即,视觉的变压器和语言的多层感知器)。为了进行全面的评估并促进进一步的研究,我们构建了包括三个任务的医学视觉和语言基准。实验结果证明了我们方法的有效性,在所有下游任务上都取得了最新的结果。此外,我们进行进一步的分析,以更好地验证方法的不同组成部分和预训练的各种设置。源代码可在〜\ url {https://github.com/zhjohnchan/m3ae}中获得。
translated by 谷歌翻译
弱监督的对象定位(WSOL)旨在仅通过使用图像级标签来定位对象,由于其在实际应用中的注释成本较低,因此引起了很多关注。最近的研究利用自我发挥作用在视觉变压器中对远程依赖性的优势来重新活跃的语义区域,旨在避免在传统的类激活映射(CAM)中进行部分激活。但是,变压器中的远程建模忽略了对象的固有空间连贯性,并且通常会扩散远离对象边界的语义感知区域,从而使定位结果明显更大或更小。为了解决此类问题,我们引入了一个简单而有效的空间校准模块(SCM),以进行准确的WSOL,将斑块令牌的语义相似性及其空间关系融合到统一的扩散模型中。具体而言,我们引入了一个可学习的参数,以动态调整语义相关性和空间上下文强度,以进行有效的信息传播。实际上,SCM被设计为变压器的外部模块,可以在推断过程中删除以降低计算成本。对象敏感的定位能力通过在训练阶段的优化中隐式嵌入到变压器编码中。它使生成的注意力图能够捕获锐利对象边界并过滤对象 - 近距离背景区域。广泛的实验结果证明了该方法的有效性,该方法在CUB-200和Imagenet-1K基准测试基准上的表现明显优于其对应物TS-CAM。该代码可从https://github.com/164140757/scm获得。
translated by 谷歌翻译
集成多模式数据以改善医学图像分析,最近受到了极大的关注。但是,由于模态差异,如何使用单个模型来处理来自多种模式的数据仍然是一个开放的问题。在本文中,我们提出了一种新的方案,以实现未配对多模式医学图像的更好的像素级分割。与以前采用模式特异性和模态共享模块的以前方法不同,以适应不同方式的外观差异,同时提取共同的语义信息,我们的方法基于具有精心设计的外部注意模块(EAM)的单个变压器来学习在训练阶段,结构化的语义一致性(即语义类表示及其相关性)。在实践中,可以通过分别在模态级别和图像级别实施一致性正则化来逐步实现上述结构化语义一致性。采用了提出的EAM来学习不同尺度表示的语义一致性,并且一旦模型进行了优化,就可以丢弃。因此,在测试阶段,我们只需要为所有模态预测维护一个变压器,这可以很好地平衡模型的易用性和简单性。为了证明所提出的方法的有效性,我们对两个医学图像分割方案进行了实验:(1)心脏结构分割,(2)腹部多器官分割。广泛的结果表明,所提出的方法的表现优于最新方法,甚至通过极有限的训练样本(例如1或3个注释的CT或MRI图像)以一种特定的方式来实现竞争性能。
translated by 谷歌翻译
尽管近年来从CT/MRI扫描中自动腹部多器官分割取得了很大进展,但由于缺乏各种临床方案的大规模基准,对模型的能力的全面评估受到阻碍。收集和标记3D医学数据的高成本的限制,迄今为止的大多数深度学习模型都由具有有限数量的感兴趣或样品器官的数据集驱动,这仍然限制了现代深层模型的力量提供各种方法的全面且公平的估计。为了减轻局限性,我们提出了AMO,这是一个大规模,多样的临床数据集,用于腹部器官分割。 AMOS提供了从多中心,多供应商,多模式,多相,多疾病患者收集的500 CT和100次MRI扫描,每个患者均具有15个腹部器官的体素级注释,提供了具有挑战性的例子,并提供了挑战性的例子和测试结果。在不同的目标和场景下研究健壮的分割算法。我们进一步基准了几种最先进的医疗细分模型,以评估此新挑战性数据集中现有方法的状态。我们已公开提供数据集,基准服务器和基线,并希望激发未来的研究。信息可以在https://amos22.grand-challenge.org上找到。
translated by 谷歌翻译
现有的研究表明,对抗性示例可以直接归因于具有高度预测性的非稳态特征的存在,但很容易被对手对愚弄NLP模型进行操纵。在这项研究中,我们探讨了捕获特定于任务的鲁棒特征的可行性,同时使用信息瓶颈理论消除了非舒适的特征。通过广泛的实验,我们表明,通过我们的信息基于瓶颈的方法训练的模型能够在稳健的精度上取得显着提高,超过了所有先前报道的防御方法的性能,而在SST-2上几乎没有遭受清洁准确性的表现下降,Agnews和IMDB数据集。
translated by 谷歌翻译