在许多临床背景下,检测所有病变对于评估疾病活动至关重要。尽管获取分割标签的耗时性,但标准方法仍将病变检测作为分割问题。在本文中,我们提出了一种仅依赖点标签的病变检测方法。我们的模型通过热图回归训练,可以以概率方式检测可变数量的病变。实际上,我们提出的后处理方法提供了一种直接估计病变存在不确定性的可靠方法。GAD病变检测的实验结果表明,与昂贵的分割标签的培训相比,我们的基于点的方法具有竞争性。最后,我们的检测模型为分割提供了合适的预训练。仅在17个细分样本上进行微调时,我们实现了与完整数据集的培训相当的性能。
translated by 谷歌翻译
深度学习技术在检测医学图像中的对象方面取得了成功,但仍然遭受虚假阳性预测,可能会阻碍准确的诊断。神经网络输出的估计不确定性已用于标记不正确的预测。我们研究了来自神经网络不确定性估计的功能和基于形状的特征,这些特征是根据二进制预测计算出的,从二进制预测中,通过开发基于分类的后处理步骤来减少肝病病变检测中的假阳性,以用于不同的不确定性估计方法。我们证明了两个数据集上所有不确定性估计方法的神经网络的病变检测性能(相对于F1分数)的改善,分别包括腹部MR和CT图像。我们表明,根据神经网络不确定性估计计算的功能往往不会有助于降低假阳性。我们的结果表明,诸如阶级不平衡(真实假阳性比率)和从不确定性图提取的基于形状的特征之类的因素在区分假阳性和真实阳性预测方面起着重要作用
translated by 谷歌翻译
Generalization is an important attribute of machine learning models, particularly for those that are to be deployed in a medical context, where unreliable predictions can have real world consequences. While the failure of models to generalize across datasets is typically attributed to a mismatch in the data distributions, performance gaps are often a consequence of biases in the 'ground-truth' label annotations. This is particularly important in the context of medical image segmentation of pathological structures (e.g. lesions), where the annotation process is much more subjective, and affected by a number underlying factors, including the annotation protocol, rater education/experience, and clinical aims, among others. In this paper, we show that modeling annotation biases, rather than ignoring them, poses a promising way of accounting for differences in annotation style across datasets. To this end, we propose a generalized conditioning framework to (1) learn and account for different annotation styles across multiple datasets using a single model, (2) identify similar annotation styles across different datasets in order to permit their effective aggregation, and (3) fine-tune a fully trained model to a new annotation style with just a few samples. Next, we present an image-conditioning approach to model annotation styles that correlate with specific image features, potentially enabling detection biases to be more easily identified.
translated by 谷歌翻译
检测新的多发性硬化症(MS)病变是该疾病进化的重要标志。基于学习的方法的适用性可以有效地自动化此任务。然而,缺乏带有新型病变的注释纵向数据是训练健壮和概括模型的限制因素。在这项工作中,我们描述了一条基于学习的管道,该管道解决了检测和细分新MS病变的挑战性任务。首先,我们建议使用单个时间点对在分割任务进行训练的模型中使用转移学习。因此,我们从更轻松的任务中利用知识,并为此提供更多注释的数据集。其次,我们提出了一种数据综合策略,以使用单个时间点扫描生成新的纵向时间点。通过这种方式,我们将检测模型预算到大型合成注释数据集上。最后,我们使用旨在模拟MRI中数据多样性的数据实践技术。通过这样做,我们增加了可用的小注释纵向数据集的大小。我们的消融研究表明,每个贡献都会提高分割精度。使用拟议的管道,我们获得了MSSEG2 MICCAI挑战中新的MS病变的分割和检测的最佳分数。
translated by 谷歌翻译
多发性硬化症(MS)是中枢神经系统的慢性炎症和退行性疾病,其特征在于,白色和灰质的外观与个体患者的神经症状和标志进行地平整相关。磁共振成像(MRI)提供了详细的体内结构信息,允许定量和分类MS病变,其批判性地通知疾病管理。传统上,MS病变在2D MRI切片上手动注释,一个流程效率低,易于观察室内误差。最近,已经提出了自动统计成像分析技术以基于MRI体素强度检测和分段段病变。然而,它们的有效性受到MRI数据采集技术的异质性和MS病变的外观的限制。通过直接从图像学习复杂的病变表现,深度学习技术已经在MS病变分割任务中取得了显着的突破。在这里,我们提供了全面审查最先进的自动统计和深度学习MS分段方法,并讨论当前和未来的临床应用。此外,我们审查了域适应等技术策略,以增强现实世界临床环境中的MS病变分段。
translated by 谷歌翻译
分配转移或培训数据和部署数据之间的不匹配是在高风险工业应用中使用机器学习的重要障碍,例如自动驾驶和医学。这需要能够评估ML模型的推广以及其不确定性估计的质量。标准ML基线数据集不允许评估这些属性,因为培训,验证和测试数据通常相同分布。最近,已经出现了一系列专用基准测试,其中包括分布匹配和转移的数据。在这些基准测试中,数据集在任务的多样性以及其功能的数据模式方面脱颖而出。虽然大多数基准测试由2D图像分类任务主导,但Shifts包含表格天气预测,机器翻译和车辆运动预测任务。这使得可以评估模型的鲁棒性属性,并可以得出多种工业规模的任务以及通用或直接适用的特定任务结论。在本文中,我们扩展了偏移数据集,其中两个数据集来自具有高社会重要性的工业高风险应用程序。具体而言,我们考虑了3D磁共振脑图像中白质多发性硬化病变的分割任务以及海洋货物容器中功耗的估计。两项任务均具有无处不在的分配变化和由于错误成本而构成严格的安全要求。这些新数据集将使研究人员能够进一步探索新情况下的强大概括和不确定性估计。在这项工作中,我们提供了两个任务的数据集和基线结果的描述。
translated by 谷歌翻译
深度神经网络已成为3D医学图像自动分割的金标准方法。然而,由于缺乏对所提供的结果评估可理解的不确定性评估,他们被临床医生的全部接受仍然受到阻碍。量化其不确定性的大多数方法,例如流行的蒙特卡洛辍学物,仅限于在体素水平上预测的某种不确定性度量。除了与真正的医学不确定性无关紧要之外,这在临床上并不令人满意,因为大多数感兴趣的对象(例如,脑部病变)是由素食组成的,其整体相关性可能不会简单地减少其个人不确定性的总和或平均值。在这项工作中,我们建议使用创新的图形神经网络方法超越体素评估,并从蒙特卡洛辍学模型的输出中训练。该网络允许融合体素不确定性的三个估计量:熵,方差和模型的置信度;并且可以应用于任何病变,无论其形状或大小如何。我们证明了我们方法对多发性硬化病变的任务的不确定性估计的优势。
translated by 谷歌翻译
迄今为止,已经提出了几种使用磁共振成像(MRI)鉴定/分割多发性硬化病(MS)病变的自动化策略,但它们的表现均优于人类专家,它们的作用差异很大。这主要是由于:MRI不稳定性起源于:歧义; MS的特殊变异; MRI关于MS的非特异性。医师部分管理依赖放射学/临床/解剖背景和经验的歧义产生的不确定性。为了模仿人类的诊断,我们提出了一个自动化框架,用于基于三个关键概念的MRI识别/分割MS病变的自动框架:1。不确定性建模; 2.两个分别训练的CNN的建议,一个针对病变优化的,另一个针对周围环境的病变进行了优化,分别针对轴向,冠状和矢状方向重复; 3.合奏分类器的定义合并不同CNN收集的信息。提出的框架经过单个成像模式,即流体侵蚀的反转恢复(FLAIR)的2016年MSSEG基准公共数据集进行了训练,验证和测试。与地面真相和7个人类评估者的比较证明,自动化者和人类评估者之间没有显着差异。
translated by 谷歌翻译
在病理样本的全坡度图像(WSI)中注释癌区域在临床诊断,生物医学研究和机器学习算法开发中起着至关重要的作用。但是,产生详尽而准确的注释是劳动密集型,具有挑战性和昂贵的。仅绘制粗略和近似注释是一项容易得多的任务,成本较小,并且可以减轻病理学家的工作量。在本文中,我们研究了在数字病理学中完善这些近似注释以获得更准确的问题的问题。以前的一些作品探索了从这些不准确的注释中获得机器学习模型,但是很少有人解决改进问题,在这些问题中,应该明确识别和纠正错误标签的区域,并且所有这些都需要大量的培训样本(通常很大) 。我们提出了一种名为标签清洁多个实例学习(LC-MIL)标签的方法,可在不需要外部培训数据的情况下对单个WSI进行粗略注释。从WSI裁剪的带有不准确标签的贴片在多个实例学习框架内共同处理,从而减轻了它们对预测模型的影响并完善分割。我们对具有乳腺癌淋巴结转移,肝癌和结直肠癌样品的异质WSI进行的实验表明,LC-MIL显着完善了粗糙的注释,即使从单个幻灯片中学习,LC-MIL也优于最先进的替代方案。此外,我们证明了拟议方法如何有效地完善和改进病理学家绘制的真实注释。所有这些结果表明,LC-MIL是一种有前途的,轻巧的工具,可提供从粗糙注释的病理组中提供细粒的注释。
translated by 谷歌翻译
This paper focuses on the uncertainty estimation of white matter lesions (WML) segmentation in magnetic resonance imaging (MRI). On one side, voxel-scale segmentation errors cause the erroneous delineation of the lesions; on the other side, lesion-scale detection errors lead to wrong lesion counts. Both of these factors are clinically relevant for the assessment of multiple sclerosis patients. This work aims to compare the ability of different voxel- and lesion- scale uncertainty measures to capture errors related to segmentation and lesion detection respectively. Our main contributions are (i) proposing new measures of lesion-scale uncertainty that do not utilise voxel-scale uncertainties; (ii) extending an error retention curves analysis framework for evaluation of lesion-scale uncertainty measures. Our results obtained on the multi-center testing set of 58 patients demonstrate that the proposed lesion-scale measures achieves the best performance among the analysed measures. All code implementations are provided at https://github.com/NataliiaMolch/MS_WML_uncs
translated by 谷歌翻译
在胸部计算机断层扫描(CT)扫描中,自动分割地面玻璃的不透明和固结可以在高资源利用时期减轻放射科医生的负担。但是,由于分布(OOD)数据默默失败,深度学习模型在临床常规中不受信任。我们提出了一种轻巧的OOD检测方法,该方法利用特征空间中的Mahalanobis距离,并无缝集成到最新的分割管道中。简单的方法甚至可以增加具有临床相关的不确定性定量的预训练模型。我们在四个胸部CT分布偏移和两个磁共振成像应用中验证我们的方法,即海马和前列腺的分割。我们的结果表明,所提出的方法在所有探索场景中有效地检测到遥远和近型样品。
translated by 谷歌翻译
脑小血管疾病的成像标记提供了有关脑部健康的宝贵信息,但是它们的手动评估既耗时又受到实质性内部和间际变异性的阻碍。自动化评级可能受益于生物医学研究以及临床评估,但是现有算法的诊断可靠性尚不清楚。在这里,我们介绍了\ textIt {血管病变检测和分割}(\ textit {v textit {where valdo?})挑战,该挑战是在国际医学图像计算和计算机辅助干预措施(MICCAI)的卫星事件中运行的挑战(MICCAI) 2021.这一挑战旨在促进大脑小血管疾病的小而稀疏成像标记的自动检测和分割方法的开发,即周围空间扩大(EPVS)(任务1),脑微粒(任务2)和预先塑造的鞋类血管起源(任务3),同时利用弱和嘈杂的标签。总体而言,有12个团队参与了针对一个或多个任务的解决方案的挑战(任务1 -EPVS 4,任务2 -Microbleeds的9个,任务3 -lacunes的6个)。多方数据都用于培训和评估。结果表明,整个团队和跨任务的性能都有很大的差异,对于任务1- EPV和任务2-微型微型且对任务3 -lacunes尚无实际的结果,其结果尤其有望。它还强调了可能阻止个人级别使用的情况的性能不一致,同时仍证明在人群层面上有用。
translated by 谷歌翻译
机器学习和深度学习方法对医学的计算机辅助预测成为必需的,在乳房X光检查领域也具有越来越多的应用。通常,这些算法训练,针对特定任务,例如,病变的分类或乳房X乳线图的病理学状态的预测。为了获得患者的综合视图,随后整合或组合所有针对同一任务培训的模型。在这项工作中,我们提出了一种管道方法,我们首先培训一组个人,任务特定的模型,随后调查其融合,与标准模型合并策略相反。我们使用混合患者模型的深度学习模型融合模型预测和高级功能,以在患者水平上构建更强的预测因子。为此,我们提出了一种多分支深度学习模型,其跨不同任务和乳房X光检查有效地融合了功能,以获得全面的患者级预测。我们在公共乳房X线摄影数据,即DDSM及其策划版本CBIS-DDSM上培训并评估我们的全部管道,并报告AUC评分为0.962,以预测任何病变和0.791的存在,以预测患者水平对恶性病变的存在。总体而言,与标准模型合并相比,我们的融合方法将显着提高AUC得分高达0.04。此外,通过提供与放射功能相关的特定于任务的模型结果,提供了与放射性特征相关的任务特定模型结果,我们的管道旨在密切支持放射科学家的阅读工作流程。
translated by 谷歌翻译
Diabetic Retinopathy (DR) is a leading cause of vision loss in the world, and early DR detection is necessary to prevent vision loss and support an appropriate treatment. In this work, we leverage interactive machine learning and introduce a joint learning framework, termed DRG-Net, to effectively learn both disease grading and multi-lesion segmentation. Our DRG-Net consists of two modules: (i) DRG-AI-System to classify DR Grading, localize lesion areas, and provide visual explanations; (ii) DRG-Expert-Interaction to receive feedback from user-expert and improve the DRG-AI-System. To deal with sparse data, we utilize transfer learning mechanisms to extract invariant feature representations by using Wasserstein distance and adversarial learning-based entropy minimization. Besides, we propose a novel attention strategy at both low- and high-level features to automatically select the most significant lesion information and provide explainable properties. In terms of human interaction, we further develop DRG-Net as a tool that enables expert users to correct the system's predictions, which may then be used to update the system as a whole. Moreover, thanks to the attention mechanism and loss functions constraint between lesion features and classification features, our approach can be robust given a certain level of noise in the feedback of users. We have benchmarked DRG-Net on the two largest DR datasets, i.e., IDRID and FGADR, and compared it to various state-of-the-art deep learning networks. In addition to outperforming other SOTA approaches, DRG-Net is effectively updated using user feedback, even in a weakly-supervised manner.
translated by 谷歌翻译
我们提出了一种新颖的形状意识的关系网络,用于内窥镜粘膜颌下粘膜释放(ESD)手术中的准确和实时地标检测。这项任务具有很大的临床意义,但由于复杂的手术环境中出血,照明反射和运动模糊而极其挑战。与现有解决方案相比,通过使用复杂的聚合方案忽略靶向对象之间的几何关系或捕获关系,所提出的网络能够实现令人满意的精度,同时通过充分利用地标之间的空间关系来保持实时性能。我们首先设计一种算法来自动生成关系关键点热量表,其能够直观地代表地标之间的空间关系的先验知识,而无需使用任何额外的手动注释工作。然后,我们开发两个互补正规计划,以逐步将先验知识纳入培训过程。虽然一个方案通过多任务学习引入像素级正则化,但另一个方案通过利用新设计的分组的一致性评估器来实现全局级正则化,该评估将关系约束以越野方式添加到所提出的网络。这两个方案都有利于训练模型,并且可以随时推动才能卸载,以实现实时检测。我们建立了一个大型内部数据集的ESD手术,用于食管癌,以验证我们提出的方法的有效性。广泛的实验结果表明,我们的方法在准确性和效率方面优于最先进的方法,更快地实现了更好的检测结果。在两个下游应用的有希望的结果进一步证实了我们在ESD临床实践中的方法的巨大潜力。
translated by 谷歌翻译
医学图像分割模型的性能指标用于衡量参考注释和预测之间的一致性。在开发此类模型中,使用了一组通用指标,以使结果更具可比性。但是,公共数据集中的分布与临床实践中遇到的案例之间存在不匹配。许多常见的指标无法衡量这种不匹配的影响,尤其是对于包含不确定,小或空参考注释的临床数据集。因此,可能无法通过此类指标来验证模型在临床上有意义的一致性。评估临床价值的维度包括独立于参考注释量的大小,考虑参考注释的不确定性,体积计和/或位置一致性的奖励以及对空参考注释正确分类的奖励。与普通的公共数据集不同,我们的内部数据集更具代表性。它包含不确定的,小或空的参考注释。我们研究了有关深度学习框架的预测的公开度量指标,以确定哪些设置共同指标可提供有意义的结果。我们将公共基准数据集进行比较而没有不确定,小或空参考注释。该代码将发布。
translated by 谷歌翻译
机器学习算法支撑现代诊断辅助软件,这在临床实践中证明了有价值的,特别是放射学。然而,不准确的是,主要是由于临床样本的可用性有限,用于培训这些算法,妨碍他们在临床医生中更广泛的适用性,接受和识别。我们对最先进的自动质量控制(QC)方法进行了分析,可以在这些算法中实现,以估计其输出的确定性。我们验证了识别磁共振成像数据中的白质超收缩性(WMH)的大脑图像分割任务上最有前途的方法。 WMH是在上层前期成年中常见的小血管疾病的关联,并且由于其变化的尺寸和分布模式而尤其具有挑战性。我们的研究结果表明,不确定度和骰子预测的聚集在此任务的故障检测中最有效。两种方法在0.82至0.84的情况下独立改善平均骰子。我们的工作揭示了QC方法如何有助于检测失败的分割案例,从而使自动分割更可靠,适合临床实践。
translated by 谷歌翻译
Age-related macular degeneration (AMD) is a degenerative disorder affecting the macula, a key area of the retina for visual acuity. Nowadays, it is the most frequent cause of blindness in developed countries. Although some promising treatments have been developed, their effectiveness is low in advanced stages. This emphasizes the importance of large-scale screening programs. Nevertheless, implementing such programs for AMD is usually unfeasible, since the population at risk is large and the diagnosis is challenging. All this motivates the development of automatic methods. In this sense, several works have achieved positive results for AMD diagnosis using convolutional neural networks (CNNs). However, none incorporates explainability mechanisms, which limits their use in clinical practice. In that regard, we propose an explainable deep learning approach for the diagnosis of AMD via the joint identification of its associated retinal lesions. In our proposal, a CNN is trained end-to-end for the joint task using image-level labels. The provided lesion information is of clinical interest, as it allows to assess the developmental stage of AMD. Additionally, the approach allows to explain the diagnosis from the identified lesions. This is possible thanks to the use of a CNN with a custom setting that links the lesions and the diagnosis. Furthermore, the proposed setting also allows to obtain coarse lesion segmentation maps in a weakly-supervised way, further improving the explainability. The training data for the approach can be obtained without much extra work by clinicians. The experiments conducted demonstrate that our approach can identify AMD and its associated lesions satisfactorily, while providing adequate coarse segmentation maps for most common lesions.
translated by 谷歌翻译
在过去的几年中,卷积神经网络(CNN)占据了计算机视野的领域,这要归功于它们提取功能及其在分类问题中出色的表现,例如在自动分析X射线中。不幸的是,这些神经网络被认为是黑盒算法,即不可能了解该算法如何实现最终结果。要将这些算法应用于不同领域并测试方法论的工作原理,我们需要使用可解释的AI技术。医学领域的大多数工作都集中在二进制或多类分类问题上。但是,在许多现实生活中,例如胸部X射线射线,可以同时出现不同疾病的放射学迹象。这引起了所谓的“多标签分类问题”。这些任务的缺点是类不平衡,即不同的标签没有相同数量的样本。本文的主要贡献是一种深度学习方法,用于不平衡的多标签胸部X射线数据集。它为当前未充分利用的Padchest数据集建立了基线,并基于热图建立了可解释的AI技术。该技术还包括概率和模型间匹配。我们系统的结果很有希望,尤其是考虑到使用的标签数量。此外,热图与预期区域相匹配,即它们标志着专家将用来做出决定的区域。
translated by 谷歌翻译
美国和全球的两个主要死亡原因是中风和心肌梗塞。两者的根本原因是由破裂或侵蚀的不稳定的动脉粥样硬化斑块释放的,这些斑块阻塞了心脏(心肌梗塞)或大脑(中风)的血管。临床研究表明,在斑块破裂或侵蚀事件中,斑块组成比病变大小更重要。为了确定斑块组成,计算了3D心血管免疫荧光图像的各种细胞类型的斑块病变。但是,手动计算这些细胞是昂贵的,耗时的,并且容易发生人为错误。手动计数的这些挑战激发了对自动化方法进行定位和计算图像中细胞的需求。这项研究的目的是开发一种自动方法,以最少的注释工作在3D免疫荧光图像中准确检测和计数细胞。在这项研究中,我们使用弱监督的学习方法使用点注释来训练悬停网络分割模型,以检测荧光图像中的核。使用点注释的优点是,与像素的注释相比,它们需要更少的精力。为了使用点注释训练悬停的网络模型,我们采用了一种普遍使用的群集标记方法,将点注释转换为精确的细胞核二进制掩模。传统上,这些方法从点注释产生了二进制面具,使该物体周围的区域未标记(通常在模型训练中被忽略)。但是,这些区域可能包含重要信息,有助于确定细胞之间的边界。因此,我们在这些区域使用了熵最小化的损失函数,以鼓励模型在未标记区域上输出更自信的预测。我们的比较研究表明,使用我们的弱训练的悬停网络模型...
translated by 谷歌翻译