在医学图像中的对象的同时定位和分类,也称为医学对象检测,是高临床相关性,因为诊断决策通常依赖于物体的评级而不是例如像素。对于此任务,方法配置的繁琐和迭代过程构成了一个主要的研究瓶颈。最近,NNU-Net在巨大成功中解决了图像细分任务的挑战。在NNU-Net的议程之后,在这项工作中,我们系统化并自动化了医疗对象检测的配置过程。由此产生的自配置方法NNDetection,在没有任何手动干预到任意医学检测问题的情况下适应本身,同时实现结果腹板或优于现有技术。我们展示了NNDetection对两台公共基准,亚当和Luna16的有效性,并提出了关于综合方法评估的公共数据集的进一步医疗对象检测任务。代码是https://github.com/mic-dkfz/nndetection。
translated by 谷歌翻译
自动生物医学图像分析的领域至关重要地取决于算法验证的可靠和有意义的性能指标。但是,当前的度量使用通常是不明智的,并且不能反映基本的域名。在这里,我们提出了一个全面的框架,该框架指导研究人员以问题意识的方式选择绩效指标。具体而言,我们专注于生物医学图像分析问题,这些问题可以解释为图像,对象或像素级别的分类任务。该框架首先编译域兴趣 - 目标结构 - ,数据集和算法与输出问题相关的属性的属性与问题指纹相关,同时还将其映射到适当的问题类别,即图像级分类,语义分段,实例,实例细分或对象检测。然后,它指导用户选择和应用一组适当的验证指标的过程,同时使他们意识到与个人选择相关的潜在陷阱。在本文中,我们描述了指标重新加载推荐框架的当前状态,目的是从图像分析社区获得建设性的反馈。当前版本是在由60多个图像分析专家的国际联盟中开发的,将在社区驱动的优化之后公开作为用户友好的工具包提供。
translated by 谷歌翻译
3D计算机断层扫描扫描的肺结核检测在高效的肺癌筛查中起着至关重要的作用。尽管使用CNNS的基于锚的探测器获得的SOTA性能,但是它们需要预定的锚定参数,例如锚点的尺寸,数量和纵横比,并且在处理具有大量尺寸的肺结节时具有有限的鲁棒性。为了克服这些问题,我们提出了一种基于3D球体表示的中心点匹配的检测网络,该检测网络是无锚的,并且自动预测结节的位置,半径和偏移,而无需手动设计结节/锚参数。 SCPM-Net由两种新颖组件组成:球体表示和中心点匹配。首先,为了匹配临床实践中的结节注释,我们用所提出的边界球体替换常用的边界框,以表示具有质心,半径和3D空间局部偏移的结节。引入兼容的基于球体的交叉口损耗功能,以稳定且有效地培训肺结核检测网络。其次,我们通过设计正中心点选择和匹配过程来赋予网络锚定,自然地丢弃预定的锚箱。在线硬示例挖掘和重新聚焦损失随后使CPM过程能够更加强大,导致更准确的点分配和级别不平衡的缓解。此外,为了更好地捕获用于检测的空间信息和3D上下文,我们建议熔化具有特征提取器的多级空间坐标映射,并将它们与3D挤压和激励的关注模块相结合。 Luna16数据集上的实验结果表明,与肺结核检测的现有锚和锚定方法相比,我们所提出的框架达到卓越的性能。
translated by 谷歌翻译
语义图像分割是手术中的背景知识和自治机器人的重要前提。本领域的状态专注于在微创手术期间获得的传统RGB视频数据,但基于光谱成像数据的全景语义分割并在开放手术期间获得几乎没有注意到日期。为了解决文献中的这种差距,我们正在研究基于在开放手术环境中获得的猪的高光谱成像(HSI)数据的以下研究问题:(1)基于神经网络的HSI数据的充分表示是完全自动化的器官分割,尤其是关于数据的空间粒度(像素与Superpixels与Patches与完整图像)的空间粒度? (2)在执行语义器官分割时,是否有利用HSI数据使用HSI数据,即RGB数据和处理的HSI数据(例如氧合等组织参数)?根据基于20猪的506个HSI图像的全面验证研究,共注释了19个类,基于深度的学习的分割性能 - 贯穿模态 - 与输入数据的空间上下文一致。未处理的HSI数据提供优于RGB数据或来自摄像机提供商的处理数据,其中优势随着输入到神经网络的输入的尺寸而增加。最大性能(应用于整个图像的HSI)产生了0.89(标准偏差(SD)0.04)的平均骰子相似度系数(DSC),其在帧间间变异性(DSC为0.89(SD 0.07)的范围内。我们得出结论,HSI可以成为全自动手术场景理解的强大的图像模型,其具有传统成像的许多优点,包括恢复额外功能组织信息的能力。
translated by 谷歌翻译
语义分割是医学图像计算中最受欢迎的研究领域之一。也许令人惊讶的是,尽管它可以追溯到2018年,但NNU-NET仍在为各种细分问题提供竞争性的开箱即用解决方案,并定期用作挑战挑战算法的开发框架。在这里,我们使用NNU-NET参与AMOS2022挑战,该挑战带有一套独特的任务:数据集不仅是有史以来最大的最大的数据集,而且拥有15个目标结构,而且竞争还需要提交的解决方案来处理这两种MRI和CT扫描。通过仔细修改NNU-NET的超参数,在编码器中添加剩余连接以及设计自定义后处理策略,我们能够实质上改进NNU-NET基线。我们的最终合奏在任务1(CT)的骰子得分为90.13,而任务2(CT+MRI)的骰子得分为89.06,在提供的培训案例中进行了5倍的交叉验证。
translated by 谷歌翻译
慢性伤口显着影响生活质量。如果没有正确管理,他们可能会严重恶化。基于图像的伤口分析可以通过量化与愈合相关的重要特征来客观地评估伤口状态。然而,伤口类型,图像背景组成和捕获条件的高异质性挑战伤口图像的鲁棒分割。我们呈现了检测和段(DS),深度学习方法,以产生具有高泛化能力的伤口分割图。在我们的方法中,专门的深度神经网络检测到伤口位置,从未经信息背景隔离伤口,并计算伤口分割图。我们使用具有糖尿病脚溃疡图像的一个数据集评估了这种方法。为了进一步测试,使用4个补充独立数据组,具有来自不同体积的较大种类的伤口类型。当以相同的方法组合检测和分割时,在将完整图像上的分割到0.85时,Matthews的相关系数(MCC)从0.29提高到0.29。当从补充数据集汲取的卷绕图像上进行测试时,DS方法将平均MCC从0.17增加到0.85。此外,DS方法使得分段模型的培训能够在保持分割性能的同时培训高达90%的训练数据。
translated by 谷歌翻译
The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
事实证明,深度卷积神经网络在语义分割任务中非常有效。引入了最流行的损失功能,以提高体积分数,例如Sorensen骰子系数。根据设计,DSC可以解决类不平衡;但是,它不能识别类中的实例不平衡。结果,大型前景实例可以主导次要实例,并且仍然产生令人满意的Sorensen骰子系数。然而,错过实例将导致检测性能不佳。这代表了诸如疾病进展监测等应用中的一个关键问题。例如,必须在多发性硬化症患者的随访中定位和监视小规模病变。我们提出了一个新型的损失功能家族,绰号斑点损失,主要旨在最大化实例级检测指标,例如F1得分和灵敏度。 BLOB损失是针对语义分割问题而设计的,其中实例是类中连接的组件。我们在五个复杂的3D语义分割任务中广泛评估了基于DSC的斑点损失,这些任务具有明显的实例异质性,从纹理和形态上讲。与软骰子损失相比,我们的MS病变改善了5%,肝肿瘤改善了3%,考虑F1分数的显微镜细分任务平均提高了2%。
translated by 谷歌翻译
Automatic parsing of human anatomies at instance-level from 3D computed tomography (CT) scans is a prerequisite step for many clinical applications. The presence of pathologies, broken structures or limited field-of-view (FOV) all can make anatomy parsing algorithms vulnerable. In this work, we explore how to exploit and conduct the prosperous detection-then-segmentation paradigm in 3D medical data, and propose a steerable, robust, and efficient computing framework for detection, identification, and segmentation of anatomies in CT scans. Considering complicated shapes, sizes and orientations of anatomies, without lose of generality, we present the nine degrees-of-freedom (9-DoF) pose estimation solution in full 3D space using a novel single-stage, non-hierarchical forward representation. Our whole framework is executed in a steerable manner where any anatomy of interest can be directly retrieved to further boost the inference efficiency. We have validated the proposed method on three medical imaging parsing tasks of ribs, spine, and abdominal organs. For rib parsing, CT scans have been annotated at the rib instance-level for quantitative evaluation, similarly for spine vertebrae and abdominal organs. Extensive experiments on 9-DoF box detection and rib instance segmentation demonstrate the effectiveness of our framework (with the identification rate of 97.0% and the segmentation Dice score of 90.9%) in high efficiency, compared favorably against several strong baselines (e.g., CenterNet, FCOS, and nnU-Net). For spine identification and segmentation, our method achieves a new state-of-the-art result on the public CTSpine1K dataset. Last, we report highly competitive results in multi-organ segmentation at FLARE22 competition. Our annotations, code and models will be made publicly available at: https://github.com/alibaba-damo-academy/Med_Query.
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
精确的仪器分割辅助外科医生更容易导航身体并提高患者安全性。虽然在实时的准确跟踪外科手术仪器在微创的计算机辅助手术中起着至关重要的作用,但这是一个具有挑战性的任务,主要是由于1个复杂的外科环境和2)模型设计,具有最佳的精度和速度。深度学习使我们有机会从大型手术场景环境和在现实世界的情景中学习复杂的环境和这些仪器的展示位置。稳健的医疗仪器分割2019挑战(鲁棒MIS)在不同的临床环境中提供了超过10,000帧的手术工具。在本文中,我们使用轻量级单级实例分段模型,辅助卷积块注意模块,用于实现更快和准确的推理。我们通过数据增强和最佳锚定本地化策略进一步提高了准确性。据我们所知,这是第一个明确关注实时性能和提高准确性的工作。我们在强大的策略中进行了彻底的最高团队表演,对基于区域的公制MI_DSC和距离的公制MI_DSD有超过44%。我们还展示了我们最终方法的不同但竞争变种的实时性能(> 60帧框架)。
translated by 谷歌翻译
小型太阳能光伏(PV)阵列中电网的有效集成计划需要访问高质量的数据:单个太阳能PV阵列的位置和功率容量。不幸的是,不存在小型太阳能光伏的国家数据库。那些确实有限的空间分辨率,通常汇总到州或国家一级。尽管已经发布了几种有希望的太阳能光伏检测方法,但根据研究,研究这些模型的性能通常是高度异质的。这些方法对能源评估的实际应用的比较变得具有挑战性,可能意味着报告的绩效评估过于乐观。异质性有多种形式,我们在这项工作中探讨了每种形式:空间聚集的水平,地面真理的验证,培训和验证数据集的不一致以及培训的位置和传感器的多样性程度和验证数据始发。对于每个人,我们都会讨论文献中的新兴实践,以解决它们或暗示未来研究的方向。作为调查的一部分,我们评估了两个大区域的太阳PV识别性能。我们的发现表明,由于验证过程中的共同局限性,从卫星图像对太阳PV自动识别的传统绩效评估可能是乐观的。这项工作的收获旨在为能源研究人员和专业人员提供自动太阳能光伏评估技术的大规模实用应用。
translated by 谷歌翻译
尽管自动图像分析的重要性不断增加,但最近的元研究揭示了有关算法验证的主要缺陷。性能指标对于使用的自动算法的有意义,客观和透明的性能评估和验证尤其是关键,但是在使用特定的指标进行给定的图像分析任务时,对实际陷阱的关注相对较少。这些通常与(1)无视固有的度量属性,例如在存在类不平衡或小目标结构的情况下的行为,(2)无视固有的数据集属性,例如测试的非独立性案例和(3)无视指标应反映的实际生物医学领域的兴趣。该动态文档的目的是说明图像分析领域通常应用的性能指标的重要局限性。在这种情况下,它重点介绍了可以用作图像级分类,语义分割,实例分割或对象检测任务的生物医学图像分析问题。当前版本是基于由全球60多家机构的国际图像分析专家进行的关于指标的Delphi流程。
translated by 谷歌翻译
机器人的视觉系统根据应用程序的要求不同:它可能需要高精度或可靠性,受到有限的资源的约束或需要快速适应动态变化的环境。在这项工作中,我们专注于实例分割任务,并对不同的技术进行了全面的研究,这些技术允许在存在新对象或不同域的存在下调整对象分割模型。我们为针对数据流入的机器人应用设计的快速实例细分学习提供了一条管道。它基于在预训练的CNN上利用的混合方法,用于特征提取和基于快速培训的基于内核的分类器。我们还提出了一种培训协议,该协议可以通过在数据采集期间执行特征提取来缩短培训时间。我们在两个机器人数据集上基准了提议的管道,然后将其部署在一个真实的机器人上,即iCub类人体。为了这个目的,我们将方法调整为一个增量设置,在该设置中,机器人在线学习新颖对象。复制实验的代码在GitHub上公开可用。
translated by 谷歌翻译
最近关于Covid-19的研究表明,CT成像提供了评估疾病进展和协助诊断的有用信息,以及帮助理解疾病。有越来越多的研究,建议使用深度学习来使用胸部CT扫描提供快速准确地定量Covid-19。兴趣的主要任务是胸部CT扫描的肺和肺病变的自动分割,确认或疑似Covid-19患者。在这项研究中,我们使用多中心数据集比较12个深度学习算法,包括开源和内部开发的算法。结果表明,合并不同的方法可以提高肺部分割,二元病变分割和多种子病变分割的总体测试集性能,从而分别为0.982,0.724和0.469的平均骰子分别。将得到的二元病变分段为91.3ml的平均绝对体积误差。通常,区分不同病变类型的任务更加困难,分别具有152mL的平均绝对体积差,分别为整合和磨碎玻璃不透明度为0.369和0.523的平均骰子分数。所有方法都以平均体积误差进行二元病变分割,该分段优于人类评估者的视觉评估,表明这些方法足以用于临床实践中使用的大规模评估。
translated by 谷歌翻译
An increasing number of public datasets have shown a marked clinical impact on assessing anatomical structures. However, each of the datasets is small, partially labeled, and rarely investigates severe tumor subjects. Moreover, current models are limited to segmenting specific organs/tumors, which can not be extended to novel domains and classes. To tackle these limitations, we introduce embedding learned from Contrastive Language-Image Pre-training (CLIP) to segmentation models, dubbed the CLIP-Driven Universal Model. The Universal Model can better segment 25 organs and 6 types of tumors by exploiting the semantic relationship between abdominal structures. The model is developed from an assembly of 14 datasets with 3,410 CT scans and evaluated on 6,162 external CT scans from 3 datasets. We rank first on the public leaderboard of the Medical Segmentation Decathlon (MSD) and achieve the state-of-the-art results on Beyond The Cranial Vault (BTCV). Compared with dataset-specific models, the Universal Model is computationally more efficient (6x faster), generalizes better to CT scans from varying sites, and shows stronger transfer learning performance on novel tasks. The design of CLIP embedding enables the Universal Model to be easily extended to new classes without catastrophically forgetting the previously learned classes.
translated by 谷歌翻译
数据采集​​和注释中的困难基本上限制了3D医学成像应用的训练数据集的样本尺寸。结果,在没有足够的预训练参数的情况下,构建来自划痕的高性能3D卷积神经网络仍然是一项艰巨的任务。以前关于3D预培训的努力经常依赖于自我监督的方法,它在未标记的数据上使用预测或对比学习来构建不变的3D表示。然而,由于大规模监督信息的不可用,从这些学习框架获得语义不变和歧视性表示仍然存在问题。在本文中,我们重新审视了一种创新但简单的完全监督的3D网络预训练框架,以利用来自大型2D自然图像数据集的语义监督。通过重新设计的3D网络架构,重新设计的自然图像用于解决数据稀缺问题并开发强大的3D表示。四个基准数据集上的综合实验表明,所提出的预先接受的模型可以有效地加速收敛,同时还提高了各种3D医学成像任务,例如分类,分割和检测的准确性。此外,与从头划伤的训练相比,它可以节省高达60%的注释工作。在NIH Deeplesion数据集上,它同样地实现了最先进的检测性能,优于早期的自我监督和完全监督的预训练方法,以及从头训练进行培训的方法。为了促进3D医疗模型的进一步发展,我们的代码和预先接受的模型权重在https://github.com/urmagicsmine/cspr上公开使用。
translated by 谷歌翻译
随着深度卷积神经网络的兴起,对象检测在过去几年中取得了突出的进步。但是,这种繁荣无法掩盖小物体检测(SOD)的不令人满意的情况,这是计算机视觉中臭名昭著的挑战性任务之一,这是由于视觉外观不佳和由小目标的内在结构引起的嘈杂表示。此外,用于基准小对象检测方法基准测试的大规模数据集仍然是瓶颈。在本文中,我们首先对小物体检测进行了详尽的审查。然后,为了催化SOD的发展,我们分别构建了两个大规模的小物体检测数据集(SODA),SODA-D和SODA-A,分别集中在驾驶和空中场景上。 SODA-D包括24704个高质量的交通图像和277596个9个类别的实例。对于苏打水,我们收集2510个高分辨率航空图像,并在9个类别上注释800203实例。众所周知,拟议的数据集是有史以来首次尝试使用针对多类SOD量身定制的大量注释实例进行大规模基准测试。最后,我们评估主流方法在苏打水上的性能。我们预计发布的基准可以促进SOD的发展,并产生该领域的更多突破。数据集和代码将很快在:\ url {https://shaunyuan22.github.io/soda}上。
translated by 谷歌翻译
Single-frame InfraRed Small Target (SIRST) detection has been a challenging task due to a lack of inherent characteristics, imprecise bounding box regression, a scarcity of real-world datasets, and sensitive localization evaluation. In this paper, we propose a comprehensive solution to these challenges. First, we find that the existing anchor-free label assignment method is prone to mislabeling small targets as background, leading to their omission by detectors. To overcome this issue, we propose an all-scale pseudo-box-based label assignment scheme that relaxes the constraints on scale and decouples the spatial assignment from the size of the ground-truth target. Second, motivated by the structured prior of feature pyramids, we introduce the one-stage cascade refinement network (OSCAR), which uses the high-level head as soft proposals for the low-level refinement head. This allows OSCAR to process the same target in a cascade coarse-to-fine manner. Finally, we present a new research benchmark for infrared small target detection, consisting of the SIRST-V2 dataset of real-world, high-resolution single-frame targets, the normalized contrast evaluation metric, and the DeepInfrared toolkit for detection. We conduct extensive ablation studies to evaluate the components of OSCAR and compare its performance to state-of-the-art model-driven and data-driven methods on the SIRST-V2 benchmark. Our results demonstrate that a top-down cascade refinement framework can improve the accuracy of infrared small target detection without sacrificing efficiency. The DeepInfrared toolkit, dataset, and trained models are available at https://github.com/YimianDai/open-deepinfrared to advance further research in this field.
translated by 谷歌翻译