自动生物医学图像分析的领域至关重要地取决于算法验证的可靠和有意义的性能指标。但是,当前的度量使用通常是不明智的,并且不能反映基本的域名。在这里,我们提出了一个全面的框架,该框架指导研究人员以问题意识的方式选择绩效指标。具体而言,我们专注于生物医学图像分析问题,这些问题可以解释为图像,对象或像素级别的分类任务。该框架首先编译域兴趣 - 目标结构 - ,数据集和算法与输出问题相关的属性的属性与问题指纹相关,同时还将其映射到适当的问题类别,即图像级分类,语义分段,实例,实例细分或对象检测。然后,它指导用户选择和应用一组适当的验证指标的过程,同时使他们意识到与个人选择相关的潜在陷阱。在本文中,我们描述了指标重新加载推荐框架的当前状态,目的是从图像分析社区获得建设性的反馈。当前版本是在由60多个图像分析专家的国际联盟中开发的,将在社区驱动的优化之后公开作为用户友好的工具包提供。
translated by 谷歌翻译
尽管自动图像分析的重要性不断增加,但最近的元研究揭示了有关算法验证的主要缺陷。性能指标对于使用的自动算法的有意义,客观和透明的性能评估和验证尤其是关键,但是在使用特定的指标进行给定的图像分析任务时,对实际陷阱的关注相对较少。这些通常与(1)无视固有的度量属性,例如在存在类不平衡或小目标结构的情况下的行为,(2)无视固有的数据集属性,例如测试的非独立性案例和(3)无视指标应反映的实际生物医学领域的兴趣。该动态文档的目的是说明图像分析领域通常应用的性能指标的重要局限性。在这种情况下,它重点介绍了可以用作图像级分类,语义分割,实例分割或对象检测任务的生物医学图像分析问题。当前版本是基于由全球60多家机构的国际图像分析专家进行的关于指标的Delphi流程。
translated by 谷歌翻译
语义图像分割是手术中的背景知识和自治机器人的重要前提。本领域的状态专注于在微创手术期间获得的传统RGB视频数据,但基于光谱成像数据的全景语义分割并在开放手术期间获得几乎没有注意到日期。为了解决文献中的这种差距,我们正在研究基于在开放手术环境中获得的猪的高光谱成像(HSI)数据的以下研究问题:(1)基于神经网络的HSI数据的充分表示是完全自动化的器官分割,尤其是关于数据的空间粒度(像素与Superpixels与Patches与完整图像)的空间粒度? (2)在执行语义器官分割时,是否有利用HSI数据使用HSI数据,即RGB数据和处理的HSI数据(例如氧合等组织参数)?根据基于20猪的506个HSI图像的全面验证研究,共注释了19个类,基于深度的学习的分割性能 - 贯穿模态 - 与输入数据的空间上下文一致。未处理的HSI数据提供优于RGB数据或来自摄像机提供商的处理数据,其中优势随着输入到神经网络的输入的尺寸而增加。最大性能(应用于整个图像的HSI)产生了0.89(标准偏差(SD)0.04)的平均骰子相似度系数(DSC),其在帧间间变异性(DSC为0.89(SD 0.07)的范围内。我们得出结论,HSI可以成为全自动手术场景理解的强大的图像模型,其具有传统成像的许多优点,包括恢复额外功能组织信息的能力。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
人工智能(AI)技术具有重要潜力,可以实现有效,鲁棒和自动的图像表型,包括识别细微图案。基于AI的检测搜索图像空间基于模式和特征来找到兴趣区域。存在一种良性的肿瘤组织学,可以通过使用图像特征的基于AI的分类方法来识别。图像从图像中提取可用于的可覆盖方式,可以通过显式(手工/工程化)和深度辐射谱系框架来探索途径。辐射瘤分析有可能用作非侵入性技术,以准确表征肿瘤,以改善诊断和治疗监测。这项工作介绍基于AI的技术,专注于肿瘤宠物和PET / CT成像,用于不同的检测,分类和预测/预测任务。我们还讨论了所需的努力,使AI技术转换为常规临床工作流程,以及潜在的改进和互补技术,例如在电子健康记录和神经象征性AI技术上使用自然语言处理。
translated by 谷歌翻译
尽管广泛用作可视检测任务的性能措施,但平均精度(AP)In(i)的限制在反映了本地化质量,(ii)对其计算的设计选择的鲁棒性以及其对输出的适用性没有信心分数。 Panoptic质量(PQ),提出评估Panoptic Seationation(Kirillov等,2019)的措施,不会遭受这些限制,而是限于Panoptic Seationation。在本文中,我们提出了基于其本地化和分类质量的视觉检测器的平均匹配误差,提出了定位召回精度(LRP)误差。 LRP错误,最初仅为Oksuz等人进行对象检测。 (2018),不遭受上述限制,适用于所有视觉检测任务。我们还介绍了最佳LRP(OLRP)错误,因为通过置信区获得的最小LRP错误以评估视觉检测器并获得部署的最佳阈值。我们提供对AP和PQ的LRP误差的详细比较分析,并使用七个可视检测任务(即对象检测,关键点检测,实例分割,Panoptic分段,视觉关系检测,使用近100个最先进的视觉检测器零拍摄检测和广义零拍摄检测)使用10个数据集来统一地显示LRP误差提供比其对应物更丰富和更辨别的信息。可用的代码:https://github.com/kemaloksuz/lrp-error
translated by 谷歌翻译
视频分析的图像分割在不同的研究领域起着重要作用,例如智能城市,医疗保健,计算机视觉和地球科学以及遥感应用。在这方面,最近致力于发展新的细分策略;最新的杰出成就之一是Panoptic细分。后者是由语义和实例分割的融合引起的。明确地,目前正在研究Panoptic细分,以帮助获得更多对视频监控,人群计数,自主驾驶,医学图像分析的图像场景的更细致的知识,以及一般对场景更深入的了解。为此,我们介绍了本文的首次全面审查现有的Panoptic分段方法,以获得作者的知识。因此,基于所采用的算法,应用场景和主要目标的性质,执行现有的Panoptic技术的明确定义分类。此外,讨论了使用伪标签注释新数据集的Panoptic分割。继续前进,进行消融研究,以了解不同观点的Panoptic方法。此外,讨论了适合于Panoptic分割的评估度量,并提供了现有解决方案性能的比较,以告知最先进的并识别其局限性和优势。最后,目前对主题技术面临的挑战和吸引不久的将来吸引相当兴趣的未来趋势,可以成为即将到来的研究研究的起点。提供代码的文件可用于:https://github.com/elharroussomar/awesome-panoptic-egation
translated by 谷歌翻译
Reliable application of machine learning-based decision systems in the wild is one of the major challenges currently investigated by the field. A large portion of established approaches aims to detect erroneous predictions by means of assigning confidence scores. This confidence may be obtained by either quantifying the model's predictive uncertainty, learning explicit scoring functions, or assessing whether the input is in line with the training distribution. Curiously, while these approaches all state to address the same eventual goal of detecting failures of a classifier upon real-life application, they currently constitute largely separated research fields with individual evaluation protocols, which either exclude a substantial part of relevant methods or ignore large parts of relevant failure sources. In this work, we systematically reveal current pitfalls caused by these inconsistencies and derive requirements for a holistic and realistic evaluation of failure detection. To demonstrate the relevance of this unified perspective, we present a large-scale empirical study for the first time enabling benchmarking confidence scoring functions w.r.t all relevant methods and failure sources. The revelation of a simple softmax response baseline as the overall best performing method underlines the drastic shortcomings of current evaluation in the abundance of publicized research on confidence scoring. Code and trained models are at https://github.com/IML-DKFZ/fd-shifts.
translated by 谷歌翻译
迄今为止,已经提出了几种使用磁共振成像(MRI)鉴定/分割多发性硬化病(MS)病变的自动化策略,但它们的表现均优于人类专家,它们的作用差异很大。这主要是由于:MRI不稳定性起源于:歧义; MS的特殊变异; MRI关于MS的非特异性。医师部分管理依赖放射学/临床/解剖背景和经验的歧义产生的不确定性。为了模仿人类的诊断,我们提出了一个自动化框架,用于基于三个关键概念的MRI识别/分割MS病变的自动框架:1。不确定性建模; 2.两个分别训练的CNN的建议,一个针对病变优化的,另一个针对周围环境的病变进行了优化,分别针对轴向,冠状和矢状方向重复; 3.合奏分类器的定义合并不同CNN收集的信息。提出的框架经过单个成像模式,即流体侵蚀的反转恢复(FLAIR)的2016年MSSEG基准公共数据集进行了训练,验证和测试。与地面真相和7个人类评估者的比较证明,自动化者和人类评估者之间没有显着差异。
translated by 谷歌翻译
小型太阳能光伏(PV)阵列中电网的有效集成计划需要访问高质量的数据:单个太阳能PV阵列的位置和功率容量。不幸的是,不存在小型太阳能光伏的国家数据库。那些确实有限的空间分辨率,通常汇总到州或国家一级。尽管已经发布了几种有希望的太阳能光伏检测方法,但根据研究,研究这些模型的性能通常是高度异质的。这些方法对能源评估的实际应用的比较变得具有挑战性,可能意味着报告的绩效评估过于乐观。异质性有多种形式,我们在这项工作中探讨了每种形式:空间聚集的水平,地面真理的验证,培训和验证数据集的不一致以及培训的位置和传感器的多样性程度和验证数据始发。对于每个人,我们都会讨论文献中的新兴实践,以解决它们或暗示未来研究的方向。作为调查的一部分,我们评估了两个大区域的太阳PV识别性能。我们的发现表明,由于验证过程中的共同局限性,从卫星图像对太阳PV自动识别的传统绩效评估可能是乐观的。这项工作的收获旨在为能源研究人员和专业人员提供自动太阳能光伏评估技术的大规模实用应用。
translated by 谷歌翻译
超参数优化构成了典型的现代机器学习工作流程的很大一部分。这是由于这样一个事实,即机器学习方法和相应的预处理步骤通常只有在正确调整超参数时就会产生最佳性能。但是在许多应用中,我们不仅有兴趣仅仅为了预测精度而优化ML管道;确定最佳配置时,必须考虑其他指标或约束,从而导致多目标优化问题。由于缺乏知识和用于多目标超参数优化的知识和容易获得的软件实现,因此通常在实践中被忽略。在这项工作中,我们向读者介绍了多个客观超参数优化的基础知识,并激励其在应用ML中的实用性。此外,我们从进化算法和贝叶斯优化的领域提供了现有优化策略的广泛调查。我们说明了MOO在几个特定ML应用中的实用性,考虑了诸如操作条件,预测时间,稀疏,公平,可解释性和鲁棒性之类的目标。
translated by 谷歌翻译
深度学习属于人工智能领域,机器执行通常需要某种人类智能的任务。类似于大脑的基本结构,深度学习算法包括一种人工神经网络,其类似于生物脑结构。利用他们的感官模仿人类的学习过程,深入学习网络被送入(感官)数据,如文本,图像,视频或声音。这些网络在不同的任务中优于最先进的方法,因此,整个领域在过去几年中看到了指数增长。这种增长在过去几年中每年超过10,000多种出版物。例如,只有在医疗领域中的所有出版物中覆盖的搜索引擎只能在Q3 2020中覆盖所有出版物的子集,用于搜索术语“深度学习”,其中大约90%来自过去三年。因此,对深度学习领域的完全概述已经不可能在不久的将来获得,并且在不久的将来可能会难以获得难以获得子场的概要。但是,有几个关于深度学习的综述文章,这些文章专注于特定的科学领域或应用程序,例如计算机愿景的深度学习进步或在物体检测等特定任务中进行。随着这些调查作为基础,这一贡献的目的是提供对不同科学学科的深度学习的第一个高级,分类的元调查。根据底层数据来源(图像,语言,医疗,混合)选择了类别(计算机愿景,语言处理,医疗信息和其他工程)。此外,我们还审查了每个子类别的常见架构,方法,专业,利弊,评估,挑战和未来方向。
translated by 谷歌翻译
机器学习透明度(ML),试图揭示复杂模型的工作机制。透明ML承诺推进人为因素在目标用户中以人为本的人体目标的工程目标。从以人为本的设计视角,透明度不是ML模型的属性,而是一种能力,即算法与用户之间的关系;因此,与用户的迭代原型和评估对于获得提供透明度的充足解决方案至关重要。然而,由于有限的可用性和最终用户,遵循了医疗保健和医学图像分析的人以人为本的设计原则是具有挑战性的。为了调查医学图像分析中透明ML的状态,我们对文献进行了系统审查。我们的评论在医学图像分析应用程序的透明ML的设计和验证方面揭示了多种严重的缺点。我们发现,大多数研究到达迄今为止透明度作为模型本身的属性,类似于任务性能,而不考虑既未开发也不考虑最终用户也不考虑评估。此外,缺乏用户研究以及透明度声明的偶发验证将当代研究透明ML的医学图像分析有可能对用户难以理解的风险,因此临床无关紧要。为了缓解即将到来的研究中的这些缺点,同时承认人以人为中心设计在医疗保健中的挑战,我们介绍了用于医学图像分析中的透明ML系统的系统设计指令。 Intrult指南建议形成的用户研究作为透明模型设计的第一步,以了解用户需求和域要求。在此过程之后,会产生支持设计选择的证据,最终增加了算法提供透明度的可能性。
translated by 谷歌翻译
本文研究了涉及对象集,对象检测,实例级分段和多对象跟踪的基本视觉任务的性能评估标准。现有标准的算法排名可能会以不同的参数选择波动,例如联合(IOU)阈值的交叉点使他们的评估不可靠。更重要的是,没有能够验证我们是否可以相信标准的评估。这项工作提出了对性能标准的可信赖性的概念,该概念需要(i)对可靠性的参数鲁棒性,(ii)理智测试中的上下文意义,以及(iii)与数学要求(例如度量属性)的一致性。我们观察到这些要求被许多广泛使用的标准忽略了,并使用一组形状的指标探索替代标准。我们还根据建议的可信度要求评估所有这些标准。
translated by 谷歌翻译
医学图像分割模型的性能指标用于衡量参考注释和预测之间的一致性。在开发此类模型中,使用了一组通用指标,以使结果更具可比性。但是,公共数据集中的分布与临床实践中遇到的案例之间存在不匹配。许多常见的指标无法衡量这种不匹配的影响,尤其是对于包含不确定,小或空参考注释的临床数据集。因此,可能无法通过此类指标来验证模型在临床上有意义的一致性。评估临床价值的维度包括独立于参考注释量的大小,考虑参考注释的不确定性,体积计和/或位置一致性的奖励以及对空参考注释正确分类的奖励。与普通的公共数据集不同,我们的内部数据集更具代表性。它包含不确定的,小或空的参考注释。我们研究了有关深度学习框架的预测的公开度量指标,以确定哪些设置共同指标可提供有意义的结果。我们将公共基准数据集进行比较而没有不确定,小或空参考注释。该代码将发布。
translated by 谷歌翻译
使用深度学习模型从组织学数据中诊断癌症提出了一些挑战。这些图像中关注区域(ROI)的癌症分级和定位通常依赖于图像和像素级标签,后者需要昂贵的注释过程。深度弱监督的对象定位(WSOL)方法为深度学习模型的低成本培训提供了不同的策略。仅使用图像级注释,可以训练这些方法以对图像进行分类,并为ROI定位进行分类类激活图(CAM)。本文综述了WSOL的​​最先进的DL方法。我们提出了一种分类法,根据模型中的信息流,将这些方法分为自下而上和自上而下的方法。尽管后者的进展有限,但最近的自下而上方法目前通过深层WSOL方法推动了很多进展。早期作品的重点是设计不同的空间合并功能。但是,这些方法达到了有限的定位准确性,并揭示了一个主要限制 - 凸轮的不足激活导致了高假阴性定位。随后的工作旨在减轻此问题并恢复完整的对象。评估和比较了两个具有挑战性的组织学数据集的分类和本地化准确性,对我们的分类学方法进行了评估和比较。总体而言,结果表明定位性能差,特别是对于最初设计用于处理自然图像的通用方法。旨在解决组织学数据挑战的方法产生了良好的结果。但是,所有方法都遭受高假阳性/阴性定位的影响。在组织学中应用深WSOL方法的应用是四个关键的挑战 - 凸轮的激活下/过度激活,对阈值的敏感性和模型选择。
translated by 谷歌翻译
We propose and study a task we name panoptic segmentation (PS). Panoptic segmentation unifies the typically distinct tasks of semantic segmentation (assign a class label to each pixel) and instance segmentation (detect and segment each object instance). The proposed task requires generating a coherent scene segmentation that is rich and complete, an important step toward real-world vision systems. While early work in computer vision addressed related image/scene parsing tasks, these are not currently popular, possibly due to lack of appropriate metrics or associated recognition challenges. To address this, we propose a novel panoptic quality (PQ) metric that captures performance for all classes (stuff and things) in an interpretable and unified manner. Using the proposed metric, we perform a rigorous study of both human and machine performance for PS on three existing datasets, revealing interesting insights about the task. The aim of our work is to revive the interest of the community in a more unified view of image segmentation.
translated by 谷歌翻译
晚期钆增强磁共振成像(LGE MRI)通常用于可视化和量化左心房(LA)疤痕。疤痕的位置和程度提供了心理生理学和心房颤动进展的重要信息(AF)。因此,LGE MRI的La Scar分段和量化可用于AF患者的计算机辅助诊断和治疗分层。由于手动描绘可能是耗时的,并且经过专家内和专家间变异性,因此非常需要自动化这种计算,这然而仍然仍然具有挑战性和研究。本文旨在为La腔,墙壁,瘢痕和消融差距分割和LGE MRI的定量提供系统审查,以及AF研究的相关文献。具体而言,我们首先总结AF相关的成像技术,特别是LGE MRI。然后,我们详细介绍了四个计算任务的方法,并总结了每个任务中应用的验证策略。最后,概述了未来可能的未来发展,简要调查了上述方法的潜在临床应用。审查表明,该主题的研究仍处于早期阶段。虽然已经提出了几种方法,但特别是对于LA分割,由于与图像采集的高度变化相关的性能问题和图像采集差异有关的性能问题,仍有很大的算法发展。
translated by 谷歌翻译
深层神经网络(DNN)在各种任务中的应用需要应对这些架构的复杂和不透明性质的方法。当有黄金标准可用时,性能评估将DNN视为黑匣子,并根据将预测与地面真相的比较进行计算标准指标。对性能的更深入的了解需要超越此类评估指标来诊断模型行为和预测错误。可以通过两种互补的方式实现此目标。一方面,模型解释技术“打开框”并评估输入,内层和输出之间的关系,以识别最有可能导致性能损失的体系结构模块。另一方面,黑框错误诊断技术研究了模型响应与未用于训练的输入的某些属性之间的相关性,以确定使模型失败的输入的特征。两种方法都提供了有关如何改善体系结构和/或培训过程的提示。本文着重于将DNNS应用于计算机视觉(CV)任务,并介绍了支持Black-Box性能诊断范式的工具的调查。它说明了当前建议的特征和空白,讨论了相关的研究方向,并简要概述了CV以外的其他部门的诊断工具。
translated by 谷歌翻译