Machine learning models are typically evaluated by computing similarity with reference annotations and trained by maximizing similarity with such. Especially in the bio-medical domain, annotations are subjective and suffer from low inter- and intra-rater reliability. Since annotations only reflect the annotation entity's interpretation of the real world, this can lead to sub-optimal predictions even though the model achieves high similarity scores. Here, the theoretical concept of Peak Ground Truth (PGT) is introduced. PGT marks the point beyond which an increase in similarity with the reference annotation stops translating to better Real World Model Performance (RWMP). Additionally, a quantitative technique to approximate PGT by computing inter- and intra-rater reliability is proposed. Finally, three categories of PGT-aware strategies to evaluate and improve model performance are reviewed.
translated by 谷歌翻译
生物医学图像分析算法验证取决于参考数据集的高质量注释,标记指令是关键。尽管它们的重要性,但他们的优化仍然没有得到探索。在这里,我们介绍了对标签指令及其对该领域注释质量的影响的首次系统研究。通过对Miccai协会注册的专业实践和国际比赛的全面检查,我们发现了注释者对标签说明的标签需求及其当前质量和可用性之间的差异。基于对156家专业公司的156个注释者和708个亚马逊机械土耳其人(MTURK)人群的注释者的14040张图像的分析,使用具有不同信息密度级别的说明,我们进一步发现,包括示例性图像与文本描述,唯一的描述,示例性图像显着增强了注释性能,虽然仅扩展文本说明并非如此。最后,专业注释者不断优于mturk人群。我们的研究提高了对生物医学图像分析标签指令中质量标准的需求的认识。
translated by 谷歌翻译
自动生物医学图像分析的领域至关重要地取决于算法验证的可靠和有意义的性能指标。但是,当前的度量使用通常是不明智的,并且不能反映基本的域名。在这里,我们提出了一个全面的框架,该框架指导研究人员以问题意识的方式选择绩效指标。具体而言,我们专注于生物医学图像分析问题,这些问题可以解释为图像,对象或像素级别的分类任务。该框架首先编译域兴趣 - 目标结构 - ,数据集和算法与输出问题相关的属性的属性与问题指纹相关,同时还将其映射到适当的问题类别,即图像级分类,语义分段,实例,实例细分或对象检测。然后,它指导用户选择和应用一组适当的验证指标的过程,同时使他们意识到与个人选择相关的潜在陷阱。在本文中,我们描述了指标重新加载推荐框架的当前状态,目的是从图像分析社区获得建设性的反馈。当前版本是在由60多个图像分析专家的国际联盟中开发的,将在社区驱动的优化之后公开作为用户友好的工具包提供。
translated by 谷歌翻译
语义图像分割是手术中的背景知识和自治机器人的重要前提。本领域的状态专注于在微创手术期间获得的传统RGB视频数据,但基于光谱成像数据的全景语义分割并在开放手术期间获得几乎没有注意到日期。为了解决文献中的这种差距,我们正在研究基于在开放手术环境中获得的猪的高光谱成像(HSI)数据的以下研究问题:(1)基于神经网络的HSI数据的充分表示是完全自动化的器官分割,尤其是关于数据的空间粒度(像素与Superpixels与Patches与完整图像)的空间粒度? (2)在执行语义器官分割时,是否有利用HSI数据使用HSI数据,即RGB数据和处理的HSI数据(例如氧合等组织参数)?根据基于20猪的506个HSI图像的全面验证研究,共注释了19个类,基于深度的学习的分割性能 - 贯穿模态 - 与输入数据的空间上下文一致。未处理的HSI数据提供优于RGB数据或来自摄像机提供商的处理数据,其中优势随着输入到神经网络的输入的尺寸而增加。最大性能(应用于整个图像的HSI)产生了0.89(标准偏差(SD)0.04)的平均骰子相似度系数(DSC),其在帧间间变异性(DSC为0.89(SD 0.07)的范围内。我们得出结论,HSI可以成为全自动手术场景理解的强大的图像模型,其具有传统成像的许多优点,包括恢复额外功能组织信息的能力。
translated by 谷歌翻译
事实证明,深度卷积神经网络在语义分割任务中非常有效。引入了最流行的损失功能,以提高体积分数,例如Sorensen骰子系数。根据设计,DSC可以解决类不平衡;但是,它不能识别类中的实例不平衡。结果,大型前景实例可以主导次要实例,并且仍然产生令人满意的Sorensen骰子系数。然而,错过实例将导致检测性能不佳。这代表了诸如疾病进展监测等应用中的一个关键问题。例如,必须在多发性硬化症患者的随访中定位和监视小规模病变。我们提出了一个新型的损失功能家族,绰号斑点损失,主要旨在最大化实例级检测指标,例如F1得分和灵敏度。 BLOB损失是针对语义分割问题而设计的,其中实例是类中连接的组件。我们在五个复杂的3D语义分割任务中广泛评估了基于DSC的斑点损失,这些任务具有明显的实例异质性,从纹理和形态上讲。与软骰子损失相比,我们的MS病变改善了5%,肝肿瘤改善了3%,考虑F1分数的显微镜细分任务平均提高了2%。
translated by 谷歌翻译
医学图像分割模型的性能指标用于衡量参考注释和预测之间的一致性。在开发此类模型中,使用了一组通用指标,以使结果更具可比性。但是,公共数据集中的分布与临床实践中遇到的案例之间存在不匹配。许多常见的指标无法衡量这种不匹配的影响,尤其是对于包含不确定,小或空参考注释的临床数据集。因此,可能无法通过此类指标来验证模型在临床上有意义的一致性。评估临床价值的维度包括独立于参考注释量的大小,考虑参考注释的不确定性,体积计和/或位置一致性的奖励以及对空参考注释正确分类的奖励。与普通的公共数据集不同,我们的内部数据集更具代表性。它包含不确定的,小或空的参考注释。我们研究了有关深度学习框架的预测的公开度量指标,以确定哪些设置共同指标可提供有意义的结果。我们将公共基准数据集进行比较而没有不确定,小或空参考注释。该代码将发布。
translated by 谷歌翻译
尽管人工智能(AI)有望支持医疗保健提供者并提高医疗诊断的准确性,但数据集组成的缺乏透明度会使AI模型暴露于无意识和可避免的错误的可能性。特别是,皮肤病学条件的公共图像数据集很少包含有关肤色的信息。作为提高透明度的开始,AI研究人员已经从患者光敏性的度量到估算计算机视觉应用算法审核的肤色估算肤色(包括面部识别和皮肤病学诊断)的肤色估算肤色的度量来使用Fitzpatrick皮肤类型(FST)。为了了解图像上估计的FST注释的可变性,我们比较了来自教科书和在线皮肤病学试图的460张皮肤条件图像的多种FST注释方法。我们发现,三位经过董事会认证的皮肤科医生之间的评估者间可靠性与经过董事会认证的皮肤科医生和两种众包方法之间的评估者间可靠性相媲美。相比之下,我们发现转换为FST(ITA-FST)方法的单个类型学角度与专家注释相比,与专家的注释相关的注释相关的注释明显少于彼此相关。这些结果表明,基于ITA-FST的算法对于注释大规模图像数据集并不可靠,但是以人为本的,基于人群的协议可以可靠地将皮肤类型透明度添加到皮肤病学数据集中。此外,我们介绍了具有可调参数的动态共识协议的概念,包括专家审查,以提高人群的可见性并为未来的大型图像数据集的众包注释提供指导。
translated by 谷歌翻译
尽管自动图像分析的重要性不断增加,但最近的元研究揭示了有关算法验证的主要缺陷。性能指标对于使用的自动算法的有意义,客观和透明的性能评估和验证尤其是关键,但是在使用特定的指标进行给定的图像分析任务时,对实际陷阱的关注相对较少。这些通常与(1)无视固有的度量属性,例如在存在类不平衡或小目标结构的情况下的行为,(2)无视固有的数据集属性,例如测试的非独立性案例和(3)无视指标应反映的实际生物医学领域的兴趣。该动态文档的目的是说明图像分析领域通常应用的性能指标的重要局限性。在这种情况下,它重点介绍了可以用作图像级分类,语义分割,实例分割或对象检测任务的生物医学图像分析问题。当前版本是基于由全球60多家机构的国际图像分析专家进行的关于指标的Delphi流程。
translated by 谷歌翻译
适当的评估和实验设计对于经验科学是基础,尤其是在数据驱动领域。例如,由于语言的计算建模成功,研究成果对最终用户产生了越来越直接的影响。随着最终用户采用差距的减少,需求增加了,以确保研究社区和从业者开发的工具和模型可靠,可信赖,并且支持用户的目标。在该立场论文中,我们专注于评估视觉文本分析方法的问题。我们从可视化和自然语言处理社区中采用跨学科的角度,因为我们认为,视觉文本分析的设计和验证包括超越计算或视觉/交互方法的问题。我们确定了四个关键的挑战群,用于评估视觉文本分析方法(数据歧义,实验设计,用户信任和“大局”问题),并从跨学科的角度为研究机会提供建议。
translated by 谷歌翻译
计算病理(CPATH)是一种具有关于组织病理研究的新兴领域,通过计算和分析组织载玻片的数字化高分辨率图像的处理算法。CPATH最近的深度学习的发展已经成功地利用了组织学图像中的原始像素数据的纯粹体积,以预测诊断域,预测,治疗敏感性和患者分层中的目标参数 - 覆盖新数据驱动的AI时代的承诺既组织病理学和肿瘤。使用作为燃料和作为发动机的燃料和AI的数据,CPATH算法准备好用于起飞和最终发射到临床和药物轨道中。在本文中,我们讨论了CPATH限制和相关挑战,使读者能够区分HIPE的希望,并为未来的研究提供指示,以克服这个崭露头角领域的一些主要挑战,以使其发射到两个轨道上。
translated by 谷歌翻译
Human variation in labeling is often considered noise. Annotation projects for machine learning (ML) aim at minimizing human label variation, with the assumption to maximize data quality and in turn optimize and maximize machine learning metrics. However, this conventional practice assumes that there exists a ground truth, and neglects that there exists genuine human variation in labeling due to disagreement, subjectivity in annotation or multiple plausible answers. In this position paper, we argue that this big open problem of human label variation persists and critically needs more attention to move our field forward. This is because human label variation impacts all stages of the ML pipeline: data, modeling and evaluation. However, few works consider all of these dimensions jointly; and existing research is fragmented. We reconcile different previously proposed notions of human label variation, provide a repository of publicly-available datasets with un-aggregated labels, depict approaches proposed so far, identify gaps and suggest ways forward. As datasets are becoming increasingly available, we hope that this synthesized view on the 'problem' will lead to an open discussion on possible strategies to devise fundamentally new directions.
translated by 谷歌翻译
机器学习和计算机视觉技术近年来由于其自动化,适合性和产生惊人结果的能力而迅速发展。因此,在本文中,我们调查了2014年至2022年之间发表的关键研究,展示了不同的机器学习算法研究人员用来分割肝脏,肝肿瘤和肝脉管结构的研究。我们根据感兴趣的组织(肝果,肝肿瘤或肝毒剂)对被调查的研究进行了划分,强调了同时解决多个任务的研究。此外,机器学习算法被归类为受监督或无监督的,如果属于某个方案的工作量很大,则将进一步分区。此外,对文献和包含上述组织面具的网站发现的不同数据集和挑战进行了彻底讨论,强调了组织者的原始贡献和其他研究人员的贡献。同样,在我们的评论中提到了文献中过度使用的指标,这强调了它们与手头的任务的相关性。最后,强调创新研究人员应对需要解决的差距的关键挑战和未来的方向,例如许多关于船舶分割挑战的研究的稀缺性以及为什么需要早日处理他们的缺席。
translated by 谷歌翻译
深度学习算法的最新进展为解决许多医学图像分析问题带来了重大好处。培训深度学习模型通常需要具有专家标记注释的大型数据集。但是,获取专家标记的注释不仅昂贵,而且主观,容易出错,并且观察者内部变异性会引入标签。由于解剖学的模棱两可,使用深度学习模型来细分医学图像时,这尤其是一个问题。基于图像的医学诊断工具使用经过不正确分段标签训练的深度学习模型可以导致错误的诊断和治疗建议。与单评论注释相比,多评价者注释可能更适合于使用小型培训集的深度学习模型进行训练。本文的目的是开发和评估一种基于MRI中病变特征的多评价者注释和解剖学知识来生成概率标签的方法,以及一种使用概率的标签使用归一化活动性损失作为A的病变特征的解剖学知识,以训练分割模型”。耐噪声损失的功能。通过将17个膝盖MRI扫描的二进制基础真理进行比较,以评估该模型,以用于临床分割和检测骨髓病变(BML)。该方法与二进制跨透镜损失函数相比,该方法成功提高了精度14,召回22和骰子得分8%。总体而言,这项工作的结果表明,使用软标签的拟议归一化主动损失成功地减轻了嘈杂标签的影响。
translated by 谷歌翻译
机器学习透明度(ML),试图揭示复杂模型的工作机制。透明ML承诺推进人为因素在目标用户中以人为本的人体目标的工程目标。从以人为本的设计视角,透明度不是ML模型的属性,而是一种能力,即算法与用户之间的关系;因此,与用户的迭代原型和评估对于获得提供透明度的充足解决方案至关重要。然而,由于有限的可用性和最终用户,遵循了医疗保健和医学图像分析的人以人为本的设计原则是具有挑战性的。为了调查医学图像分析中透明ML的状态,我们对文献进行了系统审查。我们的评论在医学图像分析应用程序的透明ML的设计和验证方面揭示了多种严重的缺点。我们发现,大多数研究到达迄今为止透明度作为模型本身的属性,类似于任务性能,而不考虑既未开发也不考虑最终用户也不考虑评估。此外,缺乏用户研究以及透明度声明的偶发验证将当代研究透明ML的医学图像分析有可能对用户难以理解的风险,因此临床无关紧要。为了缓解即将到来的研究中的这些缺点,同时承认人以人为中心设计在医疗保健中的挑战,我们介绍了用于医学图像分析中的透明ML系统的系统设计指令。 Intrult指南建议形成的用户研究作为透明模型设计的第一步,以了解用户需求和域要求。在此过程之后,会产生支持设计选择的证据,最终增加了算法提供透明度的可能性。
translated by 谷歌翻译
我们展示DeepFlash2,深入学习解决方案,促进了通过多专家注释和综合质量保证的暧昧生物模糊的客观和可靠的分割。因此,DeepFlash2解决了在生物影像体中训练,评估和应用期间出现的典型挑战。该工具嵌入在易于使用的图形用户界面中,并在经济使用计算资源下为语义和实例分段提供一流的预测性能。
translated by 谷歌翻译
由胰腺管网络的具有挑战性的分割任务激发,本文解决了两个通常遇到生物医学成像问题的问题:分割的拓扑一致性,以及昂贵或困难的注释。我们的贡献如下:a)我们提出了一个拓扑评分,该评分衡量了预测和地面真理分割之间的拓扑和几何一致性,应用于模型选择和验证。 b)我们在时间序列图像数据上为这一困难的嘈杂任务提供了完整的深度学习方法。在我们的方法中,我们首先使用半监管的U-NET体系结构,适用于通用分割任务,该任务共同训练自动编码器和分割网络。然后,随着时间的流逝,我们使用循环的跟踪来进一步改善预测的拓扑。这种半监督的方法使我们能够利用未经通知的数据来学习特征表示,尽管我们的带注释的培训数据的变化非常有限,但该特征表示具有较高可变性的数据。我们的贡献在具有挑战性的分割任务上得到了验证,从嘈杂的实时成像共聚焦显微镜中定位胎儿胰腺中的管状结构。我们表明,我们的半监督模型不仅优于完全监督和预训练的模型,而且还优于在训练过程中考虑拓扑一致性的方法。此外,与经过平均循环得分为0.762的CLDICE的U-NET相比,我们的方法的平均环路得分为0.808。
translated by 谷歌翻译
机器学习目前对世界产生了巨大的影响,越来越多地影响机构实践并影响了社区。因此,至关重要的是,我们质疑该领域的模糊概念是价值中性或普遍有益的,并研究该领域正在发展的特定价值。在本文中,我们首先介绍了一种研究文档中编码的值的方法和注释方案,例如研究论文。采用该方案,我们分析了100个高度引用的机器学习论文,该论文在Premier机器学习会议,ICML和Neurips上发表。我们注释论文的关键特征,这些特征揭示了其价值观:他们选择项目的理由,这些项目的归因于他们提升的项目,对潜在的负面后果的考虑以及机构的隶属关系和资金来源。我们发现,很少有论文证明其项目如何与社会需求联系起来(15 \%),而讨论负潜力(1 \%)的讨论更少。通过逐行的内容分析,我们确定了59个在ML研究中得到提升的值,其中,我们发现论文最常根据绩效,概括,定量证据,效率,基于过去的绩效,定量证据,效率来证明和评估自己的合理性和评估工作和新颖。我们提供了广泛的文本证据,并在这些价值观的定义和操作中确定了关键主题。值得注意的是,我们发现系统的文本证据表明,这些最高价值是通过假设和含义来定义和应用的,通常支持权力的集中化。在本文中,我们发现这些高度引用的论文与科技公司和精英大学之间的关系越来越紧密。
translated by 谷歌翻译
晚期钆增强磁共振成像(LGE MRI)通常用于可视化和量化左心房(LA)疤痕。疤痕的位置和程度提供了心理生理学和心房颤动进展的重要信息(AF)。因此,LGE MRI的La Scar分段和量化可用于AF患者的计算机辅助诊断和治疗分层。由于手动描绘可能是耗时的,并且经过专家内和专家间变异性,因此非常需要自动化这种计算,这然而仍然仍然具有挑战性和研究。本文旨在为La腔,墙壁,瘢痕和消融差距分割和LGE MRI的定量提供系统审查,以及AF研究的相关文献。具体而言,我们首先总结AF相关的成像技术,特别是LGE MRI。然后,我们详细介绍了四个计算任务的方法,并总结了每个任务中应用的验证策略。最后,概述了未来可能的未来发展,简要调查了上述方法的潜在临床应用。审查表明,该主题的研究仍处于早期阶段。虽然已经提出了几种方法,但特别是对于LA分割,由于与图像采集的高度变化相关的性能问题和图像采集差异有关的性能问题,仍有很大的算法发展。
translated by 谷歌翻译
机器学习(ML)越来越多地用于支持高风险的决策,这是由于其相对于人类评估的优势预测能力的承诺而欠的趋势。但是,决策目标与观察到的作为训练ML模型的标签的结果中捕获的内容之间经常存在差距。结果,机器学习模型可能无法捕获决策标准的重要维度,从而阻碍了他们的决策支持。在这项工作中,我们探讨了历史专家决策作为组织信息系统中通常可用的丰富(但不完美)的信息来源,并表明它可以利用它来弥合决策目标与算法目标之间的差距。当数据中的每个案例都由单个专家评估并提出基于影响函数的方法作为解决此问题的解决方案时,我们会间接考虑估计专家一致性的问题。然后,我们将估计的专家一致性通过培训时间标签合并方法纳入预测模型。这种方法使ML模型可以在有推断的专家一致性和观察标签的情况下向专家学习。我们还提出了通过混合和延期模型来利用推断一致性的替代方法。在我们的经验评估中,专注于儿童虐待热线筛查的背景下,我们表明(1)有一些高风险案例,其风险是专家考虑的,但在目标标签中没有完全捕获用于培训已部署模型和培训的目标标签(2)提出的方法可显着提高这些情况的精度。
translated by 谷歌翻译
如今,由于最近在人工智能(AI)和机器学习(ML)中的近期突破,因此,智能系统和服务越来越受欢迎。然而,机器学习不仅满足软件工程,不仅具有有希望的潜力,而且还具有一些固有的挑战。尽管最近的一些研究努力,但我们仍然没有明确了解开发基于ML的申请和当前行业实践的挑战。此外,目前尚不清楚软件工程研究人员应将其努力集中起来,以更好地支持ML应用程序开发人员。在本文中,我们报告了一个旨在了解ML应用程序开发的挑战和最佳实践的调查。我们合成从80名从业者(以不同的技能,经验和应用领域)获得的结果为17个调查结果;概述ML应用程序开发的挑战和最佳实践。参与基于ML的软件系统发展的从业者可以利用总结最佳实践来提高其系统的质量。我们希望报告的挑战将通知研究界有关需要调查的主题,以改善工程过程和基于ML的申请的质量。
translated by 谷歌翻译