乳腺癌是最常见的癌症,乳房X线摄影筛查的早期检测对于改善患者预后至关重要。评估乳房X线乳房密度在临床上很重要,因为浓密的乳房具有更高的风险,并且更有可能阻塞肿瘤。专家的手动评估既耗时又受评估者间的可变性。因此,对乳房X线乳房密度评估的深度学习方法的发展有所增加。尽管深度学习在乳房X线摄影的应用中表现出了令人印象深刻的表现,但在仍然相对较少的深度学习系统中的临床部署中;从历史上看,乳房X线摄影计算机辅助诊断(CAD)已过分宣传,无法提供。这部分是由于无法直观地量化临床医生算法的不确定性,这将大大提高可用性。共形预测非常适合增加对深度学习工具的可靠和信任,但它们缺乏对医疗数据集的现实评估。在本文中,我们介绍了应用于医学成像任务的三个可能应用的详细分析:分配转移表征,预测质量的改善和亚组公平分析。我们的结果表明,无分配不确定性量化技术的潜力可以增强对AI算法的信任并加快其翻译为使用。
translated by 谷歌翻译
人们认为,深度学习模型以不可预测的和可能的灾难性方式失败,因此受到了监管AI的监管批准和广泛的临床部署。缺乏统计上严格的不确定性量化是破坏对AI结果的信任的重要因素。无分配不确定性量化的最新发展通过为任意数据分布的黑框模型提供可靠性保证,作为正式有效的有限样本预测间隔,为这些问题提供了实用解决方案。我们的工作将这些新的不确定性定量方法(特别是共形预测)应用于腰椎MRI中脊柱狭窄严重程度的深度学习模型。我们展示了一种用于形成顺序预测集的技术,该技术可以保证在用户定义的概率(置信区间)内包含正确的狭窄严重程度。在通过深度学习模型处理的409个MRI考试的数据集中,共形方法提供了较小的预测集尺寸的紧密覆盖范围。此外,我们通过量化明显成像异常的患病率的提高(例如,运动伪像,金属伪像和肿瘤)可以在预测性能中降低预测性能,从而探索具有高不确定性预测(大预测集)标记病例的潜在临床适用性。与随机病例样本相比。
translated by 谷歌翻译
估计分配转移的基于软件AI的医疗设备的测试性能对于评估临床部署之前的安全性,效率和可用性至关重要。由于受管制的医疗设备软件的性质以及获取大量标记的医疗数据集的困难,我们考虑了在未标记的目标域上预测任意黑框模型的测试准确性的任务,而无需修改原始培训过程或原始训练过程或原始源数据的任何分布假设(即,我们将模型视为“黑框”,仅使用预测的输出响应)。我们在几种临床上相关的分配转移类型(机构,硬件扫描仪,Atlas,Atlas,Atlas,Atlas,Atlas,Atlas,Atlas,Atlas,Atlas,Atlas,Atlas,Atlas,Atlas,Atlas,Atlas,乳房X线摄影,皮肤病学和组织病理学)下,提出了一种基于共形预测的“黑盒”测试估计技术,并根据三个医学成像数据集(乳房X线摄影,皮肤病学和组织病理学)对其他方法进行评估。医院)。我们希望通过促进黑盒模型的实用有效估计技术,医疗设备的制造商将制定更标准化和现实的评估程序,以提高临床AI工具的鲁棒性和可信度。
translated by 谷歌翻译
尽管对临床机器学习研究有强烈的关注和相当大的投资,但在现实世界的临床环境中,在大规模的应用中已经部署了相对较少的应用。虽然研究在推进最先进的情况下很重要,但翻译同样重要的是,使这些技术和技术能够最终影响医疗保健。我们认为对几个考虑缺乏升值是在期望和现实之间这种差异的主要原因。为了更好地描述研究人员和从业者之间的整体视角,我们调查了几个从业人员在开发CML中进行临床部署的商业经验。使用这些洞察力,我们确定了几个主要类别的挑战,以便更好地设计和开发临床机学习应用。
translated by 谷歌翻译
最近的人工智能(AI)算法已在各种医学分类任务上实现了放射科医生级的性能。但是,只有少数研究涉及CXR扫描异常发现的定位,这对于向放射学家解释图像级分类至关重要。我们在本文中介绍了一个名为Vindr-CXR的可解释的深度学习系统,该系统可以将CXR扫描分类为多种胸部疾病,同时将大多数类型的关键发现本地化在图像上。 Vindr-CXR接受了51,485次CXR扫描的培训,并通过放射科医生提供的边界盒注释进行了培训。它表现出与经验丰富的放射科医生相当的表现,可以在3,000张CXR扫描的回顾性验证集上对6种常见的胸部疾病进行分类,而在接收器操作特征曲线(AUROC)下的平均面积为0.967(95%置信区间[CI]:0.958---------0.958------- 0.975)。 VINDR-CXR在独立患者队列中也得到了外部验证,并显示出其稳健性。对于具有14种类型病变的本地化任务,我们的自由响应接收器操作特征(FROC)分析表明,VINDR-CXR以每扫描确定的1.0假阳性病变的速率达到80.2%的敏感性。还进行了一项前瞻性研究,以衡量VINDR-CXR在协助六名经验丰富的放射科医生方面的临床影响。结果表明,当用作诊断工具时,提出的系统显着改善了放射科医生本身之间的一致性,平均Fleiss的Kappa的同意增加了1.5%。我们还观察到,在放射科医生咨询了Vindr-CXR的建议之后,在平均Cohen的Kappa中,它们和系统之间的一致性显着增加了3.3%。
translated by 谷歌翻译
肺癌是全球癌症死亡的主要原因,肺腺癌是最普遍的肺癌形式。 EGFR阳性肺腺癌已被证明对TKI治疗的反应率很高,这是肺癌分子测试的基本性质。尽管目前的指南考虑必要测试,但很大一部分患者并未常规化,导致数百万的人未接受最佳治疗肺癌。测序是EGFR突变分子测试的黄金标准,但是结果可能需要数周的时间才能回来,这在时间限制的情况下并不理想。能够快速,便宜地检测EGFR突变的替代筛查工具的开发,同时保存组织以进行测序可以帮助减少受比较治疗的患者的数量。我们提出了一种多模式方法,该方法将病理图像和临床变量整合在一起,以预测EGFR突变状态,迄今为止最大的临床队列中的AUC为84%。这样的计算模型可以以很少的额外成本进行大部分部署。它的临床应用可以减少中国接受亚最佳治疗的患者数量53.1%,在美国将高达96.6%的患者减少96.6%。
translated by 谷歌翻译
计算病理(CPATH)是一种具有关于组织病理研究的新兴领域,通过计算和分析组织载玻片的数字化高分辨率图像的处理算法。CPATH最近的深度学习的发展已经成功地利用了组织学图像中的原始像素数据的纯粹体积,以预测诊断域,预测,治疗敏感性和患者分层中的目标参数 - 覆盖新数据驱动的AI时代的承诺既组织病理学和肿瘤。使用作为燃料和作为发动机的燃料和AI的数据,CPATH算法准备好用于起飞和最终发射到临床和药物轨道中。在本文中,我们讨论了CPATH限制和相关挑战,使读者能够区分HIPE的希望,并为未来的研究提供指示,以克服这个崭露头角领域的一些主要挑战,以使其发射到两个轨道上。
translated by 谷歌翻译
Artificial Intelligence (AI) has become commonplace to solve routine everyday tasks. Because of the exponential growth in medical imaging data volume and complexity, the workload on radiologists is steadily increasing. We project that the gap between the number of imaging exams and the number of expert radiologist readers required to cover this increase will continue to expand, consequently introducing a demand for AI-based tools that improve the efficiency with which radiologists can comfortably interpret these exams. AI has been shown to improve efficiency in medical-image generation, processing, and interpretation, and a variety of such AI models have been developed across research labs worldwide. However, very few of these, if any, find their way into routine clinical use, a discrepancy that reflects the divide between AI research and successful AI translation. To address the barrier to clinical deployment, we have formed MONAI Consortium, an open-source community which is building standards for AI deployment in healthcare institutions, and developing tools and infrastructure to facilitate their implementation. This report represents several years of weekly discussions and hands-on problem solving experience by groups of industry experts and clinicians in the MONAI Consortium. We identify barriers between AI-model development in research labs and subsequent clinical deployment and propose solutions. Our report provides guidance on processes which take an imaging AI model from development to clinical implementation in a healthcare institution. We discuss various AI integration points in a clinical Radiology workflow. We also present a taxonomy of Radiology AI use-cases. Through this report, we intend to educate the stakeholders in healthcare and AI (AI researchers, radiologists, imaging informaticists, and regulators) about cross-disciplinary challenges and possible solutions.
translated by 谷歌翻译
当疑问以获得更好的有效精度时,选择性分类允许模型放弃预测(例如,说“我不知道”)。尽管典型的选择性模型平均可以有效地产生更准确的预测,但它们仍可能允许具有很高置信度的错误预测,或者跳过置信度较低的正确预测。提供校准的不确定性估计以及预测(与真实频率相对应的概率)以及具有平均准确的预测一样重要。但是,不确定性估计对于某些输入可能不可靠。在本文中,我们开发了一种新的选择性分类方法,其中我们提出了一种拒绝“不确定”不确定性的示例的方法。通过这样做,我们旨在通过对所接受示例的分布进行{良好校准}的不确定性估计进行预测,这是我们称为选择性校准的属性。我们提出了一个用于学习选择性校准模型的框架,其中训练了单独的选择器网络以改善给定基本模型的选择性校准误差。特别是,我们的工作重点是实现强大的校准,该校准有意地设计为在室外数据上进行测试。我们通过受分配强大的优化启发的训练策略实现了这一目标,在该策略中,我们将模拟输入扰动应用于已知的,内域培训数据。我们证明了方法对多个图像分类和肺癌风险评估任务的经验有效性。
translated by 谷歌翻译
Molecular and genomic properties are critical in selecting cancer treatments to target individual tumors, particularly for immunotherapy. However, the methods to assess such properties are expensive, time-consuming, and often not routinely performed. Applying machine learning to H&E images can provide a more cost-effective screening method. Dozens of studies over the last few years have demonstrated that a variety of molecular biomarkers can be predicted from H&E alone using the advancements of deep learning: molecular alterations, genomic subtypes, protein biomarkers, and even the presence of viruses. This article reviews the diverse applications across cancer types and the methodology to train and validate these models on whole slide images. From bottom-up to pathologist-driven to hybrid approaches, the leading trends include a variety of weakly supervised deep learning-based approaches, as well as mechanisms for training strongly supervised models in select situations. While results of these algorithms look promising, some challenges still persist, including small training sets, rigorous validation, and model explainability. Biomarker prediction models may yield a screening method to determine when to run molecular tests or an alternative when molecular tests are not possible. They also create new opportunities in quantifying intratumoral heterogeneity and predicting patient outcomes.
translated by 谷歌翻译
人工智能将人工智能融入临床工作流程需要可靠且强大的模型。鲁棒性的主要特征是可重复性。在不评估模型重复性的情况下,给予分类性能很多,导致在实践中不可用的模型开发。在这项工作中,我们评估了在同一访问期间获得的同一患者的四种模型类型的可重复性。我们研究了三个医学图像分析任务的二进制,多级,序数和回归模型的性能:宫颈癌筛查,乳房密度估计和早产分类视网膜病变。此外,我们评估采样蒙特卡罗辍学预测在分类性能和可重复性上的测试时间的影响。利用Monte Carlo预测,为二元,多级和序数模型的所有任务的重复性显着提高,导致平均减少95%协议限额17%的分数。
translated by 谷歌翻译
目的:尽管机器学习模型有潜力,但缺乏普遍性阻碍了他们在临床实践中的广泛采用。我们研究了三个方法论陷阱:(1)违反独立性假设,(2)具有不适当的性能指标或基线进行比较的模型评估,以及(3)批次效应。材料和方法:使用几个回顾性数据集,我们在有或没有陷阱的情况下实现机器学习模型,以定量说明这些陷阱对模型通用性的影响。结果:更具体地说,违反独立假设,在将数据分别分为火车,验证和测试集中,在预测局部恢复和预测局部恢复和表面上,将数据分别划分为火车,验证和测试集,在将数据分别分为火车,验证和测试集中,在F1分别误导和表面上获得误解和表面收益,从而违反独立假设。预测头颈癌的3年总生存期以及46.0%的总体生存率为5.0%,从而区分肺癌的组织病理学模式。此外,在培训,验证和测试集中为受试者分发数据点导致F1分数的表面增长21.8%。此外,我们展示了绩效指标选择和基线的重要性。在存在批处理效应的情况下,为肺炎检测而建立的模型导致F1得分为98.7%。但是,当将同一模型应用于正常患者的新数据集时,仅正确地将3.86%的样品分类。结论:这些方法上的陷阱无法使用内部模型评估来捕获,这种模型的不准确预测可能会导致错误的结论和解释。因此,对于开发可推广的模型是必要的,理解和避免这些陷阱是必要的。
translated by 谷歌翻译
计算机辅助方法为诊断和预测脑疾病显示了附加的价值,因此可以支持临床护理和治疗计划中的决策。本章将洞悉方法的类型,其工作,输入数据(例如认知测试,成像和遗传数据)及其提供的输出类型。我们将专注于诊断的特定用例,即估计患者的当前“状况”,例如痴呆症的早期检测和诊断,对脑肿瘤的鉴别诊断以及中风的决策。关于预测,即对患者的未来“状况”的估计,我们将缩小用例,例如预测多发性硬化症中的疾病病程,并预测脑癌治疗后患者的结局。此外,根据这些用例,我们将评估当前的最新方法,并强调当前对这些方法进行基准测试的努力以及其中的开放科学的重要性。最后,我们评估了计算机辅助方法的当前临床影响,并讨论了增加临床影响所需的下一步。
translated by 谷歌翻译
最近显示外部眼睛照片显示出糖尿病性视网膜疾病和HBA1C升高的迹象。在本文中,我们评估外部眼睛照片是否包含有关其他系统性医疗状况的信息。我们开发了一个深度学习系统(DLS),该系统将外部眼睛的照片作为输入,并预测多个全身参数,例如与肝脏有关的参数(白蛋白,AST);肾脏(EGFR使用无种族的2021 CKD-EPI肌酐方程,尿液ACR);骨与矿物质(钙);甲状腺(TSH);和血数(HGB,WBC,血小板)。开发利用了49,015例糖尿病患者的151,237张图像,在加利福尼亚州洛杉矶县的11个地点接受糖尿病眼镜筛查。评估重点是9个预先指定的全身参数,并利用了3个验证集(a,b,c),涵盖了28,869名患有和没有糖尿病的患者,在加利福尼亚州洛杉矶县和大亚特兰大地区的3个独立地点进行了眼睛筛查。我们将结合了可用临床人口统计学变量的基线模型(例如年龄,性别,种族/种族,糖尿病年)进行了比较。相对于基线,DLS在检测AST> 36,钙<8.6,egfr <60,HGB <11,血小板<150,ACR> = 300和WBC <4时,在检测AST> 36,钙<8.6,Egfr <60,HGB <60,HGB <60,calcium <8.6,Egfr <60,calcium <8.6和wbc <4时,达到了统计学上的显着性能,并且类似于开发集的人口),其中DLS的AUC超过基线的AUC,增长了5.2-19.4%。在验证集B和C方面,与开发集相比,患者人群的差异很大,DLS的表现优于ACR> = 300的基线,而HGB <11升至7.3-13.2%。我们的发现提供了进一步的证据,表明外部眼睛照片包含跨越多器官系统的全身健康生物标志物。需要进一步的工作来研究这些生物标志物是否以及如何转化为临床影响。
translated by 谷歌翻译
由于筛选乳房X线照片的假阴性评估,通常在晚期检测到与其他癌症更差的间隔和大型侵入性乳腺癌。错过的筛选时间检测通常由其周围乳腺组织模糊的肿瘤引起的,这是一种称为掩蔽的现象。为了研究和基准爆发癌症的乳房Xmmpare掩蔽,在这项工作中,我们引入CSAW-M,最大的公共乳房数据集,从10,000多个人收集并用潜在的掩蔽注释。与以前的方法对比测量乳房图像密度作为代理的方法,我们的数据集直接提供了五个专家屏蔽潜在评估的注释。我们还培训了CSAW-M的深入学习模型来估计掩蔽水平,并显示估计的掩蔽更加预测筛查患有间隔和大型侵入性癌症的参与者 - 而不是明确培训这些任务 - 而不是其乳房密度同行。
translated by 谷歌翻译
现在通常用于高风险设置,如医疗诊断,如医疗诊断,那么需要不确定量化,以避免后续模型失败。无分发的不确定性量化(无分布UQ)是用户友好的范式,用于为这种预测创建统计上严格的置信区间/集合。批判性地,间隔/集合有效而不进行分布假设或模型假设,即使具有最多许多DataPoints也具有显式保证。此外,它们适应输入的难度;当输入示例很困难时,不确定性间隔/集很大,信号传达模型可能是错误的。在没有多大的工作和没有再培训的情况下,可以在任何潜在的算法(例如神经网络)上使用无分​​发方法,以产生置信度集,以便包含用户指定概率,例如90%。实际上,这些方法易于理解和一般,应用于计算机视觉,自然语言处理,深度加强学习等领域出现的许多现代预测问题。这种实践介绍是针对对无需统计学家的免费UQ的实际实施感兴趣的读者。我们通过实际的理论和无分发UQ的应用领导读者,从保形预测开始,并使无关的任何风险的分布控制,如虚假发现率,假阳性分布检测,等等。我们将包括Python中的许多解释性插图,示例和代码样本,具有Pytorch语法。目标是提供读者对无分配UQ的工作理解,使它们能够将置信间隔放在算法上,其中包含一个自包含的文档。
translated by 谷歌翻译
机器学习方法利用多参数生物标志物,特别是基于神经影像动物,具有改善痴呆早期诊断的巨大潜力,并预测哪些个体存在发展痴呆的风险。对于机器学习领域的基准算法和痴呆症中的神经影像症,并评估他们在临床实践中使用的潜力和临床试验,七年的大挑战已经在过去十年中组织:Miriad,Alzheimer的疾病大数据梦,Caddementia,机器学习挑战,MCI神经影像动物,蝌蚪和预测分析竞争。基于两个挑战评估框架,我们分析了这些大挑战如何互相补充研究问题,数据集,验证方法,结果和影响。七个大挑战解决了与(临床前)痴呆症(临床)痴呆症的筛查,诊断,预测和监测有关的问题。临床问题,任务和性能指标几乎没有重叠。然而,这具有提供对广泛问题的洞察力的优势,它也会限制对挑战的结果的验证。通常,获胜算法执行严格的数据预处理并组合了广泛的输入特征。尽管最先进的表演,但临床上没有挑战评估的大部分方法。为了增加影响,未来的挑战可以更加关注统计分析,对其与高于阿尔茨海默病的临床问题,以及使用超越阿尔茨海默病神经影像疾病的临床问题,以及超越阿尔茨海默病的临床问题。鉴于过去十年中汲取的潜力和经验教训,我们在未来十年及其超越的机器学习和神经影像中的大挑战前景兴奋。
translated by 谷歌翻译
大型和深度电子医疗保健记录(EHR)数据集的可用性有可能更好地了解现实世界中的患者旅行,并鉴定出新的患者亚组。基于ML的EHR数据集合主要是工具驱动的,即基于可用或新开发的方法的构建。但是,这些方法,它们的输入要求以及最重要的是,通常难以解释产量,尤其是没有深入的数据科学或统计培训。这危害了需要进行可行且具有临床意义的解释的最后一步。这项研究研究了使用大型EHR数据集和多种聚类方法进行临床研究的方法进行大规模进行患者分层分析的方法。我们已经开发了几种工具来促进无监督的患者分层结果的临床评估和解释,即模式筛查,元聚类,替代建模和策展。这些工具可以在分析中的不同阶段使用。与标准分析方法相比,我们证明了凝结结果并优化分析时间的能力。在元聚类的情况下,我们证明了患者簇的数量可以从72减少到3。在另一个分层的结果中,通过使用替代模型,我们可以迅速确定如果有血液钠测量值可用,则可以对心力衰竭患者进行分层。由于这是对所有心力衰竭患者进行的常规测量,因此表明数据偏差。通过使用进一步的队列和特征策展,可以去除这些患者和其他无关的特征以提高临床意义。这些示例显示了拟议方法的有效性,我们希望鼓励在该领域的进一步研究。
translated by 谷歌翻译
公平性是一个标准,重点是评估不同人口组的算法性能,它引起了自然语言处理,推荐系统和面部识别的关注。由于医学图像样本中有很多人口统计学属性,因此了解公平的概念,熟悉不公平的缓解技术,评估算法的公平程度并认识到医疗图像分析(媒体)中的公平问题中的挑战很重要。在本文中,我们首先给出了公平性的全面和精确的定义,然后通过在媒体中引入当前使用的技术中使用的技术。之后,我们列出了包含人口统计属性的公共医疗图像数据集,以促进公平研究并总结有关媒体公平性的当前算法。为了帮助更好地理解公平性,并引起人们对媒体中与公平性有关的问题的关注,进行了实验,比较公平性和数据失衡之间的差异,验证各种媒体任务中不公平的存在,尤其是在分类,细分和检测以及评估不公平缓解算法的有效性。最后,我们以媒体公平性的机会和挑战得出结论。
translated by 谷歌翻译
As machine learning algorithms start to get integrated into the decision-making process of companies and organizations, insurance products are being developed to protect their owners from liability risk. Algorithmic liability differs from human liability since it is based on a single model compared to multiple heterogeneous decision-makers and its performance is known a priori for a given set of data. Traditional actuarial tools for human liability do not take these properties into consideration, primarily focusing on the distribution of historical claims. We propose, for the first time, a quantitative framework to estimate the risk exposure of insurance contracts for machine-driven liability, introducing the concept of algorithmic insurance. Specifically, we present an optimization formulation to estimate the risk exposure of a binary classification model given a pre-defined range of premiums. We adjust the formulation to account for uncertainty in the resulting losses using robust optimization. Our approach outlines how properties of the model, such as accuracy, interpretability, and generalizability, can influence the insurance contract evaluation. To showcase a practical implementation of the proposed framework, we present a case study of medical malpractice in the context of breast cancer detection. Our analysis focuses on measuring the effect of the model parameters on the expected financial loss and identifying the aspects of algorithmic performance that predominantly affect the risk of the contract.
translated by 谷歌翻译