基础模型在AI的所有应用中都被认为是一个突破性的突破性,有望进行功能提取的可重复使用的机制,从而减轻了对特定于任务的预测模型的大量高质量培训数据的需求。但是,基础模型可能可能编码甚至加强历史数据集中存在的现有偏见。鉴于仔细检查基础模型的能力有限,尚不清楚机会是否超过了临床决策等安全关键应用中的风险。在我们对最近发布且可公开可用的胸部X射线基础模型的统计偏差分析中,我们发现了关注的原因,因为该模型似乎编码了受保护特征,包括生物学性别和种族认同,这可能会导致下游亚组的各个子群体不同申请。尽管针对医疗保健应用的基础模型的研究处于早期阶段,但我们认为,让社区意识到这些风险以避免伤害很重要。
translated by 谷歌翻译
已经重新强调,使用AI用于临床决策可以放大健康差异。机器学习模型可以拾取患者的种族特性和临床结果之间的不希望的相关性。这种相关性通常存在于用于模型开发的(历史)数据中。疾病检测模型中报告偏差有所增加。除了来自所营业的人群的数据的稀缺之外,还讨论了如何编码这些偏差以及如何减少甚至去除不同性能的少数人。担心算法可以识别患者特征,例如生物学性别或种族身份,然后在进行预测时直接或间接地使用这些信息。但它仍然尚不清楚我们如何建立这些信息是否实际使用。本文旨在通过探索这些问题,探索这些问题,探讨了对机器学习模型的内部工作进行了直观的基于图像的疾病的疾病的方法。我们还调查如何解决性能差异并找到自动阈值选择,以实现有效且有问题的技术,导致模型具有跨子组的具有可比真实和误频率的模型。我们的调查结果要求进一步研究,以更好地了解性能差异的根本原因。
translated by 谷歌翻译
尽管辐射学家常规使用电子健康记录(EHR)数据来形成临床历史并通知图像解释,但医学成像的大多数深度学习架构是单向的,即,它们只能从像素级信息中学习特征。最近的研究揭示了如何从像素数据中恢复种族,仅突出显示模型中的严重偏差的可能性,这未能考虑人口统计数据和其他关键患者属性。然而,缺乏捕获临床背景的成像数据集,包括人口统计学和纵向病史,具有偏远的多式化医学成像。为了更好地评估这些挑战,我们呈现RadFusion,一种多式联运,基准数据集1794名患者的相应EHR数据和高分辨率计算断层扫描(CT)扫描标记为肺栓塞。我们评估了几个代表性的多模式融合模型,并在受保护的亚组中,例如性别,种族/种族,年龄的年龄。我们的研究结果表明,集成成像和EHR数据可以提高分类性能和鲁棒性,而不会在人口群之间的真正阳性率下引入大的差异。
translated by 谷歌翻译
深度学习已被证明可以准确评估“隐藏”表型,并从传统临床医生对医学成像的解释之外的医学成像中预测生物标志物。鉴于人工智能(AI)模型的黑匣子性质,应在将模型应用于医疗保健时谨慎,因为预测任务可能会因疾病和患者人群的人口统计学差异而短路。使用来自两个医疗保健系统的大超声心动图数据集,我们测试使用深度学习算法从心脏超声图像中预测年龄,种族和性别,并评估各种混杂变量的影响。我们培训了基于视频的卷积神经网络,以预测年龄,性别和种族。我们发现,深度学习模型能够确定年龄和性别,同时无法可靠地预测种族。不考虑类别之间的混淆差异,AI模型预测性别为0.85(95%CI 0.84-0.86),年龄为9.12年的平均绝对误差为9.12年(95%CI 9.00-9.25),从AUC进行竞赛, 0.63-0.71。在预测种族时,我们表明,在培训数据中调整混杂变量(性别)的比例会显着影响AUC(从0.57到0.84),而在训练性别预测模型中,调整混杂因素(Race)并未实质性更改AUC(0.81-0.83)。这表明该模型在预测种族方面的表现很大一部分可能来自AI检测到的混杂功能。进一步的工作仍然是确定与人口统计信息相关的特定成像功能,并更好地了解医学AI中人口统计学识别的风险,因为它与潜在的偏见和差异有关。
translated by 谷歌翻译
The availability of large public datasets and the increased amount of computing power have shifted the interest of the medical community to high-performance algorithms. However, little attention is paid to the quality of the data and their annotations. High performance on benchmark datasets may be reported without considering possible shortcuts or artifacts in the data, besides, models are not tested on subpopulation groups. With this work, we aim to raise awareness about shortcuts problems. We validate previous findings, and present a case study on chest X-rays using two publicly available datasets. We share annotations for a subset of pneumothorax images with drains. We conclude with general recommendations for medical image classification.
translated by 谷歌翻译
在过去几年中,在医疗保健中使用人工智能(AI)已成为一个非常活跃的研究领域。虽然在图像分类任务中取得了重大进展,但实际上只能部署一些AI方法。目前积极使用临床AI模型的主要障碍是这些模型的可信度。这些复杂模型更常见,是一种黑色盒子,其中产生了有希望的结果。然而,当仔细检查时,这些模型开始在决策期间揭示隐式偏差,例如检测种族并对民族群体和群体具有偏见。在我们正在进行的研究中,我们开发了一个两步的逆势脱叠方法,部分学习可以减少种族差异,同时保留目标任务的性能。该方法已经在两个独立的医学图像案例研究 - 胸X射线和乳房X光检查中进行了评估,并在保持目标性能的同时表现出偏差减少的承诺。
translated by 谷歌翻译
最近的人工智能(AI)算法已在各种医学分类任务上实现了放射科医生级的性能。但是,只有少数研究涉及CXR扫描异常发现的定位,这对于向放射学家解释图像级分类至关重要。我们在本文中介绍了一个名为Vindr-CXR的可解释的深度学习系统,该系统可以将CXR扫描分类为多种胸部疾病,同时将大多数类型的关键发现本地化在图像上。 Vindr-CXR接受了51,485次CXR扫描的培训,并通过放射科医生提供的边界盒注释进行了培训。它表现出与经验丰富的放射科医生相当的表现,可以在3,000张CXR扫描的回顾性验证集上对6种常见的胸部疾病进行分类,而在接收器操作特征曲线(AUROC)下的平均面积为0.967(95%置信区间[CI]:0.958---------0.958------- 0.975)。 VINDR-CXR在独立患者队列中也得到了外部验证,并显示出其稳健性。对于具有14种类型病变的本地化任务,我们的自由响应接收器操作特征(FROC)分析表明,VINDR-CXR以每扫描确定的1.0假阳性病变的速率达到80.2%的敏感性。还进行了一项前瞻性研究,以衡量VINDR-CXR在协助六名经验丰富的放射科医生方面的临床影响。结果表明,当用作诊断工具时,提出的系统显着改善了放射科医生本身之间的一致性,平均Fleiss的Kappa的同意增加了1.5%。我们还观察到,在放射科医生咨询了Vindr-CXR的建议之后,在平均Cohen的Kappa中,它们和系统之间的一致性显着增加了3.3%。
translated by 谷歌翻译
机器学习(ML)具有改善医疗保健的巨大希望,但至关重要的是要确保其使用不会传播或扩大健康差异。一个重要的步骤是表征ML模型的(联合国)公平性 - 它们在人群的亚组中的表现趋势不同,并了解其潜在机制。当ML模拟培训数据中不正确相关性的基本预测时,就会出现算法不公平,快捷学习的潜在驱动力。但是,诊断这种现象很困难,尤其是当敏感属性与疾病有因果关系时。使用多任务学习,我们提出了第一种评估和减轻快捷方式学习的方法,作为临床ML系统公平评估的一部分,并证明了其在放射学和皮肤病学中的临床任务中的应用。最后,我们的方法揭示了捷径对不公平不公平负责的情况,强调了对医疗AI中的公平缓解的必要性。
translated by 谷歌翻译
医学中的机器学习利用了财富的医疗保健数据来提取知识,促进临床决策,最终改善护理。然而,在缺乏人口统计分集的数据集上培训的ML模型可以在适用于不足的人群时产生次优绩效(例如少数民族,社会经济地位较低),因此延续了健康差异。在这项研究中,我们评估了四种型分类,以预测高氯血症 - 一种经常由ICU人口中的侵袭性流体给药的条件 - 并将其在种族,性别和保险亚组中进行比较。我们观察到,除了基于实验室的患者的模型性能之外,还要添加社会决定因素特征。 40个模型 - 亚组中的40分,亚组测试产生了显着不同的AUC分数,提示在将ML模型应用于社会决定簇子组时的差异。我们敦促未来的研究人员设计主动调整潜在偏见的模型,并包括他们研究中的子组报告。
translated by 谷歌翻译
胸部射线照相是一种相对便宜,广泛的医疗程序,可传达用于进行诊断决策的关键信息。胸部X射线几乎总是用于诊断呼吸系统疾病,如肺炎或最近的Covid-19。在本文中,我们提出了一个自我监督的深神经网络,其在未标记的胸部X射线数据集上掠夺。学习的陈述转移到下游任务 - 呼吸系统疾病的分类。在四个公共数据集获得的结果表明,我们的方法在不需要大量标记的培训数据的情况下产生竞争力。
translated by 谷歌翻译
A significant level of stigma and inequality exists in mental healthcare, especially in under-served populations, which spreads through collected data. When not properly accounted for, machine learning (ML) models learned from data can reinforce the structural biases already present in society. Here, we present a systematic study of bias in ML models designed to predict depression in four different case studies covering different countries and populations. We find that standard ML approaches show regularly biased behaviors. However, we show that standard mitigation techniques, and our own post-hoc method, can be effective in reducing the level of unfair bias. We provide practical recommendations to develop ML models for depression risk prediction with increased fairness and trust in the real world. No single best ML model for depression prediction provides equality of outcomes. This emphasizes the importance of analyzing fairness during model selection and transparent reporting about the impact of debiasing interventions.
translated by 谷歌翻译
在计算机视觉中,在评估深度学习模型中的潜在人口偏见方面具有重要的研究兴趣。这种偏见的主要原因之一是训练数据中的失衡。在医学成像中,偏见的潜在影响可以说要大得多,因此兴趣较小。在医学成像管道中,对感兴趣的结构的分割在估计随后用于告知患者管理的临床生物标志物方面起着重要作用。卷积神经网络(CNN)开始用于自动化此过程。我们介绍了训练集失衡对种族和性别偏见在基于CNN的细分中的影响的首次系统研究。我们专注于从短轴Cine Cine心脏磁共振图像中对心脏结构进行分割,并训练具有不同种族/性别不平衡水平的CNN分割模型。我们发现性实验没有明显的偏见,但是在两个单独的种族实验中有明显的偏见,强调需要考虑健康数据集中不同人口组的足够代表。
translated by 谷歌翻译
最近显示外部眼睛照片显示出糖尿病性视网膜疾病和HBA1C升高的迹象。在本文中,我们评估外部眼睛照片是否包含有关其他系统性医疗状况的信息。我们开发了一个深度学习系统(DLS),该系统将外部眼睛的照片作为输入,并预测多个全身参数,例如与肝脏有关的参数(白蛋白,AST);肾脏(EGFR使用无种族的2021 CKD-EPI肌酐方程,尿液ACR);骨与矿物质(钙);甲状腺(TSH);和血数(HGB,WBC,血小板)。开发利用了49,015例糖尿病患者的151,237张图像,在加利福尼亚州洛杉矶县的11个地点接受糖尿病眼镜筛查。评估重点是9个预先指定的全身参数,并利用了3个验证集(a,b,c),涵盖了28,869名患有和没有糖尿病的患者,在加利福尼亚州洛杉矶县和大亚特兰大地区的3个独立地点进行了眼睛筛查。我们将结合了可用临床人口统计学变量的基线模型(例如年龄,性别,种族/种族,糖尿病年)进行了比较。相对于基线,DLS在检测AST> 36,钙<8.6,egfr <60,HGB <11,血小板<150,ACR> = 300和WBC <4时,在检测AST> 36,钙<8.6,Egfr <60,HGB <60,HGB <60,calcium <8.6,Egfr <60,calcium <8.6和wbc <4时,达到了统计学上的显着性能,并且类似于开发集的人口),其中DLS的AUC超过基线的AUC,增长了5.2-19.4%。在验证集B和C方面,与开发集相比,患者人群的差异很大,DLS的表现优于ACR> = 300的基线,而HGB <11升至7.3-13.2%。我们的发现提供了进一步的证据,表明外部眼睛照片包含跨越多器官系统的全身健康生物标志物。需要进一步的工作来研究这些生物标志物是否以及如何转化为临床影响。
translated by 谷歌翻译
受益于医疗保健数据的数字化和计算能力的发展,机器学习方法越来越多地用于医疗领域。在医疗保健机器学习中已经确定了公平性问题,导致对有限医疗资源的不公平分配或某些群体的健康风险过多。因此,解决公平问题最近引起了医疗保健社区的越来越多的关注。然而,机器学习的机器学习与机器学习中的公平性的交集仍在研究中。在这篇综述中,我们通过暴露公平问题,总结可能的偏见,整理缓解方法并指出挑战以及未来的机会来建立桥梁。
translated by 谷歌翻译
域移位,训练与测试数据特征之间的不匹配,导致多源成像方案中的预测性能显着降低。在医学成像中,不同网站的人口,扫描仪和采集协议的异质性提出了一个重要的领域移位挑战,并限制了机器学习模型的广泛临床采用。统一方法旨在学习数据不变的表示这些差异是解决域移位的普遍工具,但它们通常会导致预测精度的劣化。本文对问题进行了不同的视角:我们拥抱这种不和谐的数据并设计一个简单但有效的解决域名框架。根据我们的理论参数,关键的想法是在源数据上构建备用分类器并将此模型调整为新数据。可以为站点内域适应微调分类器。我们还可以在目标数据上处理我们无法访问地面真理标签的情况;我们展示如何使用辅助任务来适应;这些任务雇用协变量,如年龄,性别和种族,这很容易获得,但仍然与主要任务相关联。我们在大规模现实世界3D脑MRI数据集上展示了站点内部域适应和站点间域推广的大量改进,用于分类阿尔茨海默病和精神分裂症。
translated by 谷歌翻译
公平性是一个标准,重点是评估不同人口组的算法性能,它引起了自然语言处理,推荐系统和面部识别的关注。由于医学图像样本中有很多人口统计学属性,因此了解公平的概念,熟悉不公平的缓解技术,评估算法的公平程度并认识到医疗图像分析(媒体)中的公平问题中的挑战很重要。在本文中,我们首先给出了公平性的全面和精确的定义,然后通过在媒体中引入当前使用的技术中使用的技术。之后,我们列出了包含人口统计属性的公共医疗图像数据集,以促进公平研究并总结有关媒体公平性的当前算法。为了帮助更好地理解公平性,并引起人们对媒体中与公平性有关的问题的关注,进行了实验,比较公平性和数据失衡之间的差异,验证各种媒体任务中不公平的存在,尤其是在分类,细分和检测以及评估不公平缓解算法的有效性。最后,我们以媒体公平性的机会和挑战得出结论。
translated by 谷歌翻译
眼睛的临床诊断是对多种数据模式进行的,包括标量临床标签,矢量化生物标志物,二维底面图像和三维光学相干性层析成像(OCT)扫描。临床从业者使用所有可用的数据模式来诊断和治疗糖尿病性视网膜病(DR)或糖尿病黄斑水肿(DME)等眼部疾病。在眼科医学领域启用机器学习算法的使用需要研究治疗期内所有相关数据之间的关系和相互作用。现有的数据集受到限制,因为它们既不提供数据,也没有考虑数据模式之间的显式关系建模。在本文中,我们介绍了用于研究以上限制的视觉眼睛语义(橄榄)数据集的眼科标签。这是第一个OCT和近IIR眼底数据集,其中包括临床标签,生物标记标签,疾病标签和时间序列的患者治疗信息,来自相关临床试验。该数据集由1268个近红外图像组成,每个图像至少具有49个10月扫描和16个生物标志物,以及4个临床标签和DR或DME的疾病诊断。总共有96张眼睛的数据在至少两年的时间内平均,每只眼睛平均治疗66周和7次注射。我们在医学图像分析中为橄榄数据集进行了橄榄数据集的实用性,并为核心和新兴机器学习范式提供了基准和具体研究方向。
translated by 谷歌翻译
Pneumonia, a respiratory infection brought on by bacteria or viruses, affects a large number of people, especially in developing and impoverished countries where high levels of pollution, unclean living conditions, and overcrowding are frequently observed, along with insufficient medical infrastructure. Pleural effusion, a condition in which fluids fill the lung and complicate breathing, is brought on by pneumonia. Early detection of pneumonia is essential for ensuring curative care and boosting survival rates. The approach most usually used to diagnose pneumonia is chest X-ray imaging. The purpose of this work is to develop a method for the automatic diagnosis of bacterial and viral pneumonia in digital x-ray pictures. This article first presents the authors' technique, and then gives a comprehensive report on recent developments in the field of reliable diagnosis of pneumonia. In this study, here tuned a state-of-the-art deep convolutional neural network to classify plant diseases based on images and tested its performance. Deep learning architecture is compared empirically. VGG19, ResNet with 152v2, Resnext101, Seresnet152, Mobilenettv2, and DenseNet with 201 layers are among the architectures tested. Experiment data consists of two groups, sick and healthy X-ray pictures. To take appropriate action against plant diseases as soon as possible, rapid disease identification models are preferred. DenseNet201 has shown no overfitting or performance degradation in our experiments, and its accuracy tends to increase as the number of epochs increases. Further, DenseNet201 achieves state-of-the-art performance with a significantly a smaller number of parameters and within a reasonable computing time. This architecture outperforms the competition in terms of testing accuracy, scoring 95%. Each architecture was trained using Keras, using Theano as the backend.
translated by 谷歌翻译
疾病鉴定是观察健康研究中的核心,常规活动。队列影响下游分析,例如如何表征病情,定义患者的风险以及研究哪些治疗方法。因此,至关重要的是要确保选定的队列代表所有患者,而与他们的人口统计学或社会决定因素无关。虽然在构建可能影响其公平性的表型定义时有多种潜在的偏见来源,但在表型领域中考虑不同定义在患者亚组中的影响并不是标准。在本文中,我们提出了一组最佳实践来评估表型定义的公平性。我们利用预测模型中常用的既定公平指标,并将其与常用的流行病学队列描述指标联系起来。我们描述了一项针对克罗恩病和2型糖尿病的实证研究,每个研究都有从两组患者亚组(性别和种族)中从文献中获取的多种表型定义。我们表明,根据不同的公平指标和亚组,不同的表型定义表现出较大和不同的性能。我们希望拟议的最佳实践可以帮助构建公平和包容的表型定义。
translated by 谷歌翻译
转移学习已成为减轻医疗分类任务中缺乏标记数据的标准做法。虽然FineEning使用受监督的想象佩尔预押的下游任务预磨损的功能是简单的,并且在许多作品中进行了广泛的调查,但对自我监督预测的有用性很少有研究。在本文中,我们评估了通过从三种自我监督技术(SIMCLR,SWAV和DINO)对所选医疗分类任务的三种自我监控技术(SIMCLRR,SWAV和DINO)初始化的模型的性能来评估想象成自我监督的可转换性。所选择的任务涵盖Sentinel腋窝淋巴结图像中的肿瘤检测,眼底图像中的糖尿病视网膜病变分类以及胸部X射线图像中的多种病理条件分类。我们展示了自我监督的佩戴模型产生比其监督对应物更丰富的嵌入式,这鉴于线性评估和FineTuning均有益处下游任务。例如,考虑到在织物上的数据的线性评估,我们在糖尿病视网膜病变分类任务中看到高达14.79%的提高,肿瘤分类任务中的5.4%,肺炎中的7.03%AUC检测和9.4%的AUC在胸部X射线的病理条件下检测。此外,我们将动态视觉元嵌入(DVME)引入端到端的转移学习方法,融合来自多种型号的佩尔净化的嵌入物。我们表明,与使用单个掠过的模型方法相比,DVME获得的集体表示导致所选任务的性能的显着改进,并且可以推广到预磨料模型的任何组合。
translated by 谷歌翻译