超过30亿人缺乏护理皮肤病。AI诊断工具可能有助于早期皮肤癌检测;然而,大多数模型尚未在不同肤色或罕见疾病的图像上进行评估。为了解决这个问题,我们策划了多样化的皮肤科(DDI)DataSet - 这是一种具有不同皮肤色调的第一个公开的,病理证实的图像。我们展示了最先进的皮肤科AI模型在DDI上表现得很糟糕,ROC-AUC与模型的原始结果相比下降29-40%。我们发现暗肤色和罕见的疾病,在DDI数据集中提供良好,导致性能下降。此外,我们表明,无需多样化培训数据,我们表明最先进的强大培训方法无法纠正这些偏差。我们的研究结果确定了需要解决的皮肤病学AI中的重要弱点和偏见,以确保可靠应用于各种患者和所有疾病。
translated by 谷歌翻译
卷积神经网络在皮肤病变图像分类中表现出皮肤科医生水平的表现,但是由于训练数据中看到的偏见而引起的预测不规则性是在可能在广泛部署之前解决的问题。在这项工作中,我们使用两种领先的偏见未学习技术从自动化的黑色素瘤分类管道中稳健地消除了偏见和虚假变化。我们表明,可以使用这些偏置去除方法合理地减轻先前研究中介绍的手术标记和统治者引入的偏见。我们还证明了与用于捕获病变图像的成像仪器有关的杂化变异的概括优势。我们的实验结果提供了证据,表明上述偏见的影响大大降低了,不同的偏见技术在不同的任务方面具有出色的作用。
translated by 谷歌翻译
卷积神经网络在黑色素瘤和其他皮肤病变的分类中表现出人类水平的表现,但是在广泛部署之前,应解决不同肤色之间的明显性能差异。在这项工作中,我们提出了一种有效但有效的算法,用于自动标记病变图像的肤色,并使用它来注释基准ISIC数据集。随后,我们使用这些自动标签作为两种领先的偏见,无法减轻肤色偏差的目标。我们的实验结果提供了证据表明,我们的肤色检测算法优于现有的解决方案,并且脱胶肤色可以改善概括,并可以减少黑色素瘤检测到更轻和较深的肤色之间的性能差异。
translated by 谷歌翻译
Skin cancer is the most common malignancy in the world. Automated skin cancer detection would significantly improve early detection rates and prevent deaths. To help with this aim, a number of datasets have been released which can be used to train Deep Learning systems - these have produced impressive results for classification. However, this only works for the classes they are trained on whilst they are incapable of identifying skin lesions from previously unseen classes, making them unconducive for clinical use. We could look to massively increase the datasets by including all possible skin lesions, though this would always leave out some classes. Instead, we evaluate Siamese Neural Networks (SNNs), which not only allows us to classify images of skin lesions, but also allow us to identify those images which are different from the trained classes - allowing us to determine that an image is not an example of our training classes. We evaluate SNNs on both dermoscopic and clinical images of skin lesions. We obtain top-1 classification accuracy levels of 74.33% and 85.61% on clinical and dermoscopic datasets, respectively. Although this is slightly lower than the state-of-the-art results, the SNN approach has the advantage that it can detect out-of-class examples. Our results highlight the potential of an SNN approach as well as pathways towards future clinical deployment.
translated by 谷歌翻译
Training of neural networks for automated diagnosis of pigmented skin lesions is hampered by the small size and lack of diversity of available datasets of dermatoscopic images. We tackle this problem by releasing the HAM10000 ("Human Against Machine with 10000 training images") dataset. We collected dermatoscopic images from different populations acquired and stored by different modalities. Given this diversity we had to apply different acquisition and cleaning methods and developed semi-automatic workflows utilizing specifically trained neural networks. The final dataset consists of 10015 dermatoscopic images which are released as a training set for academic machine learning purposes and are publicly available through the ISIC archive. This benchmark dataset can be used for machine learning and for comparisons with human experts. Cases include a representative collection of all important diagnostic categories in the realm of pigmented lesions. More than 50% of lesions have been confirmed by pathology, while the ground truth for the rest of the cases was either follow-up, expert consensus, or confirmation by in-vivo confocal microscopy. Design Type(s)database creation objective • data integration objective • image format conversion objective Measurement Type(s) skin lesions Technology Type(s) digital curation Factor Type(s) diagnosis • Diagnostic Procedure • age • biological sex • animal body part Sample Characteristic(s) Homo sapiens • skin of body
translated by 谷歌翻译
早期检测改善了胰腺导管腺癌(PDAC)中的预后,但挑战,因为病变通常很小,并且在对比增强的计算断层扫描扫描(CE-CT)上定义很差。深度学习可以促进PDAC诊断,但是当前模型仍然无法识别小(<2cm)病变。在这项研究中,最先进的深度学习模型用于开发用于PDAC检测的自动框架,专注于小病变。另外,研究了整合周围解剖学的影响。 CE-CT来自119个病理验证的PDAC患者的群组和123名没有PDAC患者的队列用于训练NNUNET用于自动病变检测和分割(\ TEXTIT {NNUNET \ _t})。训练了两种额外的鼻塞,以研究解剖学积分的影响:(1)分割胰腺和肿瘤(\ yryit {nnunet \ _tp}),(2)分割胰腺,肿瘤和多周围的解剖结构(\ textit {nnunet \_多发性硬化症})。外部可公开的测试集用于比较三个网络的性能。 \ Textit {nnunet \ _ms}实现了最佳性能,在整个测试集的接收器操作特性曲线下的区域为0.91,肿瘤的0.88 <2cm,显示最先进的深度学习可以检测到小型PDAC和解剖信息的好处。
translated by 谷歌翻译
深度学习模型在自动化皮肤病变诊断方面取得了巨大成功。但是,在这些模型的预测中,种族差异通常不足以说明深色皮肤类型的病变,并且诊断准确性较低,因此受到很少的关注。在本文中,我们提出了Fairdisco,这是一个带有对比度学习的解开深度学习框架,它利用一个额外的网络分支来消除敏感属性,即从表示的表现形式中的皮肤型信息和另一个对比分支来增强特征提取。我们将Fairdisco与三种公平方法进行了比较,即重新采样,重新加权和属性 - 在两个新发布的具有不同皮肤类型的皮肤病变数据集上:Fitzpatrick17k和多样的皮肤病学图像(DDI)。我们为多个类别和敏感属性任务调整了两个基于公平的指标DPM和EOM,突出了皮肤病变分类中的皮肤型偏差。广泛的实验评估证明了Fairdisco的有效性,对皮肤病变分类任务的表现更公平,更出色。
translated by 谷歌翻译
皮肤病变的准确诊断是大型皮肤图像中的关键任务。在本研究中,我们形成了一种新型的图像特征,称为混合特征,其具有比单个方法特征更强的辨别能力。本研究涉及一种新技术,在训练过程期间,我们将手工特征或特征传递到完全连接的卷积神经网络(CNN)模型中。根据我们的文献回顾,直到现在,在培训过程中将手工特征注入CNN模型中,没有研究或调查对分类绩效的影响。此外,我们还调查了分割面膜的影响及其对整体分类性能的影响。我们的模型实现了92.3%的平衡式多条准确度,比典型的单一方法为深度学习的单一方法分类器架构优于6.8%。
translated by 谷歌翻译
最近的人工智能(AI)算法已在各种医学分类任务上实现了放射科医生级的性能。但是,只有少数研究涉及CXR扫描异常发现的定位,这对于向放射学家解释图像级分类至关重要。我们在本文中介绍了一个名为Vindr-CXR的可解释的深度学习系统,该系统可以将CXR扫描分类为多种胸部疾病,同时将大多数类型的关键发现本地化在图像上。 Vindr-CXR接受了51,485次CXR扫描的培训,并通过放射科医生提供的边界盒注释进行了培训。它表现出与经验丰富的放射科医生相当的表现,可以在3,000张CXR扫描的回顾性验证集上对6种常见的胸部疾病进行分类,而在接收器操作特征曲线(AUROC)下的平均面积为0.967(95%置信区间[CI]:0.958---------0.958------- 0.975)。 VINDR-CXR在独立患者队列中也得到了外部验证,并显示出其稳健性。对于具有14种类型病变的本地化任务,我们的自由响应接收器操作特征(FROC)分析表明,VINDR-CXR以每扫描确定的1.0假阳性病变的速率达到80.2%的敏感性。还进行了一项前瞻性研究,以衡量VINDR-CXR在协助六名经验丰富的放射科医生方面的临床影响。结果表明,当用作诊断工具时,提出的系统显着改善了放射科医生本身之间的一致性,平均Fleiss的Kappa的同意增加了1.5%。我们还观察到,在放射科医生咨询了Vindr-CXR的建议之后,在平均Cohen的Kappa中,它们和系统之间的一致性显着增加了3.3%。
translated by 谷歌翻译
尽管人工智能(AI)有望支持医疗保健提供者并提高医疗诊断的准确性,但数据集组成的缺乏透明度会使AI模型暴露于无意识和可避免的错误的可能性。特别是,皮肤病学条件的公共图像数据集很少包含有关肤色的信息。作为提高透明度的开始,AI研究人员已经从患者光敏性的度量到估算计算机视觉应用算法审核的肤色估算肤色(包括面部识别和皮肤病学诊断)的肤色估算肤色的度量来使用Fitzpatrick皮肤类型(FST)。为了了解图像上估计的FST注释的可变性,我们比较了来自教科书和在线皮肤病学试图的460张皮肤条件图像的多种FST注释方法。我们发现,三位经过董事会认证的皮肤科医生之间的评估者间可靠性与经过董事会认证的皮肤科医生和两种众包方法之间的评估者间可靠性相媲美。相比之下,我们发现转换为FST(ITA-FST)方法的单个类型学角度与专家注释相比,与专家的注释相关的注释相关的注释明显少于彼此相关。这些结果表明,基于ITA-FST的算法对于注释大规模图像数据集并不可靠,但是以人为本的,基于人群的协议可以可靠地将皮肤类型透明度添加到皮肤病学数据集中。此外,我们介绍了具有可调参数的动态共识协议的概念,包括专家审查,以提高人群的可见性并为未来的大型图像数据集的众包注释提供指导。
translated by 谷歌翻译
皮肤癌的发病率在全世界一直在稳步上升,这是一个严重的问题。早期诊断有可能大大减少疾病造成的伤害,但是,传统活检是一种劳动密集型和侵入性的手术。此外,许多农村社区不容易获得医院,并且不希望因为他们认为可能是小问题而访问一个。使用机器学习和深度学习进行皮肤癌分类可以提高可及性,并减少传统病变检测过程中涉及的不适程序。这些模型可以包裹在网络或移动应用程序中,并为更多的人口提供服务。在本文中,在常见皮肤病变的基准HAM10000数据集上测试了两个这样的模型。它们是带有分层k折的随机森林,并且是Mobilenetv2(在其余的论文中称为Mobilenet)。使用Tensorflow和Pytorch框架分别训练Mobilenet模型。深度学习和机器学习模型的并排比较,以及对在资源约束的移动环境中针对皮肤病变诊断的不同框架的相同深度学习模型的比较。结果表明,这些模型中的每一个在不同的分类任务上都更好。为了获得更大的总回忆,准确性和恶性黑色素瘤的检测,张量流动性是更好的选择。但是,为了检测非癌性皮肤病变,Pytorch Mobilenet被证明更好。当涉及到中等正确性的计算成本低时,随机森林是更好的算法。
translated by 谷歌翻译
While skin cancer classification has been a popular and valuable deep learning application for years, there has been little consideration of the context in which testing images are taken. Traditional melanoma classifiers rely on the assumption that their testing environments are analogous to the structured images on which they are trained. This paper combats this notion, arguing that mole size, a vital attribute in professional dermatology, is a red herring in automated melanoma detection. Although malignant melanomas are consistently larger than benign melanomas, this distinction proves unreliable and harmful when images cannot be contextually scaled. This implementation builds a custom model that eliminates size as a training feature to prevent overfitting to incorrect parameters. Additionally, random rotation and contrast augmentations are performed to simulate the real-world use of melanoma detection applications. Several custom models with varying forms of data augmentation are implemented to demonstrate the most significant features of the generalization abilities of mole classifiers. These implementations show that user unpredictability is crucial when utilizing such applications. The caution required when manually modifying data is acknowledged, as data loss and biased conclusions are necessary considerations in this process. Additionally, mole size inconsistency and its significance are discussed in both the dermatology and deep learning communities.
translated by 谷歌翻译
由于其在非洲以外的40多个国家 /地区的迅速传播,最近的蒙基托克斯爆发已成为公共卫生问题。由于与水痘和麻疹的相似之处,蒙基托斯在早期的临床诊断是具有挑战性的。如果不容易获得验证性聚合酶链反应(PCR)测试,那么计算机辅助检测蒙基氧基病变可能对可疑病例的监视和快速鉴定有益。只要有足够的训练示例,深度学习方法在自动检测皮肤病变中有效。但是,截至目前,此类数据集尚未用于猴蛋白酶疾病。在当前的研究中,我们首先开发``Monkeypox皮肤病变数据集(MSLD)。用于增加样本量,并建立了3倍的交叉验证实验。在下一步中,采用了几种预训练的深度学习模型,即VGG-16,Resnet50和InceptionV3用于对Monkeypox和Monkeypox和Monkeypox和其他疾病。还开发了三种型号的合奏。RESNET50达到了82.96美元(\ pm4.57 \%)$的最佳总体准确性,而VGG16和整体系统的准确性达到了81.48美元(\ pm6.87 \%)$和$ 79.26(\ pm1.05 \%)$。还开发了一个原型网络应用程序作为在线蒙基蛋白筛选工具。虽然该有限数据集的初始结果是有希望的,但需要更大的人口统计学多样化的数据集来进一步增强性增强性。这些的普遍性 楷模。
translated by 谷歌翻译
虽然基于深度学习的方法表明了皮肤病学诊断任务中的专家级表现,但它们还显示出对某些人口统计学属性,尤其是皮肤类型(例如,光对黑暗)的偏见,必须解决公平的关注。我们提出了圆圈,这是一种肤色不变的深度表示学习方法,可改善皮肤病变分类的公平性。通过利用正规化损失来鼓励具有相同诊断的图像但皮肤类型不同以具有相似的潜在表示,对圆圈进行了对图像进行分类的训练。通过广泛的评估和消融研究,我们证明了在跨越6种菲茨帕特里克皮肤类型和114种疾病的16K+图像上评估时,Circle的表现优于最先进的表现,使用分类精度,平等的机会差异(对于光与黑暗组),和归一化精度范围,这是我们提出的一种新措施,以评估多个皮肤类型组的公平性。
translated by 谷歌翻译
肾细胞癌(RCC)是一种常见的癌症,随着临床行为的变化。懒惰的RCC通常是低级的,没有坏死,可以在没有治疗的情况下监测。激进的RCC通常是高级的,如果未及时检测和治疗,可能会导致转移和死亡。虽然大多数肾脏癌在CT扫描中都检测到,但分级是基于侵入性活检或手术的组织学。确定对CT图像的侵略性在临床上很重要,因为它促进了风险分层和治疗计划。这项研究旨在使用机器学习方法来识别与病理学特征相关的放射学特征,以促进评估CT图像而不是组织学上的癌症侵略性。本文提出了一种新型的自动化方法,即按区域(Corrfabr)相关的特征聚集,用于通过利用放射学和相应的不对齐病理学图像之间的相关性来对透明细胞RCC进行分类。 CORRFABR由三个主要步骤组成:(1)特征聚集,其中从放射学和病理图像中提取区域级特征,(2)融合,放射学特征与病理特征相关的放射学特征在区域级别上学习,并且(3)在其中预测的地方学到的相关特征用于仅使用CT作为输入来区分侵略性和顽固的透明细胞RCC。因此,在训练过程中,Corrfabr从放射学和病理学图像中学习,但是在没有病理图像的情况下,Corrfabr将使用CORFABR将侵略性与顽固的透明细胞RCC区分开。 Corrfabr仅比放射学特征改善了分类性能,二进制分类F1分数从0.68(0.04)增加到0.73(0.03)。这证明了将病理疾病特征纳入CT图像上透明细胞RCC侵袭性的分类的潜力。
translated by 谷歌翻译
前列腺癌是美国男人的第二致致命癌症。虽然磁共振成像(MRI)越来越多地用于引导前列腺癌诊断的靶向活组织检查,但其效用仍然受到限制,因为假阳性和假否定的高率以及较低的读者协议。机器学习方法在前列腺MRI上检测和定位癌症可以帮助标准化放射科学诠释。然而,现有的机器学习方法不仅在模型架构中不等,而且还可以在用于模型培训的地面真理标签策略中。在这项研究中,我们比较不同的标记策略,即病理证实放射科标签,整个安装组织病理学图像上的病理学家标签,以及病变水平和像素级数字病理学家标签(先前验证了组织病理学图像上的深层学习算法以预测像素 - 整个安装组织病理学图像上的Gleason模式)。我们分析这些标签对训练有素的机器学习模型的性能的影响。我们的实验表明,用它们培训的(1)放射科标签和模型可能会错过癌症,或低估癌症程度,(2)与他们培训的数字病理学家标签和模型与病理学家标签有高度的一致性,而(3)用数字病理学家培训的模型标签在两种不同疾病分布的两种不同群组中达到最佳性能,而不管使用的模型建筑如何。数字病理学家标签可以减少与人类注释相关的挑战,包括劳动力,时间,和读者间变异性,并且可以通过使可靠的机器学习模型进行培训来检测和定位前列腺癌,帮助弥合前列腺放射学和病理学之间的差距在MRI。
translated by 谷歌翻译
机器学习和深度学习方法对医学的计算机辅助预测成为必需的,在乳房X光检查领域也具有越来越多的应用。通常,这些算法训练,针对特定任务,例如,病变的分类或乳房X乳线图的病理学状态的预测。为了获得患者的综合视图,随后整合或组合所有针对同一任务培训的模型。在这项工作中,我们提出了一种管道方法,我们首先培训一组个人,任务特定的模型,随后调查其融合,与标准模型合并策略相反。我们使用混合患者模型的深度学习模型融合模型预测和高级功能,以在患者水平上构建更强的预测因子。为此,我们提出了一种多分支深度学习模型,其跨不同任务和乳房X光检查有效地融合了功能,以获得全面的患者级预测。我们在公共乳房X线摄影数据,即DDSM及其策划版本CBIS-DDSM上培训并评估我们的全部管道,并报告AUC评分为0.962,以预测任何病变和0.791的存在,以预测患者水平对恶性病变的存在。总体而言,与标准模型合并相比,我们的融合方法将显着提高AUC得分高达0.04。此外,通过提供与放射功能相关的特定于任务的模型结果,提供了与放射性特征相关的任务特定模型结果,我们的管道旨在密切支持放射科学家的阅读工作流程。
translated by 谷歌翻译
and the CAMELYON16 Consortium IMPORTANCE Application of deep learning algorithms to whole-slide pathology images can potentially improve diagnostic accuracy and efficiency.OBJECTIVE Assess the performance of automated deep learning algorithms at detecting metastases in hematoxylin and eosin-stained tissue sections of lymph nodes of women with breast cancer and compare it with pathologists' diagnoses in a diagnostic setting.DESIGN, SETTING, AND PARTICIPANTS Researcher challenge competition (CAMELYON16) to develop automated solutions for detecting lymph node metastases (November 2015-November 2016). A training data set of whole-slide images from 2 centers in the Netherlands with (n = 110) and without (n = 160) nodal metastases verified by immunohistochemical staining were provided to challenge participants to build algorithms. Algorithm performance was evaluated in an independent test set of 129 whole-slide images (49 with and 80 without metastases). The same test set of corresponding glass slides was also evaluated by a panel of 11 pathologists with time constraint (WTC) from the Netherlands to ascertain likelihood of nodal metastases for each slide in a flexible 2-hour session, simulating routine pathology workflow, and by 1 pathologist without time constraint (WOTC).EXPOSURES Deep learning algorithms submitted as part of a challenge competition or pathologist interpretation. MAIN OUTCOMES AND MEASURESThe presence of specific metastatic foci and the absence vs presence of lymph node metastasis in a slide or image using receiver operating characteristic curve analysis. The 11 pathologists participating in the simulation exercise rated their diagnostic confidence as definitely normal, probably normal, equivocal, probably tumor, or definitely tumor. RESULTSThe area under the receiver operating characteristic curve (AUC) for the algorithms ranged from 0.556 to 0.994. The top-performing algorithm achieved a lesion-level, true-positive fraction comparable with that of the pathologist WOTC (72.4% [95% CI, 64.3%-80.4%]) at a mean of 0.0125 false-positives per normal whole-slide image. For the whole-slide image classification task, the best algorithm (AUC, 0.994 [95% CI, 0.983-0.999]) performed significantly better than the pathologists WTC in a diagnostic simulation (mean AUC, 0.810 [range, 0.738-0.884]; P < .001). The top 5 algorithms had a mean AUC that was comparable with the pathologist interpreting the slides in the absence of time constraints (mean AUC, 0.960 [range, 0.923-0.994] for the top 5 algorithms vs 0.966 [95% CI, 0.927-0.998] for the pathologist WOTC). CONCLUSIONS AND RELEVANCEIn the setting of a challenge competition, some deep learning algorithms achieved better diagnostic performance than a panel of 11 pathologists participating in a simulation exercise designed to mimic routine pathology workflow; algorithm performance was comparable with an expert pathologist interpreting whole-slide images without time constraints. Whether this appro
translated by 谷歌翻译
最近显示外部眼睛照片显示出糖尿病性视网膜疾病和HBA1C升高的迹象。在本文中,我们评估外部眼睛照片是否包含有关其他系统性医疗状况的信息。我们开发了一个深度学习系统(DLS),该系统将外部眼睛的照片作为输入,并预测多个全身参数,例如与肝脏有关的参数(白蛋白,AST);肾脏(EGFR使用无种族的2021 CKD-EPI肌酐方程,尿液ACR);骨与矿物质(钙);甲状腺(TSH);和血数(HGB,WBC,血小板)。开发利用了49,015例糖尿病患者的151,237张图像,在加利福尼亚州洛杉矶县的11个地点接受糖尿病眼镜筛查。评估重点是9个预先指定的全身参数,并利用了3个验证集(a,b,c),涵盖了28,869名患有和没有糖尿病的患者,在加利福尼亚州洛杉矶县和大亚特兰大地区的3个独立地点进行了眼睛筛查。我们将结合了可用临床人口统计学变量的基线模型(例如年龄,性别,种族/种族,糖尿病年)进行了比较。相对于基线,DLS在检测AST> 36,钙<8.6,egfr <60,HGB <11,血小板<150,ACR> = 300和WBC <4时,在检测AST> 36,钙<8.6,Egfr <60,HGB <60,HGB <60,calcium <8.6,Egfr <60,calcium <8.6和wbc <4时,达到了统计学上的显着性能,并且类似于开发集的人口),其中DLS的AUC超过基线的AUC,增长了5.2-19.4%。在验证集B和C方面,与开发集相比,患者人群的差异很大,DLS的表现优于ACR> = 300的基线,而HGB <11升至7.3-13.2%。我们的发现提供了进一步的证据,表明外部眼睛照片包含跨越多器官系统的全身健康生物标志物。需要进一步的工作来研究这些生物标志物是否以及如何转化为临床影响。
translated by 谷歌翻译
深度学习失败案例很丰富,尤其是在医疗区域。最近对分布式概括的研究已在控制良好的合成数据集上进行了大量发展,但它们不代表医学成像环境。我们提出了一条依赖伪像的管道的管道,以便为具有挑战性的皮肤病变分析环境提供概括评估和偏见。首先,我们将数据分为越来越高的偏见训练和测试集的水平,以更好地概括评估。然后,我们基于皮肤病变伪影创建环境,以实现域的概括方法。最后,经过强大的训练,我们执行了测试时间的偏差程序,从而减少了推理图像中的虚假特征。我们的实验表明,我们的管道改善了偏见的情况下的性能指标,并在使用解释方法时避免了伪像。尽管如此,在评估分布数据中的此类模型时,他们不喜欢临床上的功能。取而代之的是,只有在培训中呈现类似工件的测试集中的性能得到了改善,这表明模型学会忽略了已知的伪像。我们的结果引起了人们的关注,即对单个方面的偏见模型可能不足以容纳皮肤病变分析。
translated by 谷歌翻译