The availability of large-scale chest X-ray datasets is a requirement for developing well-performing deep learning-based algorithms in thoracic abnormality detection and classification. However, biometric identifiers in chest radiographs hinder the public sharing of such data for research purposes due to the risk of patient re-identification. To counteract this issue, synthetic data generation offers a solution for anonymizing medical images. This work employs a latent diffusion model to synthesize an anonymous chest X-ray dataset of high-quality class-conditional images. We propose a privacy-enhancing sampling strategy to ensure the non-transference of biometric information during the image generation process. The quality of the generated images and the feasibility of serving as exclusive training data are evaluated on a thoracic abnormality classification task. Compared to a real classifier, we achieve competitive results with a performance gap of only 3.5% in the area under the receiver operating characteristic curve.
translated by 谷歌翻译
出于研究目的,在发布大量此类数据集之前,胸部X光片的强大而可靠的匿名化构成了必不可少的步骤。传统的匿名过程是通过在图像中使用黑匣子中遮盖个人信息并删除或替换元信息来执行的。但是,这种简单的措施将生物识别信息保留在胸部X光片中,从而使患者可以通过连锁攻击重新识别。因此,我们看到迫切需要混淆图像中出现的生物特征识别信息。据我们所知,我们提出了第一种基于深度学习的方法,以目标匿名化胸部X光片,同时维护数据实用程序以诊断和机器学习目的。我们的模型架构是三个独立神经网络的组成,当共同使用时,它可以学习能够阻碍患者重新识别的变形场。通过消融研究研究每个组件的个体影响。 CHESTX-RAY14数据集的定量结果显示,在接收器操作特征曲线(AUC)下,患者重新识别从81.8%降低至58.6%,对异常分类性能的影响很小。这表明能够保留潜在的异常模式,同时增加患者隐私。此外,我们将提出的基于学习的深度匿名方法与差异化图像像素化进行比较,并证明了我们方法在解决胸部X光片的隐私性权衡权衡方面的优越性。
translated by 谷歌翻译
The success of Deep Learning applications critically depends on the quality and scale of the underlying training data. Generative adversarial networks (GANs) can generate arbitrary large datasets, but diversity and fidelity are limited, which has recently been addressed by denoising diffusion probabilistic models (DDPMs) whose superiority has been demonstrated on natural images. In this study, we propose Medfusion, a conditional latent DDPM for medical images. We compare our DDPM-based model against GAN-based models, which constitute the current state-of-the-art in the medical domain. Medfusion was trained and compared with (i) StyleGan-3 on n=101,442 images from the AIROGS challenge dataset to generate fundoscopies with and without glaucoma, (ii) ProGAN on n=191,027 from the CheXpert dataset to generate radiographs with and without cardiomegaly and (iii) wGAN on n=19,557 images from the CRCMS dataset to generate histopathological images with and without microsatellite stability. In the AIROGS, CRMCS, and CheXpert datasets, Medfusion achieved lower (=better) FID than the GANs (11.63 versus 20.43, 30.03 versus 49.26, and 17.28 versus 84.31). Also, fidelity (precision) and diversity (recall) were higher (=better) for Medfusion in all three datasets. Our study shows that DDPM are a superior alternative to GANs for image synthesis in the medical domain.
translated by 谷歌翻译
近年来,随着深度学习技术的不断增长和不断增长的潜力,公开可用的医疗数据集成为实现医疗领域诊断算法的可重现开发的关键因素。医疗数据包含敏感的患者相关信息,因此通常通过删除患者识别符(例如出版前的患者名称)来匿名。据我们所知,我们是第一个表明训练有素的深度学习系统能够从胸部X射线数据中恢复患者身份的人。我们使用公开可用的大规模ChestX-Ray14数据集证明了这一点,该数据集收集了来自30,805名独特患者的112,120个额叶视图胸部X射线图像。我们的验证系统能够确定两个正面胸部X射线图像是否来自同一人,其AUC为0.9940,分类精度为95.55%。我们进一步强调,拟议的系统即使在初次扫描后的十到十年都可以揭示同一个人。在采用检索方法时,我们会观察到0.9748的地图@r和0.9963的Precision@1。此外,当评估我们在外部数据集上的训练网络(例如CHEXPERT和COVID-19图像数据收集)上,我们达到了高达0.9870的AUC,最高为0.9444的Precision@1的精度为0.9444。基于此高识别率,潜在的攻击者可能会泄漏与患者相关的信息,并另外交叉引用图像以获取更多信息。因此,有敏感内容落入未经授权的手或反对有关患者的意愿的巨大风险。尤其是在Covid-19大流行期间,已经发布了许多胸部X射线数据集以推动研究。因此,此类数据可能容易受到基于深度学习的重新识别算法的潜在攻击。
translated by 谷歌翻译
病理学家对患病组织的视觉微观研究一直是一个多世纪以来癌症诊断和预后的基石。最近,深度学习方法在组织图像的分析和分类方面取得了重大进步。但是,关于此类模型在生成组织病理学图像的实用性方面的工作有限。这些合成图像在病理学中有多种应用,包括教育,熟练程度测试,隐私和数据共享的公用事业。最近,引入了扩散概率模型以生成高质量的图像。在这里,我们首次研究了此类模型的潜在用途以及优先的形态加权和颜色归一化,以合成脑癌的高质量组织病理学图像。我们的详细结果表明,与生成对抗网络相比,扩散概率模型能够合成各种组织病理学图像,并且具有较高的性能。
translated by 谷歌翻译
在很大程度上,由于隐私问题,很难培训有关疾病诊断或图像分割的医学图像的计算机视觉相关算法。因此,高度寻求生成图像模型以促进数据共享。但是,需要研究3-D生成模型,需要研究其隐私泄漏。我们使用在肿瘤面膜上进行条件研究的头和颈宠物图像介绍了3D生成模型横向gan(TRGAN)。我们为模型定义了图像保真度,实用性和隐私的定量度量。在培训过程中评估了这些指标,以确定理想的保真度,公用事业和隐私权权衡,并建立这些参数之间的关系。我们表明,Trgan的歧视者很容易受到攻击,并且攻击者可以识别哪些样品在训练中几乎完全准确(AUC = 0.99)。我们还表明,仅访问发电机的攻击者无法可靠地分类样品是否已用于训练(AUC = 0.51)。这表明Trgan发电机(而不是歧视者)可以用于共享具有最小隐私风险的合成3-D PET数据,同时保持良好的效用和保真度。
translated by 谷歌翻译
对从FFPE组织块制备的载玻片上切割的染色组织的光学显微镜检查是组织诊断的金标准。此外,任何病理学家的诊断能力和专业知识都取决于他们在常见和稀有变体形态上的直接经验。最近,深度学习方法已被用来成功显示此类任务的高度准确性。但是,获得专家级注释的图像是一项昂贵且耗时的任务,人为合成的组织学图像可能会非常有益。在这里,我们提出了一种方法,不仅可以生成组织学图像,从而重现普通疾病的诊断形态特征,而且还提供了产生新的和罕见形态的用户能力。我们的方法涉及开发一种生成的对抗网络模型,该模型综合了由类标签约束的病理图像。我们研究了该框架合成现实的前列腺和结肠组织图像的能力,并评估了这些图像在增强机器学习方法的诊断能力以及通过一组经验丰富的解剖病理学家的可用性方面的实用性。我们的框架生成的合成数据在训练深度学习模型中进行了类似于实际数据进行诊断。病理学家无法区分真实图像和合成图像,并显示出相似的前列腺癌分级的观察者间一致性。我们扩展了从结肠活检中显着复杂图像的方法,并表明也可以再现了此类组织中的复杂微环境。最后,我们介绍了用户通过简单的语义标签标记来生成深层组织学图像的能力。
translated by 谷歌翻译
Recent advances in computer vision have shown promising results in image generation. Diffusion probabilistic models in particular have generated realistic images from textual input, as demonstrated by DALL-E 2, Imagen and Stable Diffusion. However, their use in medicine, where image data typically comprises three-dimensional volumes, has not been systematically evaluated. Synthetic images may play a crucial role in privacy preserving artificial intelligence and can also be used to augment small datasets. Here we show that diffusion probabilistic models can synthesize high quality medical imaging data, which we show for Magnetic Resonance Images (MRI) and Computed Tomography (CT) images. We provide quantitative measurements of their performance through a reader study with two medical experts who rated the quality of the synthesized images in three categories: Realistic image appearance, anatomical correctness and consistency between slices. Furthermore, we demonstrate that synthetic images can be used in a self-supervised pre-training and improve the performance of breast segmentation models when data is scarce (dice score 0.91 vs. 0.95 without vs. with synthetic data).
translated by 谷歌翻译
生成模型生成的合成数据可以增强医学成像中渴望数据深度学习模型的性能和能力。但是,(1)(合成)数据集的可用性有限,并且(2)生成模型训练很复杂,这阻碍了它们在研究和临床应用中的采用。为了减少此入口障碍,我们提出了Medigan,Medigan是一站式商店,用于验证的生成型号,该型号是开源框架 - 不合骨python图书馆。 Medigan允许研究人员和开发人员仅在几行代码中创建,增加和域名。在基于收集的最终用户需求的设计决策的指导下,我们基于生成模型的模块化组件(i)执行,(ii)可视化,(iii)搜索和排名以及(iv)贡献。图书馆的可伸缩性和设计是通过其越来越多的综合且易于使用的验证生成模型来证明的,该模型由21种模型组成,利用9种不同的生成对抗网络体系结构在4个域中在11个数据集中训练,即乳腺摄影,内窥镜检查,X射线和X射线和X射线镜头,X射线和X型。 MRI。此外,在这项工作中分析了Medigan的3个应用,其中包括(a)启用社区范围内的限制数据共享,(b)研究生成模型评估指标以及(c)改进临床下游任务。在(b)中,扩展了公共医学图像综合评估和报告标准,我们根据图像归一化和特定于放射学特征提取了Fr \'Echet Inception距离变异性。
translated by 谷歌翻译
基于深度学习的疾病检测和分割算法承诺提高许多临床过程。然而,由于数据隐私,法律障碍和非统一数据采集协议,此类算法需要大量的注释训练数据,通常在医学环境中不可用。具有注释病理学的合成数据库可以提供所需的培训数据量。我们展示了缺血性卒中的例子,即利用基于深度学习的增强的病变分割的改善是可行的。为此,我们训练不同的图像到图像转换模型,以合成大脑体积的磁共振图像,并且没有来自语义分割图的中风病变。此外,我们培养一种生成的对抗性网络来产生合成病变面具。随后,我们组合这两个组件来构建大型合成描边图像数据库。使用U-NET评估各种模型的性能,该U-NET在临床测试集上培训以进行段中风病变。我们向最佳性能报告$ \ mathbf {72.8} $%[$ \ mathbf {70.8 \ pm1.0} $%]的骰子分数,这胜过了单独临床图像培训的模型培训$ \ mathbf { 67.3} $%[$ \ mathbf {63.2 \ pm1.9} $%],并且接近人类互相互联网骰子评分$ \ mathbf {76.9} $%。此外,我们表明,对于仅为10或50个临床案例的小型数据库,与使用不使用合成数据的设置相比,合成数据增强产生了显着的改进。据我们所知,这提出了基于图像到图像翻译的合成数据增强的第一个比较分析,并将第一应用于缺血性卒中。
translated by 谷歌翻译
缺乏足够大的开放医疗数据库是AI驱动的医疗保健中最大的挑战之一。使用生成对抗网络(GAN)创建的合成数据似乎是减轻隐私政策问题的好解决方案。另一种类型的治疗是在多个医疗机构之间进行分散方案,而无需交换本地数据样本。在本文中,我们探讨了集中式和分散的设置中的无条件和有条件的gan。集中式设置模仿了对大型但高度不平衡的皮肤病变数据集的研究,而分散的人则通过三个机构模拟了更现实的医院情况。我们评估了模型的性能,从忠诚度,多样性,训练速度和对生成合成数据进行培训的分类器的预测能力。此外,我们通过探索潜在空间和嵌入投影的解释性。计算出的真实图像及其在潜在空间中的投影之间的距离证明了训练有素的gan的真实性和概括,这是此类应用程序中的主要关注点之一。用于进行研究的开源代码可在\ url {https://github.com/aidse/stylegan2-ada-pytorch}上公开获得。
translated by 谷歌翻译
文献中提出的最新深层识别模型利用了大规模的公共数据集(例如MS-CELEB-1M和VGGFACE2)来培训非常深的神经网络,从而在主流基准上实现了最先进的表现。最近,由于可靠的隐私和道德问题,许多这些数据集(例如MS-CELEB-1M和VGGFACE2)被撤回。这激发了这项工作提出和调查使用隐私友好型合成生成的面部数据集来训练面部识别模型的可行性。为此,我们利用类别条件生成的对抗网络来生成类标记的合成面部图像,即sface。为了解决使用此类数据训练面部识别模型的隐私方面,我们提供了有关合成数据集与用于训练生成模型的原始真实数据集之间的身份关系的广泛评估实验。我们报告的评估证明,将真实数据集与合成数据集中的同一类标签相关联是不可能的。我们还建议使用三种不同的学习策略,多级分类,无标签的知识转移以及多级分类和知识转移的联合学习,对我们的隐私友好数据集进行识别。报告的五个真实面部基准的评估结果表明,隐私友好的合成数据集具有很高的潜力,可用于训练面部识别模型,例如,使用多级分类和99.13在LFW上实现91.87 \%的验证精度。 \%使用联合学习策略。
translated by 谷歌翻译
生成的对抗网络(GAN)是在众多领域成功使用的一种强大的深度学习模型。它们属于一个称为生成方法的更广泛的家族,该家族通过从真实示例中学习样本分布来生成新数据。在临床背景下,与传统的生成方法相比,GAN在捕获空间复杂,非线性和潜在微妙的疾病作用方面表现出增强的能力。这篇综述评估了有关gan在各种神经系统疾病的成像研究中的应用的现有文献,包括阿尔茨海默氏病,脑肿瘤,脑老化和多发性硬化症。我们为每个应用程序提供了各种GAN方法的直观解释,并进一步讨论了在神经影像学中利用gans的主要挑战,开放问题以及有希望的未来方向。我们旨在通过强调如何利用gan来支持临床决策,并有助于更好地理解脑部疾病的结构和功能模式,从而弥合先进的深度学习方法和神经病学研究之间的差距。
translated by 谷歌翻译
Tumor segmentation in histopathology images is often complicated by its composition of different histological subtypes and class imbalance. Oversampling subtypes with low prevalence features is not a satisfactory solution since it eventually leads to overfitting. We propose to create synthetic images with semantically-conditioned deep generative networks and to combine subtype-balanced synthetic images with the original dataset to achieve better segmentation performance. We show the suitability of Generative Adversarial Networks (GANs) and especially diffusion models to create realistic images based on subtype-conditioning for the use case of HER2-stained histopathology. Additionally, we show the capability of diffusion models to conditionally inpaint HER2 tumor areas with modified subtypes. Combining the original dataset with the same amount of diffusion-generated images increased the tumor Dice score from 0.833 to 0.854 and almost halved the variance between the HER2 subtype recalls. These results create the basis for more reliable automatic HER2 analysis with lower performance variance between individual HER2 subtypes.
translated by 谷歌翻译
深度神经网络在人类分析中已经普遍存在,增强了应用的性能,例如生物识别识别,动作识别以及人重新识别。但是,此类网络的性能通过可用的培训数据缩放。在人类分析中,对大规模数据集的需求构成了严重的挑战,因为数据收集乏味,廉价,昂贵,并且必须遵守数据保护法。当前的研究研究了\ textit {合成数据}的生成,作为在现场收集真实数据的有效且具有隐私性的替代方案。这项调查介绍了基本定义和方法,在生成和采用合成数据进行人类分析时必不可少。我们进行了一项调查,总结了当前的最新方法以及使用合成数据的主要好处。我们还提供了公开可用的合成数据集和生成模型的概述。最后,我们讨论了该领域的局限性以及开放研究问题。这项调查旨在为人类分析领域的研究人员和从业人员提供。
translated by 谷歌翻译
Current state-of-the-art segmentation techniques for ocular images are critically dependent on large-scale annotated datasets, which are labor-intensive to gather and often raise privacy concerns. In this paper, we present a novel framework, called BiOcularGAN, capable of generating synthetic large-scale datasets of photorealistic (visible light and near-infrared) ocular images, together with corresponding segmentation labels to address these issues. At its core, the framework relies on a novel Dual-Branch StyleGAN2 (DB-StyleGAN2) model that facilitates bimodal image generation, and a Semantic Mask Generator (SMG) component that produces semantic annotations by exploiting latent features of the DB-StyleGAN2 model. We evaluate BiOcularGAN through extensive experiments across five diverse ocular datasets and analyze the effects of bimodal data generation on image quality and the produced annotations. Our experimental results show that BiOcularGAN is able to produce high-quality matching bimodal images and annotations (with minimal manual intervention) that can be used to train highly competitive (deep) segmentation models (in a privacy aware-manner) that perform well across multiple real-world datasets. The source code for the BiOcularGAN framework is publicly available at https://github.com/dariant/BiOcularGAN.
translated by 谷歌翻译
骨关节炎(OA)是影响全球人口大量比例的最常见的联合障碍,主要是老年人。尽管其个人和社会经济负担,但仍然无法可靠地预测OA的发病和进展。旨在填补这种诊断缺口,我们介绍了基于生成模型的无监督学习计划,以预测基于膝关节X线本的OA的未来发展。使用来自骨关节炎研究的纵向数据,我们探讨了潜在的时间轨迹,以预测患者未来的射线照片,达到八年的随访访问。我们的模型预测了对OA的进展的风险,并超越了其监督对应物,其投入由七位经验丰富的放射科医师提供。通过支持模型,灵敏度,特异性,阳性预测值和负预测值显着增加到42.1%至51.6%,从72.3%到88.6%,从28.4%到57.6%,83.9%至88.4%,分别在没有这种支撑的情况下,放射科医生仅比随机猜测更好地进行。尽管需要在训练阶段没有人为注释,但我们的预测模型可以提高对OA发作和进展的预测。
translated by 谷歌翻译
在医学领域,通常寻求多中心协作来通过利用患者和临床数据的异质性来产生更广泛的发现。但是,最近的隐私法规阻碍了共享数据的可能性,因此,提出了支持诊断和预后的基于机器学习的解决方案。联合学习(FL)旨在通过将基于AI的解决方案带入数据所有者,而仅共享需要汇总的本地AI模型或其部分,以避免这种限制。但是,大多数现有的联合学习解决方案仍处于起步阶段,并且由于缺乏可靠和有效的聚合计划能够保留本地学到的知识,从而显示出薄弱的隐私保护,因为可以从模型更新中重建实际数据,因此显示出几个缺点。此外,这些方法中的大多数,尤其是那些处理医学数据的方法,都依赖于一种集中的分布式学习策略,该策略构成了稳健性,可伸缩性和信任问题。在本文中,我们提出了一种分散的分布式方法,该方法从经验重播和生成对抗性研究中利用概念,有效地整合了本地节点的功能,从而提供了能够在维持隐私的同时跨多个数据集进行概括的模型。为了模拟现实的非i.i.d,使用多个数据集对两项任务进行了两项任务测试:结核病和黑色素瘤分类。数据方案。结果表明,我们的方法实现了与标准(未赋予)学习和联合方法相当的性能(因此,更有利)。
translated by 谷歌翻译
良好的培训数据是开发有用的ML应用程序的先决条件。但是,在许多域中,现有数据集不能由于隐私法规(例如,从医学研究)而被共享。这项工作调查了一种简单而非规范的方法,可以匿名数据综合来使第三方能够受益于此类私人数据。我们探讨了从不切实际,任务相关的刺激中隐含地学习的可行性,这通过激发训练有素的深神经网络(DNN)的神经元来合成。因此,神经元励磁用作伪生成模型。刺激数据用于培训新的分类模型。此外,我们将此框架扩展以抑制与特定个人相关的表示。我们使用开放和大型闭合临床研究的睡眠监测数据,并评估(1)最终用户是否可以创建和成功使用定制分类模型进行睡眠呼吸暂停检测,并且(2)研究中参与者的身份受到保护。广泛的比较实证研究表明,在刺激上培训的不同算法能够在与原始模型相同的任务上成功概括。然而,新和原始模型之间的架构和算法相似性在性能方面发挥着重要作用。对于类似的架构,性能接近使用真实数据(例如,精度差为0.56 \%,Kappa系数差为0.03-0.04)。进一步的实验表明,刺激可以在很大程度上成功地匿名匿名研究临床研究的参与者。
translated by 谷歌翻译
生成对抗网络(GAN)具有许多潜在的医学成像应用,包括数据扩展,域适应和模型解释。由于图形处理单元(GPU)的记忆力有限,因此在低分辨率的医学图像上对当前的3D GAN模型进行了训练,因此这些模型要么无法扩展到高分辨率,要么容易出现斑驳的人工制品。在这项工作中,我们提出了一种新颖的端到端GAN体系结构,可以生成高分辨率3D图像。我们通过使用训练和推理之间的不同配置来实现这一目标。在训练过程中,我们采用了层次结构,该结构同时生成图像的低分辨率版本和高分辨率图像的随机选择子量。层次设计具有两个优点:首先,对高分辨率图像训练的记忆需求在子量之间摊销。此外,将高分辨率子体积固定在单个低分辨率图像上可确保子量化之间的解剖一致性。在推断期间,我们的模型可以直接生成完整的高分辨率图像。我们还将具有类似层次结构的编码器纳入模型中,以从图像中提取特征。 3D胸CT和脑MRI的实验表明,我们的方法在图像生成中的表现优于最新技术。我们还证明了所提出的模型在数据增强和临床相关特征提取中的临床应用。
translated by 谷歌翻译