在很大程度上,由于隐私问题,很难培训有关疾病诊断或图像分割的医学图像的计算机视觉相关算法。因此,高度寻求生成图像模型以促进数据共享。但是,需要研究3-D生成模型,需要研究其隐私泄漏。我们使用在肿瘤面膜上进行条件研究的头和颈宠物图像介绍了3D生成模型横向gan(TRGAN)。我们为模型定义了图像保真度,实用性和隐私的定量度量。在培训过程中评估了这些指标,以确定理想的保真度,公用事业和隐私权权衡,并建立这些参数之间的关系。我们表明,Trgan的歧视者很容易受到攻击,并且攻击者可以识别哪些样品在训练中几乎完全准确(AUC = 0.99)。我们还表明,仅访问发电机的攻击者无法可靠地分类样品是否已用于训练(AUC = 0.51)。这表明Trgan发电机(而不是歧视者)可以用于共享具有最小隐私风险的合成3-D PET数据,同时保持良好的效用和保真度。
translated by 谷歌翻译
对疾病的诊断或图像分割医学图像训练计算机视觉相关算法是缺乏训练数据,标记的样品,和隐私问题的困难所致。出于这个原因,一个强大的生成方法来创建合成数据后高度寻求。然而,大多数三维图像生成器需要额外的图像输入或者是非常占用大量内存。为了解决这些问题,我们建议调整视频生成技术3-d图像生成。使用时间GAN(TGAN)架构,我们将展示我们能够产生逼真的头部和颈部PET图像。我们还表明,通过调节肿瘤口罩发电机,我们能够控制肿瘤的几何形状和位置,在生成的图像。为了测试合成影像的用途,我们使用合成的图像训练分割模型。空调真实肿瘤掩模合成图像被自动分割,和对应的真实图像也分割。我们评估使用的骰子得分的分割,并找到两个数据集(0.65合成数据,0.70的真实数据)同样的分割算法执行。然后,各种radionomic特征在分割的肿瘤体积为每个数据集来计算。真实的和合成的特征分布的比较显示,8七个特征分布有统计学不显着差异(p> 0.05)。还计算所有radionomic特征之间的相关系数,它是示出了所有在真实数据组中的强统计相关的在合成数据集被保留。
translated by 谷歌翻译
生成的对抗网络(GAN)是在众多领域成功使用的一种强大的深度学习模型。它们属于一个称为生成方法的更广泛的家族,该家族通过从真实示例中学习样本分布来生成新数据。在临床背景下,与传统的生成方法相比,GAN在捕获空间复杂,非线性和潜在微妙的疾病作用方面表现出增强的能力。这篇综述评估了有关gan在各种神经系统疾病的成像研究中的应用的现有文献,包括阿尔茨海默氏病,脑肿瘤,脑老化和多发性硬化症。我们为每个应用程序提供了各种GAN方法的直观解释,并进一步讨论了在神经影像学中利用gans的主要挑战,开放问题以及有希望的未来方向。我们旨在通过强调如何利用gan来支持临床决策,并有助于更好地理解脑部疾病的结构和功能模式,从而弥合先进的深度学习方法和神经病学研究之间的差距。
translated by 谷歌翻译
功耗数据非常有用,因为它允许优化电网,检测异常并防止故障,最重要的是,对不同的研究目的是有用的。然而,使用功耗数据提高了重大隐私问题,因为此数据通常属于电力公司的客户。作为解决方案,我们提出了一种方法来生成忠实地模仿原件的合成功耗样本,而是从客户端及其身份中脱离。我们的方法基于生成的对抗性网络(GANS)。我们的贡献是双重的。首先,我们专注于所生成数据的质量,这不是一个简单的任务,因为没有可用的标准评估方法。然后,我们研究了向我们神经网络培训集成员提供的隐私保障。作为隐私的最低要求,我们要求我们的神经网络对成员推论攻击强大,因为除了呈现自己的隐私威胁之外,对于进一步的攻击,提供了一个网关。我们发现,在算法提供的隐私和绩效之间存在妥协。
translated by 谷歌翻译
Electronic Health Records (EHRs) are a valuable asset to facilitate clinical research and point of care applications; however, many challenges such as data privacy concerns impede its optimal utilization. Deep generative models, particularly, Generative Adversarial Networks (GANs) show great promise in generating synthetic EHR data by learning underlying data distributions while achieving excellent performance and addressing these challenges. This work aims to review the major developments in various applications of GANs for EHRs and provides an overview of the proposed methodologies. For this purpose, we combine perspectives from healthcare applications and machine learning techniques in terms of source datasets and the fidelity and privacy evaluation of the generated synthetic datasets. We also compile a list of the metrics and datasets used by the reviewed works, which can be utilized as benchmarks for future research in the field. We conclude by discussing challenges in GANs for EHRs development and proposing recommended practices. We hope that this work motivates novel research development directions in the intersection of healthcare and machine learning.
translated by 谷歌翻译
基于深度学习的疾病检测和分割算法承诺提高许多临床过程。然而,由于数据隐私,法律障碍和非统一数据采集协议,此类算法需要大量的注释训练数据,通常在医学环境中不可用。具有注释病理学的合成数据库可以提供所需的培训数据量。我们展示了缺血性卒中的例子,即利用基于深度学习的增强的病变分割的改善是可行的。为此,我们训练不同的图像到图像转换模型,以合成大脑体积的磁共振图像,并且没有来自语义分割图的中风病变。此外,我们培养一种生成的对抗性网络来产生合成病变面具。随后,我们组合这两个组件来构建大型合成描边图像数据库。使用U-NET评估各种模型的性能,该U-NET在临床测试集上培训以进行段中风病变。我们向最佳性能报告$ \ mathbf {72.8} $%[$ \ mathbf {70.8 \ pm1.0} $%]的骰子分数,这胜过了单独临床图像培训的模型培训$ \ mathbf { 67.3} $%[$ \ mathbf {63.2 \ pm1.9} $%],并且接近人类互相互联网骰子评分$ \ mathbf {76.9} $%。此外,我们表明,对于仅为10或50个临床案例的小型数据库,与使用不使用合成数据的设置相比,合成数据增强产生了显着的改进。据我们所知,这提出了基于图像到图像翻译的合成数据增强的第一个比较分析,并将第一应用于缺血性卒中。
translated by 谷歌翻译
数据已成为当今世界上最有价值的资源。随着数据驱动算法的大量扩散,例如基于深度学习的方法,数据的可用性引起了极大的兴趣。在这种情况下,特别需要高质量的培训,验证和测试数据集。体积数据是医学中非常重要的资源,因为它范围从疾病诊断到治疗监测。如果数据集足够,则可以培训模型来帮助医生完成这些任务。不幸的是,在某些情况和应用程序中,大量数据不可用。例如,在医疗领域,罕见疾病和隐私问题可能导致数据可用性受到限制。在非医学领域,获得足够数量的高质量数据的高成本也可能引起人们的关注。解决这些问题的方法可能是生成合成数据,以结合其他更传统的数据增强方法来执行数据增强。因此,关于3D生成对抗网络(GAN)的大多数出版物都在医疗领域内。生成现实合成数据的机制的存在是克服这一挑战的好资产,尤其是在医疗保健中,因为数据必须具有良好的质量并且接近现实,即现实,并且没有隐私问题。在这篇综述中,我们提供了使用GAN生成现实的3D合成数据的作品的摘要。因此,我们概述了具有共同体系结构,优势和缺点的这些领域中基于GAN的方法。我们提出了一种新颖的分类学,评估,挑战和研究机会,以提供医学和其他领域甘恩当前状态的整体概述。
translated by 谷歌翻译
从公共机器学习(ML)模型中泄漏数据是一个越来越重要的领域,因为ML的商业和政府应用可以利用多个数据源,可能包括用户和客户的敏感数据。我们对几个方面的当代进步进行了全面的调查,涵盖了非自愿数据泄漏,这对ML模型很自然,潜在的恶毒泄漏是由隐私攻击引起的,以及目前可用的防御机制。我们专注于推理时间泄漏,这是公开可用模型的最可能场景。我们首先在不同的数据,任务和模型体系结构的背景下讨论什么是泄漏。然后,我们提出了跨非自愿和恶意泄漏的分类法,可用的防御措施,然后进行当前可用的评估指标和应用。我们以杰出的挑战和开放性的问题结束,概述了一些有希望的未来研究方向。
translated by 谷歌翻译
合成健康数据在共享数据以支持生物医学研究和创新医疗保健应用的发展时有可能减轻隐私问题。基于机器学习,尤其是生成对抗网络(GAN)方法的现代方法生成的现代方法继续发展并表现出巨大的潜力。然而,缺乏系统的评估框架来基准测试方法,并确定哪些方法最合适。在这项工作中,我们引入了一个可推广的基准测试框架,以评估综合健康数据的关键特征在实用性和隐私指标方面。我们将框架应用框架来评估来自两个大型学术医疗中心的电子健康记录(EHRS)数据的合成数据生成方法。结果表明,共享合成EHR数据存在公用事业私人关系权衡。结果进一步表明,在每个用例中,在所有标准上都没有明确的方法是最好的,这使得为什么需要在上下文中评估合成数据生成方法。
translated by 谷歌翻译
在隐私机器学习中,很常见的是,学识渊博的模型的所有者没有对数据的任何物理访问。取而代之的是,仅授予对模型所有者的安全远程访问,而没有任何能够从数据湖检索数据的能力。但是,模型所有者可能希望从远程存储库定期导出受过训练的模型,并且出现问题是否可能导致数据泄漏。在本文中,我们介绍了神经网络导出期间数据窃取攻击的概念。它包括隐藏出口网络中的一些信息,该信息允许最初存储在该数据湖中的图像数据湖之外的重建。更确切地说,我们表明可以训练可以执行有损耗的图像压缩的网络,同时解决一些实用程序任务,例如图像分割。然后,通过将压缩解码器网络与一些图像代码一起导出,从而导致数据湖外的图像重建。我们探讨了此类攻击对CT和MR图像数据库的可行性,这表明可以获得目标数据集的感知有意义的重建,并且可以随时使用被盗数据集来解决广泛的任务。全面的实验和分析表明,数据窃取攻击应被视为敏感成像数据源的威胁。
translated by 谷歌翻译
生成模型生成的合成数据可以增强医学成像中渴望数据深度学习模型的性能和能力。但是,(1)(合成)数据集的可用性有限,并且(2)生成模型训练很复杂,这阻碍了它们在研究和临床应用中的采用。为了减少此入口障碍,我们提出了Medigan,Medigan是一站式商店,用于验证的生成型号,该型号是开源框架 - 不合骨python图书馆。 Medigan允许研究人员和开发人员仅在几行代码中创建,增加和域名。在基于收集的最终用户需求的设计决策的指导下,我们基于生成模型的模块化组件(i)执行,(ii)可视化,(iii)搜索和排名以及(iv)贡献。图书馆的可伸缩性和设计是通过其越来越多的综合且易于使用的验证生成模型来证明的,该模型由21种模型组成,利用9种不同的生成对抗网络体系结构在4个域中在11个数据集中训练,即乳腺摄影,内窥镜检查,X射线和X射线和X射线镜头,X射线和X型。 MRI。此外,在这项工作中分析了Medigan的3个应用,其中包括(a)启用社区范围内的限制数据共享,(b)研究生成模型评估指标以及(c)改进临床下游任务。在(b)中,扩展了公共医学图像综合评估和报告标准,我们根据图像归一化和特定于放射学特征提取了Fr \'Echet Inception距离变异性。
translated by 谷歌翻译
数据质量是发展医疗保健中值得信赖的AI的关键因素。大量具有控制混杂因素的策划数据集可以帮助提高下游AI算法的准确性,鲁棒性和隐私性。但是,访问高质量的数据集受数据获取的技术难度的限制,并且严格的道德限制阻碍了医疗保健数据的大规模共享。数据合成算法生成具有与真实临床数据相似的分布的数据,可以作为解决可信度AI的发展过程中缺乏优质数据的潜在解决方案。然而,最新的数据合成算法,尤其是深度学习算法,更多地集中于成像数据,同时忽略了非成像医疗保健数据的综合,包括临床测量,医疗信号和波形以及电子保健记录(EHRS)(EHRS) 。因此,在本文中,我们将回顾合成算法,尤其是对于非成像医学数据,目的是在该领域提供可信赖的AI。本教程风格的审查论文将对包括算法,评估,局限性和未来研究方向在内的各个方面进行全面描述。
translated by 谷歌翻译
对从FFPE组织块制备的载玻片上切割的染色组织的光学显微镜检查是组织诊断的金标准。此外,任何病理学家的诊断能力和专业知识都取决于他们在常见和稀有变体形态上的直接经验。最近,深度学习方法已被用来成功显示此类任务的高度准确性。但是,获得专家级注释的图像是一项昂贵且耗时的任务,人为合成的组织学图像可能会非常有益。在这里,我们提出了一种方法,不仅可以生成组织学图像,从而重现普通疾病的诊断形态特征,而且还提供了产生新的和罕见形态的用户能力。我们的方法涉及开发一种生成的对抗网络模型,该模型综合了由类标签约束的病理图像。我们研究了该框架合成现实的前列腺和结肠组织图像的能力,并评估了这些图像在增强机器学习方法的诊断能力以及通过一组经验丰富的解剖病理学家的可用性方面的实用性。我们的框架生成的合成数据在训练深度学习模型中进行了类似于实际数据进行诊断。病理学家无法区分真实图像和合成图像,并显示出相似的前列腺癌分级的观察者间一致性。我们扩展了从结肠活检中显着复杂图像的方法,并表明也可以再现了此类组织中的复杂微环境。最后,我们介绍了用户通过简单的语义标签标记来生成深层组织学图像的能力。
translated by 谷歌翻译
The availability of large-scale chest X-ray datasets is a requirement for developing well-performing deep learning-based algorithms in thoracic abnormality detection and classification. However, biometric identifiers in chest radiographs hinder the public sharing of such data for research purposes due to the risk of patient re-identification. To counteract this issue, synthetic data generation offers a solution for anonymizing medical images. This work employs a latent diffusion model to synthesize an anonymous chest X-ray dataset of high-quality class-conditional images. We propose a privacy-enhancing sampling strategy to ensure the non-transference of biometric information during the image generation process. The quality of the generated images and the feasibility of serving as exclusive training data are evaluated on a thoracic abnormality classification task. Compared to a real classifier, we achieve competitive results with a performance gap of only 3.5% in the area under the receiver operating characteristic curve.
translated by 谷歌翻译
缺乏足够大的开放医疗数据库是AI驱动的医疗保健中最大的挑战之一。使用生成对抗网络(GAN)创建的合成数据似乎是减轻隐私政策问题的好解决方案。另一种类型的治疗是在多个医疗机构之间进行分散方案,而无需交换本地数据样本。在本文中,我们探讨了集中式和分散的设置中的无条件和有条件的gan。集中式设置模仿了对大型但高度不平衡的皮肤病变数据集的研究,而分散的人则通过三个机构模拟了更现实的医院情况。我们评估了模型的性能,从忠诚度,多样性,训练速度和对生成合成数据进行培训的分类器的预测能力。此外,我们通过探索潜在空间和嵌入投影的解释性。计算出的真实图像及其在潜在空间中的投影之间的距离证明了训练有素的gan的真实性和概括,这是此类应用程序中的主要关注点之一。用于进行研究的开源代码可在\ url {https://github.com/aidse/stylegan2-ada-pytorch}上公开获得。
translated by 谷歌翻译
Recent advances in computer vision have shown promising results in image generation. Diffusion probabilistic models in particular have generated realistic images from textual input, as demonstrated by DALL-E 2, Imagen and Stable Diffusion. However, their use in medicine, where image data typically comprises three-dimensional volumes, has not been systematically evaluated. Synthetic images may play a crucial role in privacy preserving artificial intelligence and can also be used to augment small datasets. Here we show that diffusion probabilistic models can synthesize high quality medical imaging data, which we show for Magnetic Resonance Images (MRI) and Computed Tomography (CT) images. We provide quantitative measurements of their performance through a reader study with two medical experts who rated the quality of the synthesized images in three categories: Realistic image appearance, anatomical correctness and consistency between slices. Furthermore, we demonstrate that synthetic images can be used in a self-supervised pre-training and improve the performance of breast segmentation models when data is scarce (dice score 0.91 vs. 0.95 without vs. with synthetic data).
translated by 谷歌翻译
尽管在文本,图像和视频上生成的对抗网络(GAN)取得了显着的成功,但由于一些独特的挑战,例如捕获不平衡数据中的依赖性,因此仍在开发中,生成高质量的表格数据仍在开发中,从而优化了合成患者数据的质量。保留隐私。在本文中,我们提出了DP-CGAN,这是一个由数据转换,采样,条件和网络培训组成的差异私有条件GAN框架,以生成现实且具有隐私性的表格数据。 DP-Cgans区分分类和连续变量,并将它们分别转换为潜在空间。然后,我们将条件矢量构建为附加输入,不仅在不平衡数据中介绍少数族裔类,还可以捕获变量之间的依赖性。我们将统计噪声注入DP-CGAN的网络训练过程中的梯度,以提供差异隐私保证。我们通过统计相似性,机器学习绩效和隐私测量值在三个公共数据集和两个现实世界中的个人健康数据集上使用最先进的生成模型广泛评估了我们的模型。我们证明,我们的模型优于其他可比模型,尤其是在捕获变量之间的依赖性时。最后,我们在合成数据生成中介绍了数据实用性与隐私之间的平衡,考虑到现实世界数据集的不同数据结构和特征,例如不平衡变量,异常分布和数据的稀疏性。
translated by 谷歌翻译
Modeling lies at the core of both the financial and the insurance industry for a wide variety of tasks. The rise and development of machine learning and deep learning models have created many opportunities to improve our modeling toolbox. Breakthroughs in these fields often come with the requirement of large amounts of data. Such large datasets are often not publicly available in finance and insurance, mainly due to privacy and ethics concerns. This lack of data is currently one of the main hurdles in developing better models. One possible option to alleviating this issue is generative modeling. Generative models are capable of simulating fake but realistic-looking data, also referred to as synthetic data, that can be shared more freely. Generative Adversarial Networks (GANs) is such a model that increases our capacity to fit very high-dimensional distributions of data. While research on GANs is an active topic in fields like computer vision, they have found limited adoption within the human sciences, like economics and insurance. Reason for this is that in these fields, most questions are inherently about identification of causal effects, while to this day neural networks, which are at the center of the GAN framework, focus mostly on high-dimensional correlations. In this paper we study the causal preservation capabilities of GANs and whether the produced synthetic data can reliably be used to answer causal questions. This is done by performing causal analyses on the synthetic data, produced by a GAN, with increasingly more lenient assumptions. We consider the cross-sectional case, the time series case and the case with a complete structural model. It is shown that in the simple cross-sectional scenario where correlation equals causation the GAN preserves causality, but that challenges arise for more advanced analyses.
translated by 谷歌翻译
In biomedical image analysis, the applicability of deep learning methods is directly impacted by the quantity of image data available. This is due to deep learning models requiring large image datasets to provide high-level performance. Generative Adversarial Networks (GANs) have been widely utilized to address data limitations through the generation of synthetic biomedical images. GANs consist of two models. The generator, a model that learns how to produce synthetic images based on the feedback it receives. The discriminator, a model that classifies an image as synthetic or real and provides feedback to the generator. Throughout the training process, a GAN can experience several technical challenges that impede the generation of suitable synthetic imagery. First, the mode collapse problem whereby the generator either produces an identical image or produces a uniform image from distinct input features. Second, the non-convergence problem whereby the gradient descent optimizer fails to reach a Nash equilibrium. Thirdly, the vanishing gradient problem whereby unstable training behavior occurs due to the discriminator achieving optimal classification performance resulting in no meaningful feedback being provided to the generator. These problems result in the production of synthetic imagery that is blurry, unrealistic, and less diverse. To date, there has been no survey article outlining the impact of these technical challenges in the context of the biomedical imagery domain. This work presents a review and taxonomy based on solutions to the training problems of GANs in the biomedical imaging domain. This survey highlights important challenges and outlines future research directions about the training of GANs in the domain of biomedical imagery.
translated by 谷歌翻译
生成对抗网络(GAN)具有许多潜在的医学成像应用,包括数据扩展,域适应和模型解释。由于图形处理单元(GPU)的记忆力有限,因此在低分辨率的医学图像上对当前的3D GAN模型进行了训练,因此这些模型要么无法扩展到高分辨率,要么容易出现斑驳的人工制品。在这项工作中,我们提出了一种新颖的端到端GAN体系结构,可以生成高分辨率3D图像。我们通过使用训练和推理之间的不同配置来实现这一目标。在训练过程中,我们采用了层次结构,该结构同时生成图像的低分辨率版本和高分辨率图像的随机选择子量。层次设计具有两个优点:首先,对高分辨率图像训练的记忆需求在子量之间摊销。此外,将高分辨率子体积固定在单个低分辨率图像上可确保子量化之间的解剖一致性。在推断期间,我们的模型可以直接生成完整的高分辨率图像。我们还将具有类似层次结构的编码器纳入模型中,以从图像中提取特征。 3D胸CT和脑MRI的实验表明,我们的方法在图像生成中的表现优于最新技术。我们还证明了所提出的模型在数据增强和临床相关特征提取中的临床应用。
translated by 谷歌翻译