为生成模型设计域和模型不合稳定的评估指标是一个重要且尚未解决的问题。大多数仅根据图像合成设置量身定制的指标表现出有限的能力,可以诊断跨更广泛的应用域的生成模型的不同模式。在本文中,我们介绍了三维评估度量标准($ \ alpha $ - precision,$ \ beta $ - recall,autherticity),其特征是任何生成模型中任何生成模型的保真度,多样性和概括性的表征。我们的度量标准通过精确重新分析统一统计差异度量,从而实现了模型保真度和多样性的样本和分布级诊断。我们将概括作为额外的独立维度(对忠诚度多样性权衡取舍),该概括量化了模型复制培训数据的程度 - 在对敏感数据建模具有隐私要求的敏感数据时,这是至关重要的绩效指标。这三个度量组件对应于(可解释的)概率数量,并通过样品级二进制分类估算。我们指标的样本级别的性质激发了一种新颖的用例,我们称之为模型审核,其中我们判断(Black-Box)模型生成的单个样品的质量,丢弃了低质量样品,从而改善了整体模型性能事后方式。
translated by 谷歌翻译
Recent advances in generative modeling have led to an increased interest in the study of statistical divergences as means of model comparison. Commonly used evaluation methods, such as the Fréchet Inception Distance (FID), correlate well with the perceived quality of samples and are sensitive to mode dropping. However, these metrics are unable to distinguish between different failure cases since they only yield one-dimensional scores. We propose a novel definition of precision and recall for distributions which disentangles the divergence into two separate dimensions. The proposed notion is intuitive, retains desirable properties, and naturally leads to an efficient algorithm that can be used to evaluate generative models. We relate this notion to total variation as well as to recent evaluation metrics such as Inception Score and FID. To demonstrate the practical utility of the proposed approach we perform an empirical study on several variants of Generative Adversarial Networks and Variational Autoencoders. In an extensive set of experiments we show that the proposed metric is able to disentangle the quality of generated samples from the coverage of the target distribution.
translated by 谷歌翻译
The ability to automatically estimate the quality and coverage of the samples produced by a generative model is a vital requirement for driving algorithm research. We present an evaluation metric that can separately and reliably measure both of these aspects in image generation tasks by forming explicit, non-parametric representations of the manifolds of real and generated data. We demonstrate the effectiveness of our metric in StyleGAN and BigGAN by providing several illustrative examples where existing metrics yield uninformative or contradictory results. Furthermore, we analyze multiple design variants of StyleGAN to better understand the relationships between the model architecture, training methods, and the properties of the resulting sample distribution. In the process, we identify new variants that improve the state-of-the-art. We also perform the first principled analysis of truncation methods and identify an improved method. Finally, we extend our metric to estimate the perceptual quality of individual samples, and use this to study latent space interpolations.
translated by 谷歌翻译
Electronic Health Records (EHRs) are a valuable asset to facilitate clinical research and point of care applications; however, many challenges such as data privacy concerns impede its optimal utilization. Deep generative models, particularly, Generative Adversarial Networks (GANs) show great promise in generating synthetic EHR data by learning underlying data distributions while achieving excellent performance and addressing these challenges. This work aims to review the major developments in various applications of GANs for EHRs and provides an overview of the proposed methodologies. For this purpose, we combine perspectives from healthcare applications and machine learning techniques in terms of source datasets and the fidelity and privacy evaluation of the generated synthetic datasets. We also compile a list of the metrics and datasets used by the reviewed works, which can be utilized as benchmarks for future research in the field. We conclude by discussing challenges in GANs for EHRs development and proposing recommended practices. We hope that this work motivates novel research development directions in the intersection of healthcare and machine learning.
translated by 谷歌翻译
虽然生成的对抗网络(GaN)是他们对其更高的样本质量的流行,而与其他生成模型相反,但是它们遭受同样困难的产生样本的难度。必须牢记各个方面,如产生的样本的质量,课程的多样性(在课堂内和类别中),使用解除戒开的潜在空间,所述评估度量的协议与人类感知等。本文,我们提出了一个新的评分,即GM分数,这取得了各种因素,如样品质量,解除戒备的代表,阶级,级别的阶级和级别多样性等各种因素,以及诸如精确,召回和F1分数等其他指标用于可怜的性深度信仰网络(DBN)和限制Boltzmann机(RBM)的潜在空间。评估是针对不同的GANS(GAN,DCGAN,BIGAN,CGAN,CONFORDGON,LSGAN,SGAN,WAN,以及WGAN改进)的不同GANS(GAN,DCGAN,BIGAN,SCAN,WANT)在基准MNIST数据集上培训。
translated by 谷歌翻译
深度生成模型的最新进展导致各种应用领域的令人印象深刻。由于深入学习模型可能会记住部分输入数据的可能性,已经增加了努力,了解出现的记忆。在这项工作中,我们将最近提出的监督学习记忆衡量标准(Feldman,2019)扩展到无监督的密度估算问题,并使它更加计算效率。接下来,我们提出了一项关于概率在诸如变形AutoEncoders等概率深度生成模型中可能发生的记忆的研究。这表明,这些模型易感的记忆形式与模式崩溃和过度装备根本不同。此外,我们表明,所提出的记忆分数测量普通使用的最近邻测试未捕获的现象。最后,我们讨论了几种可用于限制在实践中的记忆的策略。因此,我们的工作提供了理解概率生成模型中有问题的记忆的框架。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
In data-driven systems, data exploration is imperative for making real-time decisions. However, big data is stored in massive databases that are difficult to retrieve. Approximate Query Processing (AQP) is a technique for providing approximate answers to aggregate queries based on a summary of the data (synopsis) that closely replicates the behavior of the actual data, which can be useful where an approximate answer to the queries would be acceptable in a fraction of the real execution time. In this paper, we discuss the use of Generative Adversarial Networks (GANs) for generating tabular data that can be employed in AQP for synopsis construction. We first discuss the challenges associated with constructing synopses in relational databases and then introduce solutions to those challenges. Following that, we organized statistical metrics to evaluate the quality of the generated synopses. We conclude that tabular data complexity makes it difficult for algorithms to understand relational database semantics during training, and improved versions of tabular GANs are capable of constructing synopses to revolutionize data-driven decision-making systems.
translated by 谷歌翻译
我们提出了一种具有多个鉴别器的生成的对抗性网络,其中每个鉴别者都专门用于区分真实数据集的子集。这种方法有助于学习与底层数据分布重合的发电机,从而减轻慢性模式崩溃问题。从多项选择学习的灵感来看,我们引导每个判别者在整个数据的子集中具有专业知识,并允许发电机在没有监督训练示例和鉴别者的数量的情况下自动找到潜伏和真实数据空间之间的合理对应关系。尽管使用多种鉴别器,但骨干网络在鉴别器中共享,并且培训成本的增加最小化。我们使用多个评估指标展示了我们算法在标准数据集中的有效性。
translated by 谷歌翻译
在本文中,我们提出了一种新方法,以可靠的方式使用基于几何的变异自动编码器以可靠的方式执行数据增强。我们的方法结合了VAE被视为Riemannian歧管的适当潜在空间建模和新一代方案,该方案产生了更有意义的样本,尤其是在小型数据集的背景下。该方法通过广泛的实验研究进行了测试,在该研究中,其对数据集,分类器和训练样品的稳健性受到了强调。还可以在充满挑战的ADNI数据库上进行医学成像分类任务进行验证,其中使用拟议的VAE框架考虑了少量的3D脑MRIS并增强。在每种情况下,所提出的方法都可以在分类指标中获得显着可靠的增益。例如,在最先进的CNN分类器中,经过50次认知正常(CN)和50例阿尔茨海默氏病(AD)患者的最先进的CNN分类器,平衡准确度从66.3%跃升至74.3%,从77.7%到86.3%。具有243 CN和210 AD,同时提高了极大的敏感性和特异性指标。
translated by 谷歌翻译
尽管在文本,图像和视频上生成的对抗网络(GAN)取得了显着的成功,但由于一些独特的挑战,例如捕获不平衡数据中的依赖性,因此仍在开发中,生成高质量的表格数据仍在开发中,从而优化了合成患者数据的质量。保留隐私。在本文中,我们提出了DP-CGAN,这是一个由数据转换,采样,条件和网络培训组成的差异私有条件GAN框架,以生成现实且具有隐私性的表格数据。 DP-Cgans区分分类和连续变量,并将它们分别转换为潜在空间。然后,我们将条件矢量构建为附加输入,不仅在不平衡数据中介绍少数族裔类,还可以捕获变量之间的依赖性。我们将统计噪声注入DP-CGAN的网络训练过程中的梯度,以提供差异隐私保证。我们通过统计相似性,机器学习绩效和隐私测量值在三个公共数据集和两个现实世界中的个人健康数据集上使用最先进的生成模型广泛评估了我们的模型。我们证明,我们的模型优于其他可比模型,尤其是在捕获变量之间的依赖性时。最后,我们在合成数据生成中介绍了数据实用性与隐私之间的平衡,考虑到现实世界数据集的不同数据结构和特征,例如不平衡变量,异常分布和数据的稀疏性。
translated by 谷歌翻译
基于似然或显式的深层生成模型使用神经网络来构建灵活的高维密度。该公式直接与歧管假设相矛盾,该假设指出,观察到的数据位于嵌入高维环境空间中的低维歧管上。在本文中,我们研究了在这种维度不匹配的情况下,最大可能的训练的病理。我们正式证明,在学习歧管本身而不是分布的情况下,可以实现堕落的优点,而我们称之为多种歧视的现象过于拟合。我们提出了一类两步程序,该过程包括降低降低步骤,然后进行最大样子密度估计,并证明它们在非参数方面恢复了数据生成分布,从而避免了多种歧视。我们还表明,这些过程能够对隐式模型(例如生成对抗网络)学到的流形进行密度估计,从而解决了这些模型的主要缺点。最近提出的几种方法是我们两步程序的实例。因此,我们统一,扩展和理论上证明了一大批模型。
translated by 谷歌翻译
评估图像生成模型(例如生成对抗网络(GAN))是一个具有挑战性的问题。一种常见的方法是比较地面真相图像集和生成的测试图像集的分布。 Frech \'Et启动距离是评估gan的最广泛使用的指标之一,该指标假定一组图像的训练有素的启动模型中的特征遵循正态分布。在本文中,我们认为这是一个过度简化的假设,这可能会导致不可靠的评估结果,并且可以使用截断的广义正态分布来实现更准确的密度估计。基于此,我们提出了一个新的度量,以准确评估gan,称为趋势(截断了截断的正常密度估计,对嵌入植物的嵌入)。我们证明我们的方法大大减少了密度估计的错误,因此消除了评估结果错误的风险。此外,我们表明所提出的指标可显着提高评估结果的鲁棒性,以防止图像样品数量变化。
translated by 谷歌翻译
数据质量是发展医疗保健中值得信赖的AI的关键因素。大量具有控制混杂因素的策划数据集可以帮助提高下游AI算法的准确性,鲁棒性和隐私性。但是,访问高质量的数据集受数据获取的技术难度的限制,并且严格的道德限制阻碍了医疗保健数据的大规模共享。数据合成算法生成具有与真实临床数据相似的分布的数据,可以作为解决可信度AI的发展过程中缺乏优质数据的潜在解决方案。然而,最新的数据合成算法,尤其是深度学习算法,更多地集中于成像数据,同时忽略了非成像医疗保健数据的综合,包括临床测量,医疗信号和波形以及电子保健记录(EHRS)(EHRS) 。因此,在本文中,我们将回顾合成算法,尤其是对于非成像医学数据,目的是在该领域提供可信赖的AI。本教程风格的审查论文将对包括算法,评估,局限性和未来研究方向在内的各个方面进行全面描述。
translated by 谷歌翻译
与CNN的分类,分割或对象检测相比,生成网络的目标和方法根本不同。最初,它们不是作为图像分析工具,而是生成自然看起来的图像。已经提出了对抗性训练范式来稳定生成方法,并已被证明是非常成功的 - 尽管绝不是第一次尝试。本章对生成对抗网络(GAN)的动机进行了基本介绍,并通​​过抽象基本任务和工作机制并得出了早期实用方法的困难来追溯其成功的道路。将显示进行更稳定的训练方法,也将显示出不良收敛及其原因的典型迹象。尽管本章侧重于用于图像生成和图像分析的gan,但对抗性训练范式本身并非特定于图像,并且在图像分析中也概括了任务。在将GAN与最近进入场景的进一步生成建模方法进行对比之前,将闻名图像语义分割和异常检测的架构示例。这将允许对限制的上下文化观点,但也可以对gans有好处。
translated by 谷歌翻译
合成健康数据在共享数据以支持生物医学研究和创新医疗保健应用的发展时有可能减轻隐私问题。基于机器学习,尤其是生成对抗网络(GAN)方法的现代方法生成的现代方法继续发展并表现出巨大的潜力。然而,缺乏系统的评估框架来基准测试方法,并确定哪些方法最合适。在这项工作中,我们引入了一个可推广的基准测试框架,以评估综合健康数据的关键特征在实用性和隐私指标方面。我们将框架应用框架来评估来自两个大型学术医疗中心的电子健康记录(EHRS)数据的合成数据生成方法。结果表明,共享合成EHR数据存在公用事业私人关系权衡。结果进一步表明,在每个用例中,在所有标准上都没有明确的方法是最好的,这使得为什么需要在上下文中评估合成数据生成方法。
translated by 谷歌翻译
当真实数据有限,收集昂贵或由于隐私问题而无法使用时,合成表格数据生成至关重要。但是,生成高质量的合成数据具有挑战性。已经提出了几种基于概率,统计和生成的对抗网络(GAN)方法,用于合成表格数据生成。一旦生成,评估合成数据的质量就非常具有挑战性。文献中已经使用了一些传统指标,但缺乏共同,健壮和单一指标。这使得很难正确比较不同合成表格数据生成方法的有效性。在本文中,我们提出了一种新的通用度量,tabsyndex,以对合成数据进行强有力的评估。 TABSYNDEX通过不同的组件分数评估合成数据与实际数据的相似性,这些分量分数评估了“高质量”合成数据所需的特征。作为单个评分度量,TABSYNDEX也可以用来观察和评估基于神经网络的方法的训练。这将有助于获得更早的见解。此外,我们提出了几种基线模型,用于与现有生成模型对拟议评估度量的比较分析。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
我们研究了回归中神经网络(NNS)的模型不确定性的方法。为了隔离模型不确定性的效果,我们专注于稀缺训练数据的无噪声环境。我们介绍了关于任何方法都应满足的模型不确定性的五个重要的逃亡者。但是,我们发现,建立的基准通常无法可靠地捕获其中一些逃避者,即使是贝叶斯理论要求的基准。为了解决这个问题,我们介绍了一种新方法来捕获NNS的模型不确定性,我们称之为基于神经优化的模型不确定性(NOMU)。 NOMU的主要思想是设计一个由两个连接的子NN组成的网络体系结构,一个用于模型预测,一个用于模型不确定性,并使用精心设计的损耗函数进行训练。重要的是,我们的设计执行NOMU满足我们的五个Desiderata。由于其模块化体系结构,NOMU可以为任何给定(先前训练)NN提供模型不确定性,如果访问其培训数据。我们在各种回归任务和无嘈杂的贝叶斯优化(BO)中评估NOMU,并具有昂贵的评估。在回归中,NOMU至少和最先进的方法。在BO中,Nomu甚至胜过所有考虑的基准。
translated by 谷歌翻译
随着深度学习生成模型的最新进展,它在时间序列领域的出色表现并没有花费很长时间。用于与时间序列合作的深度神经网络在很大程度上取决于培训中使用的数据集的广度和一致性。这些类型的特征通常在现实世界中不丰富,在现实世界中,它们通常受到限制,并且通常具有必须保证的隐私限制。因此,一种有效的方法是通过添加噪声或排列并生成新的合成数据来使用\ gls {da}技术增加数据数。它正在系统地审查该领域的当前最新技术,以概述所有可用的算法,并提出对最相关研究的分类法。将评估不同变体的效率;作为过程的重要组成部分,将分析评估性能的不同指标以及有关每个模型的主要问题。这项研究的最终目的是摘要摘要,这些领域的进化和性能会产生更好的结果,以指导该领域的未来研究人员。
translated by 谷歌翻译