本文介绍了一种用于合成包含连续,二进制和离散柱的表格数据集的双鉴别器GaN。我们所提出的方法采用适应的预处理方案和用于发电机网络的新型条件术语,以更有效地捕获输入样本分布。此外,我们为旨在向发电机提供更多辨别型梯度信息的鉴别器网络来实施直接但有效的架构。我们对四个基准测试公共数据集的实验结果证实了我们在可能性健身度量和机器学习效果方面的卓越性能。
translated by 谷歌翻译
In data-driven systems, data exploration is imperative for making real-time decisions. However, big data is stored in massive databases that are difficult to retrieve. Approximate Query Processing (AQP) is a technique for providing approximate answers to aggregate queries based on a summary of the data (synopsis) that closely replicates the behavior of the actual data, which can be useful where an approximate answer to the queries would be acceptable in a fraction of the real execution time. In this paper, we discuss the use of Generative Adversarial Networks (GANs) for generating tabular data that can be employed in AQP for synopsis construction. We first discuss the challenges associated with constructing synopses in relational databases and then introduce solutions to those challenges. Following that, we organized statistical metrics to evaluate the quality of the generated synopses. We conclude that tabular data complexity makes it difficult for algorithms to understand relational database semantics during training, and improved versions of tabular GANs are capable of constructing synopses to revolutionize data-driven decision-making systems.
translated by 谷歌翻译
本文介绍了一种新的基于合成的防御算法,以抵消为挑战尖端语音到文本转录系统的性能而开发的各种对抗性攻击。我们的算法实现了基于Sobolev的GAN,并提出了一种新颖的正规化程序,以有效控制整个生成模型的功能,尤其是训练过程中的鉴别器网络。我们在对受害者DeepSpeech,Kaldi和Lingvo语音转录系统进行众多实验后取得了成就,证实了我们的防御方法的显着性能,以全面的目标和非目标对抗攻击。
translated by 谷歌翻译
异构表格数据是最常用的数据形式,对于众多关键和计算要求的应用程序至关重要。在同质数据集上,深度神经网络反复显示出卓越的性能,因此被广泛采用。但是,它们适应了推理或数据生成任务的表格数据仍然具有挑战性。为了促进该领域的进一步进展,这项工作概述了表格数据的最新深度学习方法。我们将这些方法分为三组:数据转换,专业体系结构和正则化模型。对于每个小组,我们的工作提供了主要方法的全面概述。此外,我们讨论了生成表格数据的深度学习方法,并且还提供了有关解释对表格数据的深层模型的策略的概述。因此,我们的第一个贡献是解决上述领域中的主要研究流和现有方法,同时强调相关的挑战和开放研究问题。我们的第二个贡献是在传统的机器学习方法中提供经验比较,并在五个流行的现实世界中的十种深度学习方法中,具有不同规模和不同的学习目标的经验比较。我们已将作为竞争性基准公开提供的结果表明,基于梯度增强的树合奏的算法仍然大多在监督学习任务上超过了深度学习模型,这表明对表格数据的竞争性深度学习模型的研究进度停滞不前。据我们所知,这是对表格数据深度学习方法的第一个深入概述。因此,这项工作可以成为有价值的起点,以指导对使用表格数据深入学习感兴趣的研究人员和从业人员。
translated by 谷歌翻译
基于分数的生成模型(SGM)是生成假图像的最新突破。已知SGM可以超越其他生成模型,例如生成对抗网络(GAN)和变异自动编码器(VAE)。在这项工作中,我们受到了他们的巨大成功的启发,我们将它们完全自定义以生成伪造的表格数据。特别是,我们对过度采样较小的课程感兴趣,因为不平衡的课程经常导致次优训练成果。据我们所知,我们是第一个提出基于得分的表格数据超采样方法的人。首先,我们必须重新设计自己的分数网络,因为我们必须处理表格数据。其次,我们为我们的生成方法提出了两个选项:前者等同于表格数据的样式传输,后者使用SGMS的标准生成策略。最后,我们定义了一种微调方法,该方法进一步提高了过度采样质量。在我们使用6个数据集和10个基线的实验中,我们的方法在所有情况下都优于其他过采样方法。
translated by 谷歌翻译
数据通常以表格格式存储。几个研究领域(例如,生物医学,断层/欺诈检测),容易出现不平衡的表格数据。由于阶级失衡,对此类数据的监督机器学习通常很困难,从而进一步增加了挑战。合成数据生成,即过采样是一种用于提高分类器性能的常见补救措施。最先进的线性插值方法,例如洛拉斯和普罗拉斯,可用于从少数族裔类的凸空间中生成合成样本,以在这种情况下提高分类器的性能。生成的对抗网络(GAN)是合成样本生成的常见深度学习方法。尽管GAN被广泛用于合成图像生成,但在不平衡分类的情况下,它们在表格数据上的范围没有充分探索。在本文中,我们表明,与线性插值方法相比,现有的深层生成模型的性能较差,该方法从少数族裔类的凸空间中生成合成样本,对于小规模的表格数据集中的分类问题不平衡。我们提出了一个深厚的生成模型,将凸出空间学习和深层生成模型的思想结合在一起。 Convgen了解了少数族类样品的凸组合的系数,因此合成数据与多数类的不同。我们证明,与现有的深层生成模型相比,我们提出的模型Convgen在与现有的线性插值方法相当的同时,改善了此类小数据集的不平衡分类。此外,我们讨论了如何将模型用于一般的综合表格数据生成,甚至超出了数据不平衡的范围,从而提高了凸空间学习的整体适用性。
translated by 谷歌翻译
数据质量是发展医疗保健中值得信赖的AI的关键因素。大量具有控制混杂因素的策划数据集可以帮助提高下游AI算法的准确性,鲁棒性和隐私性。但是,访问高质量的数据集受数据获取的技术难度的限制,并且严格的道德限制阻碍了医疗保健数据的大规模共享。数据合成算法生成具有与真实临床数据相似的分布的数据,可以作为解决可信度AI的发展过程中缺乏优质数据的潜在解决方案。然而,最新的数据合成算法,尤其是深度学习算法,更多地集中于成像数据,同时忽略了非成像医疗保健数据的综合,包括临床测量,医疗信号和波形以及电子保健记录(EHRS)(EHRS) 。因此,在本文中,我们将回顾合成算法,尤其是对于非成像医学数据,目的是在该领域提供可信赖的AI。本教程风格的审查论文将对包括算法,评估,局限性和未来研究方向在内的各个方面进行全面描述。
translated by 谷歌翻译
尽管在文本,图像和视频上生成的对抗网络(GAN)取得了显着的成功,但由于一些独特的挑战,例如捕获不平衡数据中的依赖性,因此仍在开发中,生成高质量的表格数据仍在开发中,从而优化了合成患者数据的质量。保留隐私。在本文中,我们提出了DP-CGAN,这是一个由数据转换,采样,条件和网络培训组成的差异私有条件GAN框架,以生成现实且具有隐私性的表格数据。 DP-Cgans区分分类和连续变量,并将它们分别转换为潜在空间。然后,我们将条件矢量构建为附加输入,不仅在不平衡数据中介绍少数族裔类,还可以捕获变量之间的依赖性。我们将统计噪声注入DP-CGAN的网络训练过程中的梯度,以提供差异隐私保证。我们通过统计相似性,机器学习绩效和隐私测量值在三个公共数据集和两个现实世界中的个人健康数据集上使用最先进的生成模型广泛评估了我们的模型。我们证明,我们的模型优于其他可比模型,尤其是在捕获变量之间的依赖性时。最后,我们在合成数据生成中介绍了数据实用性与隐私之间的平衡,考虑到现实世界数据集的不同数据结构和特征,例如不平衡变量,异常分布和数据的稀疏性。
translated by 谷歌翻译
Electronic Health Records (EHRs) are a valuable asset to facilitate clinical research and point of care applications; however, many challenges such as data privacy concerns impede its optimal utilization. Deep generative models, particularly, Generative Adversarial Networks (GANs) show great promise in generating synthetic EHR data by learning underlying data distributions while achieving excellent performance and addressing these challenges. This work aims to review the major developments in various applications of GANs for EHRs and provides an overview of the proposed methodologies. For this purpose, we combine perspectives from healthcare applications and machine learning techniques in terms of source datasets and the fidelity and privacy evaluation of the generated synthetic datasets. We also compile a list of the metrics and datasets used by the reviewed works, which can be utilized as benchmarks for future research in the field. We conclude by discussing challenges in GANs for EHRs development and proposing recommended practices. We hope that this work motivates novel research development directions in the intersection of healthcare and machine learning.
translated by 谷歌翻译
当真实数据有限,收集昂贵或由于隐私问题而无法使用时,合成表格数据生成至关重要。但是,生成高质量的合成数据具有挑战性。已经提出了几种基于概率,统计和生成的对抗网络(GAN)方法,用于合成表格数据生成。一旦生成,评估合成数据的质量就非常具有挑战性。文献中已经使用了一些传统指标,但缺乏共同,健壮和单一指标。这使得很难正确比较不同合成表格数据生成方法的有效性。在本文中,我们提出了一种新的通用度量,tabsyndex,以对合成数据进行强有力的评估。 TABSYNDEX通过不同的组件分数评估合成数据与实际数据的相似性,这些分量分数评估了“高质量”合成数据所需的特征。作为单个评分度量,TABSYNDEX也可以用来观察和评估基于神经网络的方法的训练。这将有助于获得更早的见解。此外,我们提出了几种基线模型,用于与现有生成模型对拟议评估度量的比较分析。
translated by 谷歌翻译
从文本描述中综合现实图像是计算机视觉中的主要挑战。当前对图像合成方法的文本缺乏产生代表文本描述符的高分辨率图像。大多数现有的研究都依赖于生成的对抗网络(GAN)或变异自动编码器(VAE)。甘斯具有产生更清晰的图像的能力,但缺乏输出的多样性,而VAE擅长生产各种输出,但是产生的图像通常是模糊的。考虑到gan和vaes的相对优势,我们提出了一个新的有条件VAE(CVAE)和条件gan(CGAN)网络架构,用于合成以文本描述为条件的图像。这项研究使用条件VAE作为初始发电机来生成文本描述符的高级草图。这款来自第一阶段的高级草图输出和文本描述符被用作条件GAN网络的输入。第二阶段GAN产生256x256高分辨率图像。所提出的体系结构受益于条件加强和有条件的GAN网络的残留块,以实现结果。使用CUB和Oxford-102数据集进行了多个实验,并将所提出方法的结果与Stackgan等最新技术进行了比较。实验表明,所提出的方法生成了以文本描述为条件的高分辨率图像,并使用两个数据集基于Inception和Frechet Inception评分产生竞争结果
translated by 谷歌翻译
与CNN的分类,分割或对象检测相比,生成网络的目标和方法根本不同。最初,它们不是作为图像分析工具,而是生成自然看起来的图像。已经提出了对抗性训练范式来稳定生成方法,并已被证明是非常成功的 - 尽管绝不是第一次尝试。本章对生成对抗网络(GAN)的动机进行了基本介绍,并通​​过抽象基本任务和工作机制并得出了早期实用方法的困难来追溯其成功的道路。将显示进行更稳定的训练方法,也将显示出不良收敛及其原因的典型迹象。尽管本章侧重于用于图像生成和图像分析的gan,但对抗性训练范式本身并非特定于图像,并且在图像分析中也概括了任务。在将GAN与最近进入场景的进一步生成建模方法进行对比之前,将闻名图像语义分割和异常检测的架构示例。这将允许对限制的上下文化观点,但也可以对gans有好处。
translated by 谷歌翻译
Generative adversarial networks (GANs) provide a way to learn deep representations without extensively annotated training data. They achieve this through deriving backpropagation signals through a competitive process involving a pair of networks. The representations that can be learned by GANs may be used in a variety of applications, including image synthesis, semantic image editing, style transfer, image super-resolution and classification. The aim of this review paper is to provide an overview of GANs for the signal processing community, drawing on familiar analogies and concepts where possible. In addition to identifying different methods for training and constructing GANs, we also point to remaining challenges in their theory and application.
translated by 谷歌翻译
生成的对抗网络(GANS)正在增加对综合数据的手段的关注。到目前为止,这项工作已被应用于在数据机密域之外的用例,具有共同的应用程序作为人工图像的生产。在这里,我们考虑了GAN的潜在应用,以产生合成人口普查Microdata。我们使用电池电量和披露风险指标(目标正确的归因概率),以比较用使用正统数据合成方法生产的表格GAN产生的数据。
translated by 谷歌翻译
量子计算机是下一代设备,有望执行超出古典计算机范围的计算。实现这一目标的主要方法是通过量子机学习,尤其是量子生成学习。由于量子力学的固有概率性质,因此可以合理地假设量子生成学习模型(QGLM)可能会超过其经典对应物。因此,QGLM正在从量子物理和计算机科学社区中受到越来越多的关注,在这些QGLM中,可以在近期量子机上有效实施各种QGLM,并提出了潜在的计算优势。在本文中,我们从机器学习的角度回顾了QGLM的当前进度。特别是,我们解释了这些QGLM,涵盖了量子电路出生的机器,量子生成的对抗网络,量子玻尔兹曼机器和量子自动编码器,作为经典生成学习模型的量子扩展。在这种情况下,我们探讨了它们的内在关系及其根本差异。我们进一步总结了QGLM在常规机器学习任务和量子物理学中的潜在应用。最后,我们讨论了QGLM的挑战和进一步研究指示。
translated by 谷歌翻译
近年来,拥抱集群研究中的表演学习的深度学习技术引起了广泛的关注,产生了一个新开发的聚类范式,QZ。深度聚类(DC)。通常,DC型号大写AutoEncoders,以了解促进聚类过程的内在特征。如今,一个名为变变AualEncoder(VAE)的生成模型在DC研究中得到了广泛的认可。然而,平原VAE不足以察觉到综合潜在特征,导致细分性能恶化。本文提出了一种新的DC方法来解决这个问题。具体地,生成的逆势网络和VAE被聚结成了一种名为Fusion AutoEncoder(FAE)的新的AutoEncoder,以辨别出更多的辨别性表示,从而使下游聚类任务受益。此外,FAE通过深度剩余网络架构实施,进一步提高了表示学习能力。最后,将FAE的潜在空间转变为由深密神经网络的嵌入空间,用于彼此从彼此拉出不同的簇,并将数据点折叠在单个簇内。在几个图像数据集上进行的实验证明了所提出的DC模型对基线方法的有效性。
translated by 谷歌翻译
In biomedical image analysis, the applicability of deep learning methods is directly impacted by the quantity of image data available. This is due to deep learning models requiring large image datasets to provide high-level performance. Generative Adversarial Networks (GANs) have been widely utilized to address data limitations through the generation of synthetic biomedical images. GANs consist of two models. The generator, a model that learns how to produce synthetic images based on the feedback it receives. The discriminator, a model that classifies an image as synthetic or real and provides feedback to the generator. Throughout the training process, a GAN can experience several technical challenges that impede the generation of suitable synthetic imagery. First, the mode collapse problem whereby the generator either produces an identical image or produces a uniform image from distinct input features. Second, the non-convergence problem whereby the gradient descent optimizer fails to reach a Nash equilibrium. Thirdly, the vanishing gradient problem whereby unstable training behavior occurs due to the discriminator achieving optimal classification performance resulting in no meaningful feedback being provided to the generator. These problems result in the production of synthetic imagery that is blurry, unrealistic, and less diverse. To date, there has been no survey article outlining the impact of these technical challenges in the context of the biomedical imagery domain. This work presents a review and taxonomy based on solutions to the training problems of GANs in the biomedical imaging domain. This survey highlights important challenges and outlines future research directions about the training of GANs in the domain of biomedical imagery.
translated by 谷歌翻译
我们提出了一种具有多个鉴别器的生成的对抗性网络,其中每个鉴别者都专门用于区分真实数据集的子集。这种方法有助于学习与底层数据分布重合的发电机,从而减轻慢性模式崩溃问题。从多项选择学习的灵感来看,我们引导每个判别者在整个数据的子集中具有专业知识,并允许发电机在没有监督训练示例和鉴别者的数量的情况下自动找到潜伏和真实数据空间之间的合理对应关系。尽管使用多种鉴别器,但骨干网络在鉴别器中共享,并且培训成本的增加最小化。我们使用多个评估指标展示了我们算法在标准数据集中的有效性。
translated by 谷歌翻译
最近的生成机器学习模型的进展重新推出了密码猜测领域的研究兴趣。基于GAN的数据驱动密码猜测方法和深度潜变量模型的方法显示了令人印象深刻的泛化性能,并为密码猜测提供了引人注目的属性。在本文中,我们提出了Passflow,一种基于流的生成模型方法来猜测。基于流的模型允许精确的对数似然计算和优化,这实现了精确潜在的变量推断。此外,基于流的模型提供了有意义的潜在空间表示,这使得能够探索潜在空间和插值的特定子空间。我们展示了生成流量的适用性到密码猜测的背景下,脱离了主要限于图像生成的连续空间的流网络的先前应用。我们显示Passflow能够在使用培训集中的密码猜测任务中以前的最先进的GaN的方法,这是一个训练集,该训练集是小于前一体的训练集。此外,生成的样本的定性分析表明,通信流可以准确地模拟原始密码的分布,甚至是不匹配的样本非常类似于人类的密码。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译