生成的对抗网络(GANS)是一个强大的模型系列,用于学习生成合成数据的底层分布。许多对GAN的现有研究侧重于改善所生成的图像数据的实际性,因为它们很少有人关注提高所生成的数据的质量,以训练其他分类器 - 一种称为模型兼容性问题的任务。结果,现有的GAN经常更喜欢生成远离分类器的边界的“更容易”的合成数据,并且避免了已知近边界数据,这些数据是在训练分类器中发挥重要作用的近边界数据。为了在模型兼容性方面改进GaN,我们提出了使用原始数据从一组预先训练的分类器中利用边界信息的边界校准GAN(BCGANS)。特别地,我们将辅助边界校准丢失(BC丢失)引入GaN的发电机中,以匹配原始数据的后部分布和相对于预先训练的分类器的边界的数据之间的统计数据。 BC损耗可被证明是无偏的,并且可以容易地与不同的GaN变体耦合,以提高其模型兼容性。实验结果表明,BCGANS不仅产生原始GAN等现实形象,而且还达到了比原来的GAN更优越的型号。
translated by 谷歌翻译
数据通常以表格格式存储。几个研究领域(例如,生物医学,断层/欺诈检测),容易出现不平衡的表格数据。由于阶级失衡,对此类数据的监督机器学习通常很困难,从而进一步增加了挑战。合成数据生成,即过采样是一种用于提高分类器性能的常见补救措施。最先进的线性插值方法,例如洛拉斯和普罗拉斯,可用于从少数族裔类的凸空间中生成合成样本,以在这种情况下提高分类器的性能。生成的对抗网络(GAN)是合成样本生成的常见深度学习方法。尽管GAN被广泛用于合成图像生成,但在不平衡分类的情况下,它们在表格数据上的范围没有充分探索。在本文中,我们表明,与线性插值方法相比,现有的深层生成模型的性能较差,该方法从少数族裔类的凸空间中生成合成样本,对于小规模的表格数据集中的分类问题不平衡。我们提出了一个深厚的生成模型,将凸出空间学习和深层生成模型的思想结合在一起。 Convgen了解了少数族类样品的凸组合的系数,因此合成数据与多数类的不同。我们证明,与现有的深层生成模型相比,我们提出的模型Convgen在与现有的线性插值方法相当的同时,改善了此类小数据集的不平衡分类。此外,我们讨论了如何将模型用于一般的综合表格数据生成,甚至超出了数据不平衡的范围,从而提高了凸空间学习的整体适用性。
translated by 谷歌翻译
物联网技术的开发使各种传感器可以集成到移动设备中。基于传感器数据的人类活动识别(HAR)已成为机器学习和无处不在计算领域的积极研究主题。但是,由于人类活动的频率不一致,人类活动数据集中的每个活动的数据量都会失衡。考虑到有限的传感器资源和手动标记的传感器数据的高成本,人类活动识别面临着高度不平衡的活动数据集的挑战。在本文中,我们建议平衡传感器数据生成的对抗网络(BSDGAN),以生成少数人类活动的传感器数据。所提出的BSDGAN由生成器模型和鉴别模型组成。考虑到人类活动数据集的极端失衡,使用自动编码器来初始化BSDGAN的训练过程,并确保可以学习每个活动的数据特征。生成的活动数据与原始数据集结合在一起,以平衡人类活动类别的活动数据量。我们在两个公开可用的人类活动数据集WISDM和UNIMIB上部署了多个人类活动识别模型。实验结果表明,提出的BSDGAN可以有效地捕获真实人类活动传感器数据的数据特征,并生成逼真的合成传感器数据。同时,平衡的活动数据集可以有效地帮助活动识别模型提高识别精度。
translated by 谷歌翻译
有条件的生成对抗性网络(CGANS)是隐式生成模型,允许从类条件分布中进行采样。现有的CGANS基于各种不同的不同鉴别器设计和培训目标。早期作品中的一个流行的设计是在培训期间包括分类器,假设良好的分类器可以帮助消除使用错误类生成的样本。然而,包括CGANs的分类器通常具有仅产生易于分类的样本的副作用。最近,一些代表性的CGANS避免了缺点和达到最先进的表现而没有分类器。不知何故,它仍然未解决分类器是否可以复活以设计更好的CGANS。在这项工作中,我们证明可以正确利用分类器来改善CGANS。我们首先使用联合概率分布的分解来将CGANS的目标连接为统一框架。该框架以及经典能源模型与参数化分配,以原则方式为CGANS的分类器的使用证明了对标准的。它解释了几种流行的Cgan变体,例如acgan,projgan和contragan,作为具有不同近似水平的特殊情况,这提供了统一的观点,并为理解CGAN带来了新的见解。实验结果表明,由所提出的框架灵感的设计优于多个基准数据集上的最先进的CGAN,特别是在最具挑战性的想象中。该代码可在https://github.com/sian-chen/pytorch-ecgan获得。
translated by 谷歌翻译
尽管在文本,图像和视频上生成的对抗网络(GAN)取得了显着的成功,但由于一些独特的挑战,例如捕获不平衡数据中的依赖性,因此仍在开发中,生成高质量的表格数据仍在开发中,从而优化了合成患者数据的质量。保留隐私。在本文中,我们提出了DP-CGAN,这是一个由数据转换,采样,条件和网络培训组成的差异私有条件GAN框架,以生成现实且具有隐私性的表格数据。 DP-Cgans区分分类和连续变量,并将它们分别转换为潜在空间。然后,我们将条件矢量构建为附加输入,不仅在不平衡数据中介绍少数族裔类,还可以捕获变量之间的依赖性。我们将统计噪声注入DP-CGAN的网络训练过程中的梯度,以提供差异隐私保证。我们通过统计相似性,机器学习绩效和隐私测量值在三个公共数据集和两个现实世界中的个人健康数据集上使用最先进的生成模型广泛评估了我们的模型。我们证明,我们的模型优于其他可比模型,尤其是在捕获变量之间的依赖性时。最后,我们在合成数据生成中介绍了数据实用性与隐私之间的平衡,考虑到现实世界数据集的不同数据结构和特征,例如不平衡变量,异常分布和数据的稀疏性。
translated by 谷歌翻译
虽然生成的对抗网络(GaN)是他们对其更高的样本质量的流行,而与其他生成模型相反,但是它们遭受同样困难的产生样本的难度。必须牢记各个方面,如产生的样本的质量,课程的多样性(在课堂内和类别中),使用解除戒开的潜在空间,所述评估度量的协议与人类感知等。本文,我们提出了一个新的评分,即GM分数,这取得了各种因素,如样品质量,解除戒备的代表,阶级,级别的阶级和级别多样性等各种因素,以及诸如精确,召回和F1分数等其他指标用于可怜的性深度信仰网络(DBN)和限制Boltzmann机(RBM)的潜在空间。评估是针对不同的GANS(GAN,DCGAN,BIGAN,CGAN,CONFORDGON,LSGAN,SGAN,WAN,以及WGAN改进)的不同GANS(GAN,DCGAN,BIGAN,SCAN,WANT)在基准MNIST数据集上培训。
translated by 谷歌翻译
In data-driven systems, data exploration is imperative for making real-time decisions. However, big data is stored in massive databases that are difficult to retrieve. Approximate Query Processing (AQP) is a technique for providing approximate answers to aggregate queries based on a summary of the data (synopsis) that closely replicates the behavior of the actual data, which can be useful where an approximate answer to the queries would be acceptable in a fraction of the real execution time. In this paper, we discuss the use of Generative Adversarial Networks (GANs) for generating tabular data that can be employed in AQP for synopsis construction. We first discuss the challenges associated with constructing synopses in relational databases and then introduce solutions to those challenges. Following that, we organized statistical metrics to evaluate the quality of the generated synopses. We conclude that tabular data complexity makes it difficult for algorithms to understand relational database semantics during training, and improved versions of tabular GANs are capable of constructing synopses to revolutionize data-driven decision-making systems.
translated by 谷歌翻译
我们提出了一种具有多个鉴别器的生成的对抗性网络,其中每个鉴别者都专门用于区分真实数据集的子集。这种方法有助于学习与底层数据分布重合的发电机,从而减轻慢性模式崩溃问题。从多项选择学习的灵感来看,我们引导每个判别者在整个数据的子集中具有专业知识,并允许发电机在没有监督训练示例和鉴别者的数量的情况下自动找到潜伏和真实数据空间之间的合理对应关系。尽管使用多种鉴别器,但骨干网络在鉴别器中共享,并且培训成本的增加最小化。我们使用多个评估指标展示了我们算法在标准数据集中的有效性。
translated by 谷歌翻译
Generating multivariate time series is a promising approach for sharing sensitive data in many medical, financial, and IoT applications. A common type of multivariate time series originates from a single source such as the biometric measurements from a medical patient. This leads to complex dynamical patterns between individual time series that are hard to learn by typical generation models such as GANs. There is valuable information in those patterns that machine learning models can use to better classify, predict or perform other downstream tasks. We propose a novel framework that takes time series' common origin into account and favors channel/feature relationships preservation. The two key points of our method are: 1) the individual time series are generated from a common point in latent space and 2) a central discriminator favors the preservation of inter-channel/feature dynamics. We demonstrate empirically that our method helps preserve channel/feature correlations and that our synthetic data performs very well in downstream tasks with medical and financial data.
translated by 谷歌翻译
我们研究了GaN调理问题,其目标是使用标记数据将普雷雷尼的无条件GaN转换为条件GaN。我们首先识别并分析这一问题的三种方法 - 从头开始​​,微调和输入重新编程的条件GaN培训。我们的分析表明,当标记数据的数量很小时,输入重新编程执行最佳。通过稀缺标记数据的现实世界情景,我们专注于输入重编程方法,并仔细分析现有算法。在识别出先前输入重新编程方法的一些关键问题之后,我们提出了一种名为INREP +的新算法。我们的算法INREP +解决了现有问题,具有可逆性神经网络的新颖用途和正面未标记(PU)学习。通过广泛的实验,我们表明Inrep +优于所有现有方法,特别是当标签信息稀缺,嘈杂和/或不平衡时。例如,对于用1%标记数据调节CiFar10 GaN的任务,Inrep +实现了82.13的平均峰值,而第二个最佳方法达到114.51。
translated by 谷歌翻译
组织病理学分析是对癌前病变诊断的本金标准。从数字图像自动组织病理学分类的目标需要监督培训,这需要大量的专家注释,这可能是昂贵且耗时的收集。同时,精确分类从全幻灯片裁剪的图像斑块对于基于标准滑动窗口的组织病理学幻灯片分类方法是必不可少的。为了减轻这些问题,我们提出了一个精心设计的条件GaN模型,即hostogan,用于在类标签上合成现实组织病理学图像补丁。我们还研究了一种新颖的合成增强框架,可选择地添加由我们提出的HADOGAN生成的新的合成图像补丁,而不是直接扩展与合成图像的训练集。通过基于其指定标签的置信度和实际标记图像的特征相似性选择合成图像,我们的框架为合成增强提供了质量保证。我们的模型在两个数据集上进行评估:具有有限注释的宫颈组织病理学图像数据集,以及具有转移性癌症的淋巴结组织病理学图像的另一个数据集。在这里,我们表明利用具有选择性增强的组织产生的图像导致对宫颈组织病理学和转移性癌症数据集分别的分类性能(分别为6.7%和2.8%)的显着和一致性。
translated by 谷歌翻译
随着深度学习生成模型的最新进展,它在时间序列领域的出色表现并没有花费很长时间。用于与时间序列合作的深度神经网络在很大程度上取决于培训中使用的数据集的广度和一致性。这些类型的特征通常在现实世界中不丰富,在现实世界中,它们通常受到限制,并且通常具有必须保证的隐私限制。因此,一种有效的方法是通过添加噪声或排列并生成新的合成数据来使用\ gls {da}技术增加数据数。它正在系统地审查该领域的当前最新技术,以概述所有可用的算法,并提出对最相关研究的分类法。将评估不同变体的效率;作为过程的重要组成部分,将分析评估性能的不同指标以及有关每个模型的主要问题。这项研究的最终目的是摘要摘要,这些领域的进化和性能会产生更好的结果,以指导该领域的未来研究人员。
translated by 谷歌翻译
内核平均嵌入是表示和比较概率度量的有用工具。尽管具有有用性,但内核的意思是考虑无限维度的特征,在差异私有数据生成的背景下,这是具有挑战性的。最近的一项工作建议使用有限维的随机特征近似数据分布的内核平均值嵌入,从而产生可分析的敏感性。但是,所需的随机特征的数量过高,通常是一千到十万,这会使隐私准确的权衡加剧。为了改善权衡取舍,我们建议用Hermite多项式特征替换随机功能。与随机特征不同,储能多项式特征是排序的,其中低订单的特征包含的分布更多的信息比高订单处的分布更多。因此,与明显更高的随机特征相比,HERMITE多项式特征的相对较低的阶多项式特征可以更准确地近似数据分布的平均嵌入。正如在几个表格和图像数据集中所证明的那样,Hermite多项式特征似乎比随机傅立叶功能更适合私人数据生成。
translated by 谷歌翻译
Electronic Health Records (EHRs) are a valuable asset to facilitate clinical research and point of care applications; however, many challenges such as data privacy concerns impede its optimal utilization. Deep generative models, particularly, Generative Adversarial Networks (GANs) show great promise in generating synthetic EHR data by learning underlying data distributions while achieving excellent performance and addressing these challenges. This work aims to review the major developments in various applications of GANs for EHRs and provides an overview of the proposed methodologies. For this purpose, we combine perspectives from healthcare applications and machine learning techniques in terms of source datasets and the fidelity and privacy evaluation of the generated synthetic datasets. We also compile a list of the metrics and datasets used by the reviewed works, which can be utilized as benchmarks for future research in the field. We conclude by discussing challenges in GANs for EHRs development and proposing recommended practices. We hope that this work motivates novel research development directions in the intersection of healthcare and machine learning.
translated by 谷歌翻译
当真实数据有限,收集昂贵或由于隐私问题而无法使用时,合成表格数据生成至关重要。但是,生成高质量的合成数据具有挑战性。已经提出了几种基于概率,统计和生成的对抗网络(GAN)方法,用于合成表格数据生成。一旦生成,评估合成数据的质量就非常具有挑战性。文献中已经使用了一些传统指标,但缺乏共同,健壮和单一指标。这使得很难正确比较不同合成表格数据生成方法的有效性。在本文中,我们提出了一种新的通用度量,tabsyndex,以对合成数据进行强有力的评估。 TABSYNDEX通过不同的组件分数评估合成数据与实际数据的相似性,这些分量分数评估了“高质量”合成数据所需的特征。作为单个评分度量,TABSYNDEX也可以用来观察和评估基于神经网络的方法的训练。这将有助于获得更早的见解。此外,我们提出了几种基线模型,用于与现有生成模型对拟议评估度量的比较分析。
translated by 谷歌翻译
生成对抗网络(GAN)是最受欢迎的图像生成模型,在各种计算机视觉任务上取得了显着进度。但是,训练不稳定仍然是所有基于GAN的算法的开放问题之一。已经提出了许多方法来稳定gan的训练,其重点分别放在损失功能,正则化和归一化技术,训练算法和模型体系结构上。与上述方法不同,在本文中,提出了有关稳定gan训练的新观点。发现有时发电机产生的图像在训练过程中像歧视者的对抗示例一样,这可能是导致gan不稳定训练的原因的一部分。有了这一发现,我们提出了直接的对抗训练(DAT)方法来稳定gan的训练过程。此外,我们证明DAT方法能够适应歧视器的Lipschitz常数。 DAT的高级性能在多个损失功能,网络体系结构,超参数和数据集上进行了验证。具体而言,基于SSGAN的CIFAR-100无条件生成,DAT在CIFAR-100的无条件生成上实现了11.5%的FID,基于SSGAN的STL-10无条件生成的FID和基于SSGAN的LSUN卧室无条件生成的13.2%FID。代码将在https://github.com/iceli1007/dat-gan上找到
translated by 谷歌翻译
随着技术的发展,信用卡欺诈的数量一直在增长,人们可以利用它。因此,实施一种健壮有效的方法来检测此类欺诈非常重要。机器学习算法适合这些任务,因为它们试图最大程度地提高预测的准确性,因此可以依靠。但是,在机器学习模型中存在一个即将到来的缺陷,由于样本集中的类别分布之间存在不平衡的原因,因此可能表现不佳。因此,在许多相关任务中,数据集有少数观察到的欺诈案件(有时发现了1%的正欺诈实例)。因此,这种不平衡的存在可能会通过将所有标签视为多数级别来影响任何学习模型的行为,因此在模型做出的预测中不允许概括概括。我们培训了生成对抗网络(GAN),以产生大量令人信服的(可靠)的少数族裔典范,可用于缓解培训集中的类失衡,从而更有效地学习数据。
translated by 谷歌翻译
已知大型预训练的生成模型偶尔提供出于各种原因可能不希望的样品。减轻这种情况的标准方法是以不同的方式重新培养模型。在这项工作中,我们采用了一种不同,更友好的方法,并调查了如何在训练后将模型置于模型之后,以便忘记某些样本。我们为gan提供了三种不同的算法,这些算法在描述了遗忘的样本方面有所不同。对现实世界图像数据集的广泛评估表明,我们的算法能够忘记数据,同时以全面重新训练成本的一小部分保留高生成质量。
translated by 谷歌翻译
有条件的生成模型旨在学习数据和标签的基础联合分布,以实现有条件的数据生成。其中,辅助分类器生成的对抗网络(AC-GAN)已被广泛使用,但遭受了生成样品的阶层内多样性的问题。本文指出的基本原因是,AC-GAN的分类器是生成器 - 静脉器,因此不能为发电机提供接近联合分布的信息指导,从而最小化条件熵,从而减少了阶级内的阶级。多样性。在这种理解的推动下,我们提出了一个具有辅助判别分类器(ADC-GAN)的新型条件gan,以解决上述问题。具体而言,提出的辅助判别分类器通过识别真实数据的类标签和生成的数据而成为生成器感知。我们的理论分析表明,即使没有原始歧视者,发电机也可以忠实地学习联合分布,从而使拟议的ADC-GAN可靠,可适应该系数超参数的价值和GAN损失的选择,并在训练过程中稳定。关于合成和现实世界数据集的广泛实验结果表明,与基于最新的分类器和基于基于投影的条件gan相比,有条件生成建模中ADC-GAN的优势。
translated by 谷歌翻译
基于分数的生成模型(SGM)是生成假图像的最新突破。已知SGM可以超越其他生成模型,例如生成对抗网络(GAN)和变异自动编码器(VAE)。在这项工作中,我们受到了他们的巨大成功的启发,我们将它们完全自定义以生成伪造的表格数据。特别是,我们对过度采样较小的课程感兴趣,因为不平衡的课程经常导致次优训练成果。据我们所知,我们是第一个提出基于得分的表格数据超采样方法的人。首先,我们必须重新设计自己的分数网络,因为我们必须处理表格数据。其次,我们为我们的生成方法提出了两个选项:前者等同于表格数据的样式传输,后者使用SGMS的标准生成策略。最后,我们定义了一种微调方法,该方法进一步提高了过度采样质量。在我们使用6个数据集和10个基线的实验中,我们的方法在所有情况下都优于其他过采样方法。
translated by 谷歌翻译