在视觉上评估生成的多元时间序列(MT)的优点很难实现,尤其是在生成模型是生成性对抗网络(GAN)的情况下。我们提出了一个名为高斯甘斯(Gaussian Gans)的通用框架,可在MTS生成任务下视觉评估使用自身。首先,我们试图通过明确重建GAN的体系结构来找到多元Kolmogorov Smirnov(MKS)测试中的转换函数。其次,我们进行了转化的MST的正态性测试,其中高斯gan是MKS检验中的转换函数。为了简化正态性测试,使用Chi Square分布提出了有效的可视化。在实验中,我们使用UNIMIB数据集并提供经验证据,表明使用高斯gans和Chi sqaure可视化的正态性测试是有效且可信的。
translated by 谷歌翻译
Generating multivariate time series is a promising approach for sharing sensitive data in many medical, financial, and IoT applications. A common type of multivariate time series originates from a single source such as the biometric measurements from a medical patient. This leads to complex dynamical patterns between individual time series that are hard to learn by typical generation models such as GANs. There is valuable information in those patterns that machine learning models can use to better classify, predict or perform other downstream tasks. We propose a novel framework that takes time series' common origin into account and favors channel/feature relationships preservation. The two key points of our method are: 1) the individual time series are generated from a common point in latent space and 2) a central discriminator favors the preservation of inter-channel/feature dynamics. We demonstrate empirically that our method helps preserve channel/feature correlations and that our synthetic data performs very well in downstream tasks with medical and financial data.
translated by 谷歌翻译
以时间序列形式出现的信号测量是医疗机学习应用中使用的最常见数据类型之一。但是,这样的数据集通常很小,使深度神经网络体系结构的培训无效。对于时间序列,我们可以用来扩展数据集大小的数据增强技巧套件受到维护信号的基本属性的限制。生成对抗网络(GAN)生成的数据可以用作另一个数据增强工具。基于RNN的GAN遭受了这样一个事实,即它们无法有效地模拟具有不规则时间关系的长序列数据点。为了解决这些问题,我们介绍了TTS-GAN,这是一种基于变压器的GAN,可以成功生成与实际长度相似的任意长度的现实合成时间序列数据序列。 GAN模型的生成器和鉴别网络均使用纯变压器编码器体系结构构建。我们使用可视化和降低降低技术来证明真实和生成的时间序列数据的相似性。我们还将生成数据的质量与最佳现有替代方案进行了比较,即基于RNN的时间序列GAN。
translated by 谷歌翻译
以时间序列形式出现的信号测量是医疗机学习应用中使用的最常见数据类型之一。这样的数据集的大小通常很小,收集和注释昂贵,并且可能涉及隐私问题,这阻碍了我们培训用于生物医学应用的大型,最先进的深度学习模型的能力。对于时间序列数据,我们可以用来扩展数据集大小的数据增强策略套件受到维护信号的基本属性的限制。生成对抗网络(GAN)可以用作另一种数据增强工具。在本文中,我们提出了TTS-CGAN,这是一种基于变压器的条件GAN模型,可以在现有的多级数据集上进行训练,并生成特定于类的合成时间序列序列的任意长度。我们详细介绍了模型架构和设计策略。由我们的模型生成的合成序列与真实的序列无法区分,可以用来补充或替换相同类型的真实信号,从而实现了数据增强的目标。为了评估生成的数据的质量,我们修改小波相干度量指标,以比较两组信号之间的相似性,还可以进行案例研究,其中使用合成和真实数据的混合来训练深度学习模型用于序列分类。与其他可视化技术和定性评估方法一起,我们证明TTS-CGAN生成的合成数据类似于真实数据,并且我们的模型的性能优于为时间序列数据生成而构建的其他最先进的GAN模型。
translated by 谷歌翻译
评估图像生成模型(例如生成对抗网络(GAN))是一个具有挑战性的问题。一种常见的方法是比较地面真相图像集和生成的测试图像集的分布。 Frech \'Et启动距离是评估gan的最广泛使用的指标之一,该指标假定一组图像的训练有素的启动模型中的特征遵循正态分布。在本文中,我们认为这是一个过度简化的假设,这可能会导致不可靠的评估结果,并且可以使用截断的广义正态分布来实现更准确的密度估计。基于此,我们提出了一个新的度量,以准确评估gan,称为趋势(截断了截断的正常密度估计,对嵌入植物的嵌入)。我们证明我们的方法大大减少了密度估计的错误,因此消除了评估结果错误的风险。此外,我们表明所提出的指标可显着提高评估结果的鲁棒性,以防止图像样品数量变化。
translated by 谷歌翻译
随着深度学习生成模型的最新进展,它在时间序列领域的出色表现并没有花费很长时间。用于与时间序列合作的深度神经网络在很大程度上取决于培训中使用的数据集的广度和一致性。这些类型的特征通常在现实世界中不丰富,在现实世界中,它们通常受到限制,并且通常具有必须保证的隐私限制。因此,一种有效的方法是通过添加噪声或排列并生成新的合成数据来使用\ gls {da}技术增加数据数。它正在系统地审查该领域的当前最新技术,以概述所有可用的算法,并提出对最相关研究的分类法。将评估不同变体的效率;作为过程的重要组成部分,将分析评估性能的不同指标以及有关每个模型的主要问题。这项研究的最终目的是摘要摘要,这些领域的进化和性能会产生更好的结果,以指导该领域的未来研究人员。
translated by 谷歌翻译
财务时间序列仿真是一个核心主题,因为它扩展了有限的实际数据,用于培训和评估交易策略。由于真实财务数据的复杂统计特性,这也是一项挑战。我们介绍了两个生成的对抗网络(GAN),该网络利用引起注意的卷积网络和变压器进行财务时间序列模拟。甘斯以数据驱动的方式学习统计属性,注意机制有助于复制远程依赖性。在标准普尔500指数和期权数据上测试了所提出的gan,根据风格化的事实对分数进行了检查,并与纯卷积GAN(即Quantangan)进行了比较。基于注意力的甘斯不仅重现了风格化的事实,而且还要平滑回报的自相关。
translated by 谷歌翻译
与CNN的分类,分割或对象检测相比,生成网络的目标和方法根本不同。最初,它们不是作为图像分析工具,而是生成自然看起来的图像。已经提出了对抗性训练范式来稳定生成方法,并已被证明是非常成功的 - 尽管绝不是第一次尝试。本章对生成对抗网络(GAN)的动机进行了基本介绍,并通​​过抽象基本任务和工作机制并得出了早期实用方法的困难来追溯其成功的道路。将显示进行更稳定的训练方法,也将显示出不良收敛及其原因的典型迹象。尽管本章侧重于用于图像生成和图像分析的gan,但对抗性训练范式本身并非特定于图像,并且在图像分析中也概括了任务。在将GAN与最近进入场景的进一步生成建模方法进行对比之前,将闻名图像语义分割和异常检测的架构示例。这将允许对限制的上下文化观点,但也可以对gans有好处。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
我们提出了一种基于生成的对冲网络(GANS)的扩展缺失数据载体方法的条件载荷GaN。激励用例是学习 - 排名,现代搜索,推荐系统和信息检索应用的基石。经验排名数据集并不总是遵循标准高斯分布或完全缺少随机(MCAR)机制,这是经典缺失数据载销方法的标准假设。我们的方法提供了一种简单的解决方案,可提供兼容的估算保证,同时放松缺失机制的假设和近似顽固的分布以提高估算质量。我们证明,对于随机(EMAR)的延伸缺失,实现了最佳的GaN载荷,并且在无随机(OAMAR)机制之外,延伸总是缺少的,超出天真MCAR。我们的方法展示了与最先进的基准和各种特征分布相比的开源Microsoft研究排名(MSR)数据集和合成排名数据集的最高估算质量。使用专有的Amazon搜索排名数据集,我们还展示了与地面真实数据相比训练的对GaN illuted数据训练的排名模型的可比排名质量指标。
translated by 谷歌翻译
Modeling lies at the core of both the financial and the insurance industry for a wide variety of tasks. The rise and development of machine learning and deep learning models have created many opportunities to improve our modeling toolbox. Breakthroughs in these fields often come with the requirement of large amounts of data. Such large datasets are often not publicly available in finance and insurance, mainly due to privacy and ethics concerns. This lack of data is currently one of the main hurdles in developing better models. One possible option to alleviating this issue is generative modeling. Generative models are capable of simulating fake but realistic-looking data, also referred to as synthetic data, that can be shared more freely. Generative Adversarial Networks (GANs) is such a model that increases our capacity to fit very high-dimensional distributions of data. While research on GANs is an active topic in fields like computer vision, they have found limited adoption within the human sciences, like economics and insurance. Reason for this is that in these fields, most questions are inherently about identification of causal effects, while to this day neural networks, which are at the center of the GAN framework, focus mostly on high-dimensional correlations. In this paper we study the causal preservation capabilities of GANs and whether the produced synthetic data can reliably be used to answer causal questions. This is done by performing causal analyses on the synthetic data, produced by a GAN, with increasingly more lenient assumptions. We consider the cross-sectional case, the time series case and the case with a complete structural model. It is shown that in the simple cross-sectional scenario where correlation equals causation the GAN preserves causality, but that challenges arise for more advanced analyses.
translated by 谷歌翻译
虽然生成的对抗网络(GaN)是他们对其更高的样本质量的流行,而与其他生成模型相反,但是它们遭受同样困难的产生样本的难度。必须牢记各个方面,如产生的样本的质量,课程的多样性(在课堂内和类别中),使用解除戒开的潜在空间,所述评估度量的协议与人类感知等。本文,我们提出了一个新的评分,即GM分数,这取得了各种因素,如样品质量,解除戒备的代表,阶级,级别的阶级和级别多样性等各种因素,以及诸如精确,召回和F1分数等其他指标用于可怜的性深度信仰网络(DBN)和限制Boltzmann机(RBM)的潜在空间。评估是针对不同的GANS(GAN,DCGAN,BIGAN,CGAN,CONFORDGON,LSGAN,SGAN,WAN,以及WGAN改进)的不同GANS(GAN,DCGAN,BIGAN,SCAN,WANT)在基准MNIST数据集上培训。
translated by 谷歌翻译
物理过程引起的随机噪声是测量的固有特征,也是大多数信号处理任务的限制因素。鉴于最近对数据驱动信号建模的生成对抗网络(GAN)的兴趣,重要的是要确定甘恩在目标数据集中忠实地再现噪声的程度。在本文中,我们提出了一项实证研究,旨在阐明时间序列的这个问题。也就是说,我们检查了两个通用时间序列gans,一种直接的时间序列模型和使用短时傅立叶变换(STFT)表示的基于图像的模型的能力,可以学习常见的广泛噪声类型在电子和通信系统中:带限制的热噪声,功率定律噪声,射击噪声和冲动噪声。我们发现,甘斯有能力学习许多噪声类型,尽管当gan架构不太适合噪音的某些方面,例如具有极端异常值的冲动时间序列时,它们可以预见。我们的发现提供了有关当前时间序列gan的能力和潜在局限性的见解,并突出了进一步研究的领域。此外,我们的一系列测试提供了一个有用的基准,可帮助开发时间序列的深层生成模型。
translated by 谷歌翻译
In data-driven systems, data exploration is imperative for making real-time decisions. However, big data is stored in massive databases that are difficult to retrieve. Approximate Query Processing (AQP) is a technique for providing approximate answers to aggregate queries based on a summary of the data (synopsis) that closely replicates the behavior of the actual data, which can be useful where an approximate answer to the queries would be acceptable in a fraction of the real execution time. In this paper, we discuss the use of Generative Adversarial Networks (GANs) for generating tabular data that can be employed in AQP for synopsis construction. We first discuss the challenges associated with constructing synopses in relational databases and then introduce solutions to those challenges. Following that, we organized statistical metrics to evaluate the quality of the generated synopses. We conclude that tabular data complexity makes it difficult for algorithms to understand relational database semantics during training, and improved versions of tabular GANs are capable of constructing synopses to revolutionize data-driven decision-making systems.
translated by 谷歌翻译
我们考虑在高维空间中学习数据的判别性表示的问题,并在多个低维线性子空间上或周围支持分布。也就是说,我们希望计算数据的线性注射映射,以便该功能位于多个正交子空间上。我们没有使用多个PCAS处理这个学习问题,而是使用最近提出的用于学习一般低维基符号的判别性和生成性表示的闭环转录(CTRL)框架作为顺序游戏。我们证明,游戏的平衡解决方案确实提供了正确的表示。我们的方法通过表明可以证明使用现代表示学习工具包可以解决子空间学习问题,从而将学习子空间的经典方法统一了学习子空间。此外,在线性子空间的重要情况下,我们的工作为CTRL框架提供了第一个理论理由。我们以令人信服的经验证据来支持我们的理论发现。我们还将顺序的游戏公式推广到更通用的表示学习问题。我们的代码,包括容易复制实验结果的方法,在GitHub上公开可用。
translated by 谷歌翻译
概率预测包括基于过去观察的未来结果的概率分布组成。在气象中,运行基于物理的数值模型的集合以获得此类分发。通常,使用评分规则,预测分配的功能和观察结果进行评估。通过一些评分规则,可以同时评估预测的校准和清晰度。在深度学习中,生成神经网络参数化在高维空间上的分布,并通过从潜变量转换绘制来轻松允许采样。条件生成网络另外限制输入变量上的分布。在此稿件中,我们使用培训的条件生成网络执行概率预测,以最小化评分规则值。与生成的对抗网络(GANS)相比,不需要鉴别者,培训是稳定的。我们对两种混沌模型进行实验和天气观测的全球数据集;结果令人满意,更好地校准而不是由GANS实现的。
translated by 谷歌翻译
We introduce a new algorithm named WGAN, an alternative to traditional GAN training. In this new model, we show that we can improve the stability of learning, get rid of problems like mode collapse, and provide meaningful learning curves useful for debugging and hyperparameter searches. Furthermore, we show that the corresponding optimization problem is sound, and provide extensive theoretical work highlighting the deep connections to different distances between distributions.
translated by 谷歌翻译
现代生成模型大致分为两个主要类别:(1)可以产生高质量随机样品但无法估算新数据点的确切密度的模型,以及(2)提供精确密度估计的模型,以样本为代价潜在空间的质量和紧凑性。在这项工作中,我们提出了LED,这是一种与gan密切相关的新生成模型,不仅允许有效采样,而且允许有效的密度估计。通过最大程度地提高对数可能的歧视器输出,我们得出了一个替代对抗优化目标,鼓励生成的数据多样性。这种表述提供了对几种流行生成模型之间关系的见解。此外,我们构建了一个基于流的生成器,该发电机可以计算生成样品的精确概率,同时允许低维度变量作为输入。我们在各种数据集上的实验结果表明,我们的密度估计器会产生准确的估计值,同时保留了生成的样品质量良好。
translated by 谷歌翻译
Generative adversarial networks (GANs) provide a way to learn deep representations without extensively annotated training data. They achieve this through deriving backpropagation signals through a competitive process involving a pair of networks. The representations that can be learned by GANs may be used in a variety of applications, including image synthesis, semantic image editing, style transfer, image super-resolution and classification. The aim of this review paper is to provide an overview of GANs for the signal processing community, drawing on familiar analogies and concepts where possible. In addition to identifying different methods for training and constructing GANs, we also point to remaining challenges in their theory and application.
translated by 谷歌翻译
To face the dependency on fossil fuels and limit carbon emissions, fuel cells are a very promising technology and appear to be a key candidate to tackle the increase of the energy demand and promote the energy transition. To meet future needs for both transport and stationary applications, the time to market of fuel cell stacks must be drastically reduced. Here, a new concept to shorten their development time by introducing a disruptive and highefficiency data augmentation approach based on artificial intelligence is presented. Our results allow reducing the testing time before introducing a product on the market from a thousand to a few hours. The innovative concept proposed here can support engineering and research tasks during the fuel cell development process to achieve decreased development costs alongside a reduced time to market.
translated by 谷歌翻译