虽然深度学习在电力系统的瞬态稳定性评估方面取得了令人印象深刻的进步,但不足和不平衡的样本仍然捕获数据驱动方法的培训效果。本文提出了一种基于条件平板生成的对冲网络(CTGAN)的可控样本生成框架,以产生指定的瞬态稳定性样本​​。为了适应瞬态稳定性样本​​的复杂特征分布,所提出的框架首先将样本模拟为表格数据,并使用高斯混合模型来标准化表格数据。然后我们将多个条件转换为单个条件向量,以实现多条件生成。此外,本文介绍了三个评估度量,以验证基于所提出的框架的产生样本的质量。 IEEE 39总线系统上的实验结果表明,该框架有效地平衡了瞬态稳定性样本​​,并显着提高了瞬态稳定性评估模型的性能。
translated by 谷歌翻译
面对昂贵且琐碎的数据收集和注释的难度,如何在小型训练数据集上进行深度学习的短期电压稳定性评估(STVSA)模型良好工作是一个具有挑战性和紧迫的问题。虽然可以通过应急仿真直接产生足够大的数据集,但这种数据生成过程通常很麻烦和效率低;虽然数据增强提供了一种低成本和有效的方式来人为地膨胀具有标签保存转换的代表性和多样化的训练数据集。在这方面,本文提出了一种新的深学习智能系统,包括用于电力系统的STVSA的数据增强。首先,由于可靠的定量标准来判断特定电力系统的稳定状态,利用半监督集群学习,以在原始小型数据集中获得标记的样本。其次,为了使适用于小型数据集的深度学习,引入了条件最小二乘生成的对抗网络(LSGAN)基础的数据增强,以通过人为创建额外的有效样本来扩展原始数据集。第三,为了从系统的后扰动动态轨迹中提取时间依赖性,建立了一种基于注意机制的评估模型的双向门控复发单元,这双向学习了重要的时间依赖性并自动分配注意力。测试结果展示了所提出的方法管理以实现更好的准确性和与原始小型数据集的响应时间更快。除了分类准确性,这项工作除了统计措施,全面审查提案的履行情况。
translated by 谷歌翻译
In data-driven systems, data exploration is imperative for making real-time decisions. However, big data is stored in massive databases that are difficult to retrieve. Approximate Query Processing (AQP) is a technique for providing approximate answers to aggregate queries based on a summary of the data (synopsis) that closely replicates the behavior of the actual data, which can be useful where an approximate answer to the queries would be acceptable in a fraction of the real execution time. In this paper, we discuss the use of Generative Adversarial Networks (GANs) for generating tabular data that can be employed in AQP for synopsis construction. We first discuss the challenges associated with constructing synopses in relational databases and then introduce solutions to those challenges. Following that, we organized statistical metrics to evaluate the quality of the generated synopses. We conclude that tabular data complexity makes it difficult for algorithms to understand relational database semantics during training, and improved versions of tabular GANs are capable of constructing synopses to revolutionize data-driven decision-making systems.
translated by 谷歌翻译
当真实数据有限,收集昂贵或由于隐私问题而无法使用时,合成表格数据生成至关重要。但是,生成高质量的合成数据具有挑战性。已经提出了几种基于概率,统计和生成的对抗网络(GAN)方法,用于合成表格数据生成。一旦生成,评估合成数据的质量就非常具有挑战性。文献中已经使用了一些传统指标,但缺乏共同,健壮和单一指标。这使得很难正确比较不同合成表格数据生成方法的有效性。在本文中,我们提出了一种新的通用度量,tabsyndex,以对合成数据进行强有力的评估。 TABSYNDEX通过不同的组件分数评估合成数据与实际数据的相似性,这些分量分数评估了“高质量”合成数据所需的特征。作为单个评分度量,TABSYNDEX也可以用来观察和评估基于神经网络的方法的训练。这将有助于获得更早的见解。此外,我们提出了几种基线模型,用于与现有生成模型对拟议评估度量的比较分析。
translated by 谷歌翻译
尽管在文本,图像和视频上生成的对抗网络(GAN)取得了显着的成功,但由于一些独特的挑战,例如捕获不平衡数据中的依赖性,因此仍在开发中,生成高质量的表格数据仍在开发中,从而优化了合成患者数据的质量。保留隐私。在本文中,我们提出了DP-CGAN,这是一个由数据转换,采样,条件和网络培训组成的差异私有条件GAN框架,以生成现实且具有隐私性的表格数据。 DP-Cgans区分分类和连续变量,并将它们分别转换为潜在空间。然后,我们将条件矢量构建为附加输入,不仅在不平衡数据中介绍少数族裔类,还可以捕获变量之间的依赖性。我们将统计噪声注入DP-CGAN的网络训练过程中的梯度,以提供差异隐私保证。我们通过统计相似性,机器学习绩效和隐私测量值在三个公共数据集和两个现实世界中的个人健康数据集上使用最先进的生成模型广泛评估了我们的模型。我们证明,我们的模型优于其他可比模型,尤其是在捕获变量之间的依赖性时。最后,我们在合成数据生成中介绍了数据实用性与隐私之间的平衡,考虑到现实世界数据集的不同数据结构和特征,例如不平衡变量,异常分布和数据的稀疏性。
translated by 谷歌翻译
轴承是容易出乎意料断层的旋转机的重要组成部分之一。因此,轴承诊断和状况监测对于降低众多行业的运营成本和停机时间至关重要。在各种生产条件下,轴承可以在一系列载荷和速度下进行操作,这会导致与每种故障类型相关的不同振动模式。正常数据很足够,因为系统通常在所需条件下工作。另一方面,故障数据很少见,在许多情况下,没有记录故障类别的数据。访问故障数据对于开发数据驱动的故障诊断工具至关重要,该工具可以提高操作的性能和安全性。为此,引入了基于条件生成对抗网络(CGAN)的新型算法。该算法对任何实际故障条件的正常和故障数据进行培训,从目标条件的正常数据中生成故障数据。所提出的方法在现实世界中的数据集上进行了验证,并为不同条件生成故障数据。实施了几种最先进的分类器和可视化模型,以评估合成数据的质量。结果证明了所提出的算法的功效。
translated by 谷歌翻译
时域仿真是电力系统瞬态稳定性分析的基础。准确可靠的模拟取决于准确的动态分量建模。在实用电力系统中,动态元件建模长期面临模型测定和模型校准的挑战,特别是随着可再生于可再生发电和电力电子产品的快速发展。本文基于神经常规差分方程(ODES)的一般框架,提出了一种具有外部输入和神经差分 - 代数方程(DAES)模块的神经竞争模块,用于电力系统动态分量模型。提出了基于AutoEncoder的框架,以提高培训型号的性能。还证明了将所提出的神经模块训练的神经动态模型集成到瞬态稳定性模拟的方法。对于由输入变量和输出变量的采样曲线组成的数据集,所提出的模块可用于满足黑匣子建模,物理数据集成建模,参数推断等的任务。测试是在IEEE-39中进行的测试系统证明提出的模块的有效性和潜力。
translated by 谷歌翻译
本文介绍了一种用于合成包含连续,二进制和离散柱的表格数据集的双鉴别器GaN。我们所提出的方法采用适应的预处理方案和用于发电机网络的新型条件术语,以更有效地捕获输入样本分布。此外,我们为旨在向发电机提供更多辨别型梯度信息的鉴别器网络来实施直接但有效的架构。我们对四个基准测试公共数据集的实验结果证实了我们在可能性健身度量和机器学习效果方面的卓越性能。
translated by 谷歌翻译
物联网技术的开发使各种传感器可以集成到移动设备中。基于传感器数据的人类活动识别(HAR)已成为机器学习和无处不在计算领域的积极研究主题。但是,由于人类活动的频率不一致,人类活动数据集中的每个活动的数据量都会失衡。考虑到有限的传感器资源和手动标记的传感器数据的高成本,人类活动识别面临着高度不平衡的活动数据集的挑战。在本文中,我们建议平衡传感器数据生成的对抗网络(BSDGAN),以生成少数人类活动的传感器数据。所提出的BSDGAN由生成器模型和鉴别模型组成。考虑到人类活动数据集的极端失衡,使用自动编码器来初始化BSDGAN的训练过程,并确保可以学习每个活动的数据特征。生成的活动数据与原始数据集结合在一起,以平衡人类活动类别的活动数据量。我们在两个公开可用的人类活动数据集WISDM和UNIMIB上部署了多个人类活动识别模型。实验结果表明,提出的BSDGAN可以有效地捕获真实人类活动传感器数据的数据特征,并生成逼真的合成传感器数据。同时,平衡的活动数据集可以有效地帮助活动识别模型提高识别精度。
translated by 谷歌翻译
数据通常以表格格式存储。几个研究领域(例如,生物医学,断层/欺诈检测),容易出现不平衡的表格数据。由于阶级失衡,对此类数据的监督机器学习通常很困难,从而进一步增加了挑战。合成数据生成,即过采样是一种用于提高分类器性能的常见补救措施。最先进的线性插值方法,例如洛拉斯和普罗拉斯,可用于从少数族裔类的凸空间中生成合成样本,以在这种情况下提高分类器的性能。生成的对抗网络(GAN)是合成样本生成的常见深度学习方法。尽管GAN被广泛用于合成图像生成,但在不平衡分类的情况下,它们在表格数据上的范围没有充分探索。在本文中,我们表明,与线性插值方法相比,现有的深层生成模型的性能较差,该方法从少数族裔类的凸空间中生成合成样本,对于小规模的表格数据集中的分类问题不平衡。我们提出了一个深厚的生成模型,将凸出空间学习和深层生成模型的思想结合在一起。 Convgen了解了少数族类样品的凸组合的系数,因此合成数据与多数类的不同。我们证明,与现有的深层生成模型相比,我们提出的模型Convgen在与现有的线性插值方法相当的同时,改善了此类小数据集的不平衡分类。此外,我们讨论了如何将模型用于一般的综合表格数据生成,甚至超出了数据不平衡的范围,从而提高了凸空间学习的整体适用性。
translated by 谷歌翻译
To face the dependency on fossil fuels and limit carbon emissions, fuel cells are a very promising technology and appear to be a key candidate to tackle the increase of the energy demand and promote the energy transition. To meet future needs for both transport and stationary applications, the time to market of fuel cell stacks must be drastically reduced. Here, a new concept to shorten their development time by introducing a disruptive and highefficiency data augmentation approach based on artificial intelligence is presented. Our results allow reducing the testing time before introducing a product on the market from a thousand to a few hours. The innovative concept proposed here can support engineering and research tasks during the fuel cell development process to achieve decreased development costs alongside a reduced time to market.
translated by 谷歌翻译
For planning of power systems and for the calibration of operational tools, it is essential to analyse system performance in a large range of representative scenarios. When the available historical data is limited, generative models are a promising solution, but modelling high-dimensional dependencies is challenging. In this paper, a multivariate load state generating model on the basis of a conditional variational autoencoder (CVAE) neural network is proposed. Going beyond common CVAE implementations, the model includes stochastic variation of output samples under given latent vectors and co-optimizes the parameters for this output variability. It is shown that this improves statistical properties of the generated data. The quality of generated multivariate loads is evaluated using univariate and multivariate performance metrics. A generation adequacy case study on the European network is used to illustrate model's ability to generate realistic tail distributions. The experiments demonstrate that the proposed generator outperforms other data generating mechanisms.
translated by 谷歌翻译
大量的数据和创新算法使数据驱动的建模成为现代行业的流行技术。在各种数据驱动方法中,潜在变量模型(LVM)及其对应物占主要份额,并在许多工业建模领域中起着至关重要的作用。 LVM通常可以分为基于统计学习的经典LVM和基于神经网络的深层LVM(DLVM)。我们首先讨论经典LVM的定义,理论和应用,该定义和应用既是综合教程,又是对经典LVM的简短申请调查。然后,我们对当前主流DLVM进行了彻底的介绍,重点是其理论和模型体系结构,此后不久就提供了有关DLVM的工业应用的详细调查。上述两种类型的LVM具有明显的优势和缺点。具体而言,经典的LVM具有简洁的原理和良好的解释性,但是它们的模型能力无法解决复杂的任务。基于神经网络的DLVM具有足够的模型能力,可以在复杂的场景中实现令人满意的性能,但它以模型的解释性和效率为例。旨在结合美德并减轻这两种类型的LVM的缺点,并探索非神经网络的举止以建立深层模型,我们提出了一个新颖的概念,称为“轻量级Deep LVM(LDLVM)”。在提出了这个新想法之后,该文章首先阐述了LDLVM的动机和内涵,然后提供了两个新颖的LDLVM,并详尽地描述了其原理,建筑和优点。最后,讨论了前景和机会,包括重要的开放问题和可能的研究方向。
translated by 谷歌翻译
随着人工智能(AI)的迅速发展,可以预见的是,动态模拟器和AI的整合将大大提高对未来电力系统的动态分析的准确性和效率。为了探索电力系统动态模拟的交互机制和AI的相互作用机制,提出了面向AI的动力系统动态模拟器的一般设计,该设计由具有神经网络支持性的高性能模拟器和灵活的外部和内部应用程序编程接口(APIS)组成(APIS(APIS) )。在API的支持下,模拟辅助AI和AI辅助模拟形成了功率系统动态模拟与AI之间的全面交互机制。该设计的原型由基于高效的机电模拟器实施并公开。该原型的测试是在四种情况下进行的,包括样本生成,基于AI的稳定性预测,数据驱动的动态组件建模和AI AIDED稳定性控制,这证明了设计和实施的有效性,灵活性和效率面向AI的动力系统动态模拟器。
translated by 谷歌翻译
在过去的几十年中,数据科学领域已经存在着激烈的进展,而其他学科则不断受益于此。结构健康监测(SHM)是使用人工智能(AI)的那些领域之一,例如机器学习(ML)和深度学习(DL)算法,用于基于所收集的数据的民用结构的条件评估。 ML和DL方法需要大量的培训程序数据;但是,在SHM中,来自民间结构的数据收集非常详尽;特别是获得有用的数据(相关数据损坏)可能非常具有挑战性。本文使用1-D Wasserstein深卷积生成的对抗网络,使用梯度惩罚(1-D WDCGAN-GP)进行合成标记的振动数据生成。然后,通过使用1-D深卷积神经网络(1-D DCNN)来实现在不同级别的合成增强振动数据集的结构损伤检测。损伤检测结果表明,1-D WDCAN-GP可以成功地利用以解决基于振动的民用结构的损伤诊断数据稀缺。关键词:结构健康监测(SHM),结构损伤诊断,结构损伤检测,1-D深卷积神经网络(1-D DCNN),1-D生成对抗网络(1-D GAN),深卷积生成的对抗网络( DCGAN),Wassersein生成的对抗性网络具有梯度惩罚(WAN-GP)
translated by 谷歌翻译
Electronic Health Records (EHRs) are a valuable asset to facilitate clinical research and point of care applications; however, many challenges such as data privacy concerns impede its optimal utilization. Deep generative models, particularly, Generative Adversarial Networks (GANs) show great promise in generating synthetic EHR data by learning underlying data distributions while achieving excellent performance and addressing these challenges. This work aims to review the major developments in various applications of GANs for EHRs and provides an overview of the proposed methodologies. For this purpose, we combine perspectives from healthcare applications and machine learning techniques in terms of source datasets and the fidelity and privacy evaluation of the generated synthetic datasets. We also compile a list of the metrics and datasets used by the reviewed works, which can be utilized as benchmarks for future research in the field. We conclude by discussing challenges in GANs for EHRs development and proposing recommended practices. We hope that this work motivates novel research development directions in the intersection of healthcare and machine learning.
translated by 谷歌翻译
虽然生成的对抗网络(GaN)是他们对其更高的样本质量的流行,而与其他生成模型相反,但是它们遭受同样困难的产生样本的难度。必须牢记各个方面,如产生的样本的质量,课程的多样性(在课堂内和类别中),使用解除戒开的潜在空间,所述评估度量的协议与人类感知等。本文,我们提出了一个新的评分,即GM分数,这取得了各种因素,如样品质量,解除戒备的代表,阶级,级别的阶级和级别多样性等各种因素,以及诸如精确,召回和F1分数等其他指标用于可怜的性深度信仰网络(DBN)和限制Boltzmann机(RBM)的潜在空间。评估是针对不同的GANS(GAN,DCGAN,BIGAN,CGAN,CONFORDGON,LSGAN,SGAN,WAN,以及WGAN改进)的不同GANS(GAN,DCGAN,BIGAN,SCAN,WANT)在基准MNIST数据集上培训。
translated by 谷歌翻译
In biomedical image analysis, the applicability of deep learning methods is directly impacted by the quantity of image data available. This is due to deep learning models requiring large image datasets to provide high-level performance. Generative Adversarial Networks (GANs) have been widely utilized to address data limitations through the generation of synthetic biomedical images. GANs consist of two models. The generator, a model that learns how to produce synthetic images based on the feedback it receives. The discriminator, a model that classifies an image as synthetic or real and provides feedback to the generator. Throughout the training process, a GAN can experience several technical challenges that impede the generation of suitable synthetic imagery. First, the mode collapse problem whereby the generator either produces an identical image or produces a uniform image from distinct input features. Second, the non-convergence problem whereby the gradient descent optimizer fails to reach a Nash equilibrium. Thirdly, the vanishing gradient problem whereby unstable training behavior occurs due to the discriminator achieving optimal classification performance resulting in no meaningful feedback being provided to the generator. These problems result in the production of synthetic imagery that is blurry, unrealistic, and less diverse. To date, there has been no survey article outlining the impact of these technical challenges in the context of the biomedical imagery domain. This work presents a review and taxonomy based on solutions to the training problems of GANs in the biomedical imaging domain. This survey highlights important challenges and outlines future research directions about the training of GANs in the domain of biomedical imagery.
translated by 谷歌翻译
现代生成模型大致分为两个主要类别:(1)可以产生高质量随机样品但无法估算新数据点的确切密度的模型,以及(2)提供精确密度估计的模型,以样本为代价潜在空间的质量和紧凑性。在这项工作中,我们提出了LED,这是一种与gan密切相关的新生成模型,不仅允许有效采样,而且允许有效的密度估计。通过最大程度地提高对数可能的歧视器输出,我们得出了一个替代对抗优化目标,鼓励生成的数据多样性。这种表述提供了对几种流行生成模型之间关系的见解。此外,我们构建了一个基于流的生成器,该发电机可以计算生成样品的精确概率,同时允许低维度变量作为输入。我们在各种数据集上的实验结果表明,我们的密度估计器会产生准确的估计值,同时保留了生成的样品质量良好。
translated by 谷歌翻译
相互联系的复杂系统通常由于内部不确定性和外部负面影响而受到干扰,例如严酷的操作环境或区域自然灾害事件引起的影响。为了在内部和外部挑战下保持相互联系的网络系统的运行,通过更好的设计和提高故障恢复功能来增强系统的可靠性,进行了弹性研究的设计。至于增强设计,由于现代系统的规模越来越大,并且存在复杂的潜在物理限制,因此出现了设计强大系统的挑战。为了应对这些挑战并有效地设计弹性系统,本研究提出了一种使用图形学习算法的生成设计方法。生成设计框架包含性能估计器和候选设计生成器。发电机可以从现有系统中明智地挖掘出良好的属性,并输出符合预定义绩效标准的新设计。尽管估计器可以有效地预测生成的设计的性能,从而在快速的迭代学习过程中。基于IEEE数据集的电力系统的案例研究结果说明了所提出的方法设计弹性互连系统的适用性。
translated by 谷歌翻译