智能论文笔记

Time to Market Reduction for Hydrogen Fuel Cell Stacks using Generative Adversarial Networks

Nicolas Morizet , Perceval Desforges , Christophe Geissler , Elodie Pahon , Samir Jemeï , Daniel Hissel

分类：人工智能 | (统计)机器学习

2022-12-22

To face the dependency on fossil fuels and limit carbon emissions, fuel cells are a very promising technology and appear to be a key candidate to tackle the increase of the energy demand and promote the energy transition. To meet future needs for both transport and stationary applications, the time to market of fuel cell stacks must be drastically reduced. Here, a new concept to shorten their development time by introducing a disruptive and highefficiency data augmentation approach based on artificial intelligence is presented. Our results allow reducing the testing time before introducing a product on the market from a thousand to a few hours. The innovative concept proposed here can support engineering and research tasks during the fuel cell development process to achieve decreased development costs alongside a reduced time to market.

translated by 谷歌翻译

GAN-based Tabular Data Generator for Constructing Synopsis in Approximate Query Processing: Challenges and Solutions

Mohammadali Fallahian , Mohsen Dorodchi , Kyle Kreth

分类：机器学习

2022-12-18

In data-driven systems, data exploration is imperative for making real-time decisions. However, big data is stored in massive databases that are difficult to retrieve. Approximate Query Processing (AQP) is a technique for providing approximate answers to aggregate queries based on a summary of the data (synopsis) that closely replicates the behavior of the actual data, which can be useful where an approximate answer to the queries would be acceptable in a fraction of the real execution time. In this paper, we discuss the use of Generative Adversarial Networks (GANs) for generating tabular data that can be employed in AQP for synopsis construction. We first discuss the challenges associated with constructing synopses in relational databases and then introduce solutions to those challenges. Following that, we organized statistical metrics to evaluate the quality of the generated synopses. We conclude that tabular data complexity makes it difficult for algorithms to understand relational database semantics during training, and improved versions of tabular GANs are capable of constructing synopses to revolutionize data-driven decision-making systems.

translated by 谷歌翻译

DVGAN: Stabilize Wasserstein GAN training for time-domain Gravitational Wave physics

Tom Dooney , Stefano Bromuri , Lyana Curier

分类：机器学习

2022-09-26

模拟重力波（GW）检测器环境的时间域观察将使GW源有更好的了解，增强用于GW信号检测的数据集并帮助表征探测器的噪声，从而提供更好的物理学。本文提出了一种新的方法，该方法是使用三人瓦斯汀生成对抗网络（WGAN）（称为dvgan）模拟固定长度的时间域信号，其中包括一个辅助鉴别器，该辅助歧视器在输入信号的衍生物上进行区分。一项消融研究用于比较包括带有香草两种玩家wgan的辅助导数歧视器的对抗反馈的效果。我们表明，在训练阶段，对衍生物的区分可以稳定1D连续信号的GAN组件学习。这会导致更平滑的信号与实际样本不太区分，并更好地捕获训练数据的分布。 DVGAN还用于模拟高级LIGO GW检测器中捕获的真实瞬态噪声事件。

translated by 谷歌翻译

Generating multivariate time series with COmmon Source CoordInated GAN (COSCI-GAN)

Ali Seyfi , Jean-Francois Rajotte , Raymond T. Ng

分类：机器学习

2022-05-27

Generating multivariate time series is a promising approach for sharing sensitive data in many medical, financial, and IoT applications. A common type of multivariate time series originates from a single source such as the biometric measurements from a medical patient. This leads to complex dynamical patterns between individual time series that are hard to learn by typical generation models such as GANs. There is valuable information in those patterns that machine learning models can use to better classify, predict or perform other downstream tasks. We propose a novel framework that takes time series' common origin into account and favors channel/feature relationships preservation. The two key points of our method are: 1) the individual time series are generated from a common point in latent space and 2) a central discriminator favors the preservation of inter-channel/feature dynamics. We demonstrate empirically that our method helps preserve channel/feature correlations and that our synthetic data performs very well in downstream tasks with medical and financial data.

translated by 谷歌翻译

A Generative Deep Learning Approach to Stochastic Downscaling of Precipitation Forecasts

Lucy Harris , Andrew T. T. McRae , Matthew Chantry , Peter D. Dueben , Tim N. Palmer

分类：人工智能 | 计算机视觉 | 机器学习 | (统计)机器学习

2022-04-05

尽管有持续的改进，但降水预测仍然没有其他气象变量的准确和可靠。造成这种情况的一个主要因素是，几个影响降水分布和强度的关键过程出现在全球天气模型的解决规模以下。计算机视觉社区已经证明了生成的对抗网络（GAN）在超分辨率问题上取得了成功，即学习为粗图像添加精细的结构。 Leinonen等。（2020年）先前使用GAN来产生重建的高分辨率大气场的集合，并给定较粗糙的输入数据。在本文中，我们证明了这种方法可以扩展到更具挑战性的问题，即通过使用高分辨率雷达测量值作为“地面真相”来提高天气预报模型中相对低分辨率输入的准确性和分辨率。神经网络必须学会添加分辨率和结构，同时考虑不可忽略的预测错误。我们表明，甘斯和vae-gan可以在创建高分辨率的空间相干降水图的同时，可以匹配最新的后处理方法的统计特性。我们的模型比较比较与像素和合并的CRP分数，功率谱信息和等级直方图（用于评估校准）的最佳现有缩减方法。我们测试了我们的模型，并表明它们在各种场景中的表现，包括大雨。

translated by 谷歌翻译

Generative Modeling of Turbulence

Claudia Drygala , Benjamin Winhart , Francesca di Mare , Hanno Gottschalk

分类：计算机视觉

2021-12-05

我们使用生成的对抗网络（GaN）展示了一种数学上良好的湍流模型的合成建模方法。基于对遍历性的混沌，确定性系统的分析，我们概述了一个数学证据，即GaN实际上可以学习采样状态快照，从而形成混沌系统的不变度量。基于该分析，我们研究了从Lorenz吸引子开始的混沌系统的层次，然后继续与GaN的湍流模拟。作为培训数据，我们使用从大型涡流模拟（LES）获得的速度波动领域。详细研究了两种建筑：我们使用深卷积的GaN（DCGAN）来合成圆柱周围的湍流。我们还使用PIX2PIXHD架构模拟低压涡轮定子围绕的流量，用于条件DCGAN在定子前方的旋转唤醒位置上调节。解释了对抗性培训的设置和使用特定GAN架构的影响。从而表明，GaN在技术上挑战流动问题的基础上的训练日期是有效的模拟湍流。与经典的数值方法，特别是LES相比，GaN训练和推理时间显着下降，同时仍然在高分辨率下提供湍流流动。

translated by 谷歌翻译

Advances in Multi-Variate Analysis Methods for New Physics Searches at the Large Hadron Collider

Anna Stakia , Tommaso Dorigo , Giovanni Banelli , Daniela Bortoletto , Alessandro Casa , Pablo de Castro , Christophe Delaere , Julien Donini , Livio Finos , Michele Gallinaro

分类：机器学习

2021-05-16

在2015年和2019年之间，地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”，研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用，并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人，仍然在测试阶段，承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中，在研究和开发的那些中，最相关的新工具以及对其性能的评估。

translated by 谷歌翻译

STING: Self-attention based Time-series Imputation Networks using GAN

Eunkyu Oh , Taehun Kim , Yunhu Ji , Sushil Khyalia

分类：机器学习 | 人工智能

2022-09-22

时间序列数据在现实世界应用中无处不在。但是，最常见的问题之一是，时间序列数据可能会通过数据收集过程的固有性质丢失值。因此，必须从多元（相关）时间序列数据中推出缺失值，这对于改善预测性能的同时做出准确的数据驱动决策至关重要。插补的常规工作简单地删除缺失值或基于平均/零填充它们。尽管基于深层神经网络的最新作品显示出了显着的结果，但它们仍然有一个限制来捕获多元时间序列的复杂生成过程。在本文中，我们提出了一种用于多变量时间序列数据的新型插补方法，称为sting（使用GAN基于自我注意的时间序列插补网络）。我们利用生成的对抗网络和双向复发性神经网络来学习时间序列的潜在表示。此外，我们引入了一种新型的注意机制，以捕获整个序列的加权相关性，并避免无关序列带来的潜在偏见。三个现实世界数据集的实验结果表明，刺痛在插补精度以及具有估算值的下游任务方面优于现有的最新方法。

translated by 谷歌翻译

Latent Variable Models in the Era of Industrial Big Data: Extension and Beyond

Xiangyin Kong , Xiaoyu Jiang , Bingxin Zhang , Jinsong Yuan , Zhiqiang Ge

分类：机器学习

2022-08-23

大量的数据和创新算法使数据驱动的建模成为现代行业的流行技术。在各种数据驱动方法中，潜在变量模型（LVM）及其对应物占主要份额，并在许多工业建模领域中起着至关重要的作用。 LVM通常可以分为基于统计学习的经典LVM和基于神经网络的深层LVM（DLVM）。我们首先讨论经典LVM的定义，理论和应用，该定义和应用既是综合教程，又是对经典LVM的简短申请调查。然后，我们对当前主流DLVM进行了彻底的介绍，重点是其理论和模型体系结构，此后不久就提供了有关DLVM的工业应用的详细调查。上述两种类型的LVM具有明显的优势和缺点。具体而言，经典的LVM具有简洁的原理和良好的解释性，但是它们的模型能力无法解决复杂的任务。基于神经网络的DLVM具有足够的模型能力，可以在复杂的场景中实现令人满意的性能，但它以模型的解释性和效率为例。旨在结合美德并减轻这两种类型的LVM的缺点，并探索非神经网络的举止以建立深层模型，我们提出了一个新颖的概念，称为“轻量级Deep LVM（LDLVM）”。在提出了这个新想法之后，该文章首先阐述了LDLVM的动机和内涵，然后提供了两个新颖的LDLVM，并详尽地描述了其原理，建筑和优点。最后，讨论了前景和机会，包括重要的开放问题和可能的研究方向。

translated by 谷歌翻译

Deep Learning based Urban Vehicle Trajectory Analytics

Seongjin Choi

分类：机器学习

2021-11-15

“轨迹”是指由地理空间中的移动物体产生的迹线，通常由一系列按时间顺序排列的点表示，其中每个点由地理空间坐标集和时间戳组成。位置感应和无线通信技术的快速进步使我们能够收集和存储大量的轨迹数据。因此，许多研究人员使用轨迹数据来分析各种移动物体的移动性。在本文中，我们专注于“城市车辆轨迹”，这是指城市交通网络中车辆的轨迹，我们专注于“城市车辆轨迹分析”。城市车辆轨迹分析提供了前所未有的机会，可以了解城市交通网络中的车辆运动模式，包括以用户为中心的旅行经验和系统范围的时空模式。城市车辆轨迹数据的时空特征在结构上相互关联，因此，许多先前的研究人员使用了各种方法来理解这种结构。特别是，由于其强大的函数近似和特征表示能力，深度学习模型是由于许多研究人员的注意。因此，本文的目的是开发基于深度学习的城市车辆轨迹分析模型，以更好地了解城市交通网络的移动模式。特别是，本文重点介绍了两项研究主题，具有很高的必要性，重要性和适用性：下一个位置预测，以及合成轨迹生成。在这项研究中，我们向城市车辆轨迹分析提供了各种新型模型，使用深度学习。

translated by 谷歌翻译

A review of Generative Adversarial Networks for Electronic Health Records: applications, evaluation measures and data sources

Ghadeer Ghosheh , Jin Li , Tingting Zhu

分类：机器学习

2022-03-14

Electronic Health Records (EHRs) are a valuable asset to facilitate clinical research and point of care applications; however, many challenges such as data privacy concerns impede its optimal utilization. Deep generative models, particularly, Generative Adversarial Networks (GANs) show great promise in generating synthetic EHR data by learning underlying data distributions while achieving excellent performance and addressing these challenges. This work aims to review the major developments in various applications of GANs for EHRs and provides an overview of the proposed methodologies. For this purpose, we combine perspectives from healthcare applications and machine learning techniques in terms of source datasets and the fidelity and privacy evaluation of the generated synthetic datasets. We also compile a list of the metrics and datasets used by the reviewed works, which can be utilized as benchmarks for future research in the field. We conclude by discussing challenges in GANs for EHRs development and proposing recommended practices. We hope that this work motivates novel research development directions in the intersection of healthcare and machine learning.

translated by 谷歌翻译

Multivariable Fractional Polynomials for lithium-ion batteries degradation models under dynamic conditions

Clara Bertinelli Salucci , Azzeddine Bakdi , Ingrid K. Glad , Erik Vanem , Riccardo De Bin

分类：机器学习

2021-02-16

通过有效的监控和调整电池操作条件，促进了锂离子电池的寿命和安全性。因此，为电池管理系统上的健康状况（SOH）监测提供快速准确的算法至关重要。由于对电池劣化的复杂性和多种因素的复杂性和多种因素的复杂性，特别是因为不同的劣化过程发生在各种时间尺度，并且它们的相互作用发挥着重要作用。数据驱动方法通过用统计或机器学习模型近似复杂进程来绕过这个问题。本文提出了一种数据驱动方法，在电池劣化的背景下，尽管其简单性和易于计算：多变量分数多项式（MFP）回归。模型从一个耗尽的细胞的历史数据训练，并用于预测其他细胞的SOH。数据的特征在于模拟动态操作条件的载荷变化。考虑了两个假设情景：假设最近的容量测量是已知的，则另一个仅基于标称容量。结果表明，在考虑到电池寿命的电池结束时，通过其历史数据的历史数据受到它们的历史数据的影响，电池的降解行为受到其历史数据的影响。此外，我们提供了一种多因素视角，分析了每个不同因素的影响程度。最后，我们与长期内记忆神经网络和其他来自相同数据集的文献的其他作品进行比较。我们得出结论，MFP回归与当代作品有效和竞争，提供了几种额外的优点。在可解释性，恒定性和可实现性方面。

translated by 谷歌翻译

The use of Generative Adversarial Networks to characterise new physics in multi-lepton final states at the LHC

Thabang Lebese , Bruce Mellado , Xifeng Ruan

分类：机器学习

2021-05-31

机器学习中的半监管可用于搜索信号加背景区域未标记的新物理学。这强烈降低了搜索标准模型的信号的模型依赖性。这种方法显示了过度拟合可以产生假信号的缺点。折腾玩具蒙特卡罗（MC）事件可用于通过频繁推断估计相应的试验因子。但是，基于完全检测器模拟的MC事件是资源密集型的。生成的对抗网络（GANS）可用于模拟MC发生器。 GANS是强大的生成模型，但经常遭受培训不稳定。今后我们展示了对GAN的审查。我们倡导使用Wassersein Gan（Wan）的重量剪裁和渐变刑罚（Wan-GP），批评评论者的渐变率是对其投入的惩罚。在多Lepton异常的出现之后，我们在LHC的$ B $ -Quark结合时使用GANS为Di-Leptons最终状态。找到MC和Wgan-GP生成的事件之间的良好一致性，用于研究中选择的可观察结果。

translated by 谷歌翻译

Convex space learning improves deep-generative oversampling for tabular imbalanced classification on smaller datasets

Kristian Schultz , Saptarshi Bej , Waldemar Hahn , Markus Wolfien , Prashant Srivastava , Olaf Wolkenhauer

分类：机器学习

2022-06-20

数据通常以表格格式存储。几个研究领域（例如，生物医学，断层/欺诈检测），容易出现不平衡的表格数据。由于阶级失衡，对此类数据的监督机器学习通常很困难，从而进一步增加了挑战。合成数据生成，即过采样是一种用于提高分类器性能的常见补救措施。最先进的线性插值方法，例如洛拉斯和普罗拉斯，可用于从少数族裔类的凸空间中生成合成样本，以在这种情况下提高分类器的性能。生成的对抗网络（GAN）是合成样本生成的常见深度学习方法。尽管GAN被广泛用于合成图像生成，但在不平衡分类的情况下，它们在表格数据上的范围没有充分探索。在本文中，我们表明，与线性插值方法相比，现有的深层生成模型的性能较差，该方法从少数族裔类的凸空间中生成合成样本，对于小规模的表格数据集中的分类问题不平衡。我们提出了一个深厚的生成模型，将凸出空间学习和深层生成模型的思想结合在一起。 Convgen了解了少数族类样品的凸组合的系数，因此合成数据与多数类的不同。我们证明，与现有的深层生成模型相比，我们提出的模型Convgen在与现有的线性插值方法相当的同时，改善了此类小数据集的不平衡分类。此外，我们讨论了如何将模型用于一般的综合表格数据生成，甚至超出了数据不平衡的范围，从而提高了凸空间学习的整体适用性。

translated by 谷歌翻译

Improving Correlation Capture in Generating Imbalanced Data using Differentially Private Conditional GANs

Chang Sun , Johan van Soest , Michel Dumontier

分类：机器学习 | 人工智能

2022-06-28

尽管在文本，图像和视频上生成的对抗网络（GAN）取得了显着的成功，但由于一些独特的挑战，例如捕获不平衡数据中的依赖性，因此仍在开发中，生成高质量的表格数据仍在开发中，从而优化了合成患者数据的质量。保留隐私。在本文中，我们提出了DP-CGAN，这是一个由数据转换，采样，条件和网络培训组成的差异私有条件GAN框架，以生成现实且具有隐私性的表格数据。 DP-Cgans区分分类和连续变量，并将它们分别转换为潜在空间。然后，我们将条件矢量构建为附加输入，不仅在不平衡数据中介绍少数族裔类，还可以捕获变量之间的依赖性。我们将统计噪声注入DP-CGAN的网络训练过程中的梯度，以提供差异隐私保证。我们通过统计相似性，机器学习绩效和隐私测量值在三个公共数据集和两个现实世界中的个人健康数据集上使用最先进的生成模型广泛评估了我们的模型。我们证明，我们的模型优于其他可比模型，尤其是在捕获变量之间的依赖性时。最后，我们在合成数据生成中介绍了数据实用性与隐私之间的平衡，考虑到现实世界数据集的不同数据结构和特征，例如不平衡变量，异常分布和数据的稀疏性。

translated by 谷歌翻译

Introduction to Machine Learning for the Sciences

Titus Neupert , Mark H Fischer , Eliska Greplova , Kenny Choo , M. Michael Denner

分类：机器学习

2021-02-08

这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识，以在自己的项目中使用机器学习，并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中，我们讨论受监督，无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始，例如原理分析，T-SNE，聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构，例如密集的进料和常规神经网络，经常性的神经网络，受限的玻尔兹曼机器，（变性）自动编码器，生成的对抗性网络。讨论了潜在空间表示的解释性问题，并使用梦和对抗性攻击的例子。最后一部分致力于加强学习，我们在其中介绍了价值功能和政策学习的基本概念。

translated by 谷歌翻译

Modeling Wind Turbine Performance and Wake Interactions with Machine Learning

C. Moss , R. Maulik , G. V. Iungo

分类：机器学习

2022-12-02

Different machine learning (ML) models are trained on SCADA and meteorological data collected at an onshore wind farm and then assessed in terms of fidelity and accuracy for predictions of wind speed, turbulence intensity, and power capture at the turbine and wind farm levels for different wind and atmospheric conditions. ML methods for data quality control and pre-processing are applied to the data set under investigation and found to outperform standard statistical methods. A hybrid model, comprised of a linear interpolation model, Gaussian process, deep neural network (DNN), and support vector machine, paired with a DNN filter, is found to achieve high accuracy for modeling wind turbine power capture. Modifications of the incoming freestream wind speed and turbulence intensity, $TI$, due to the evolution of the wind field over the wind farm and effects associated with operating turbines are also captured using DNN models. Thus, turbine-level modeling is achieved using models for predicting power capture while farm-level modeling is achieved by combining models predicting wind speed and $TI$ at each turbine location from freestream conditions with models predicting power capture. Combining these models provides results consistent with expected power capture performance and holds promise for future endeavors in wind farm modeling and diagnostics. Though training ML models is computationally expensive, using the trained models to simulate the entire wind farm takes only a few seconds on a typical modern laptop computer, and the total computational cost is still lower than other available mid-fidelity simulation approaches.

translated by 谷歌翻译

The Dark Machines Anomaly Score Challenge: Benchmark Data and Model Independent Event Classification for the Large Hadron Collider

T. Aarrestad , M. van Beekveld , M. Bona , A. Boveia , S. Caron , J. Davies , A. De Simone , C. Doglioni , J. M. Duarte , A. Farbin

分类： (统计)机器学习

2021-05-28

我们描述了作为黑暗机器倡议和LES Houches 2019年物理学研讨会进行的数据挑战的结果。挑战的目标是使用无监督机器学习算法检测LHC新物理学的信号。首先，我们提出了如何实现异常分数以在LHC搜索中定义独立于模型的信号区域。我们定义并描述了一个大型基准数据集，由> 10亿美元的Muton-Proton碰撞，其中包含> 10亿美元的模拟LHC事件组成。然后，我们在数据挑战的背景下审查了各种异常检测和密度估计算法，我们在一组现实分析环境中测量了它们的性能。我们绘制了一些有用的结论，可以帮助开发无监督的新物理搜索在LHC的第三次运行期间，并为我们的基准数据集提供用于HTTPS://www.phenomldata.org的未来研究。重现分析的代码在https://github.com/bostdiek/darkmachines-unsupervisedChallenge提供。

translated by 谷歌翻译

Generative Adversarial Networks and Other Generative Models

Markus Wenzel

分类：计算机视觉 | 机器学习

2022-07-08

与CNN的分类，分割或对象检测相比，生成网络的目标和方法根本不同。最初，它们不是作为图像分析工具，而是生成自然看起来的图像。已经提出了对抗性训练范式来稳定生成方法，并已被证明是非常成功的 - 尽管绝不是第一次尝试。本章对生成对抗网络（GAN）的动机进行了基本介绍，并通过抽象基本任务和工作机制并得出了早期实用方法的困难来追溯其成功的道路。将显示进行更稳定的训练方法，也将显示出不良收敛及其原因的典型迹象。尽管本章侧重于用于图像生成和图像分析的gan，但对抗性训练范式本身并非特定于图像，并且在图像分析中也概括了任务。在将GAN与最近进入场景的进一步生成建模方法进行对比之前，将闻名图像语义分割和异常检测的架构示例。这将允许对限制的上下文化观点，但也可以对gans有好处。

translated by 谷歌翻译

TabSynDex: A Universal Metric for Robust Evaluation of Synthetic Tabular Data

Vikram S Chundawat , Ayush K Tarun , Murari Mandal , Mukund Lahoti , Pratik Narang

分类：机器学习

2022-07-12

当真实数据有限，收集昂贵或由于隐私问题而无法使用时，合成表格数据生成至关重要。但是，生成高质量的合成数据具有挑战性。已经提出了几种基于概率，统计和生成的对抗网络（GAN）方法，用于合成表格数据生成。一旦生成，评估合成数据的质量就非常具有挑战性。文献中已经使用了一些传统指标，但缺乏共同，健壮和单一指标。这使得很难正确比较不同合成表格数据生成方法的有效性。在本文中，我们提出了一种新的通用度量，tabsyndex，以对合成数据进行强有力的评估。 TABSYNDEX通过不同的组件分数评估合成数据与实际数据的相似性，这些分量分数评估了“高质量”合成数据所需的特征。作为单个评分度量，TABSYNDEX也可以用来观察和评估基于神经网络的方法的训练。这将有助于获得更早的见解。此外，我们提出了几种基线模型，用于与现有生成模型对拟议评估度量的比较分析。

translated by 谷歌翻译