机器学习(ML)方法已被证明是物理科学中非常成功的工具,特别是在应用于实验数据分析时。人工智能特别擅长在高维数据中识别模式,通常优于人类。在这里,我们应用了一个名为主成分分析(PCA)的简单ML工具,以研究来自μON光谱的数据。来自该实验的测量数量是不对称功能,其具有关于样品的平均内在磁场的信息。不对称功能的变化可能表示相变;然而,这些变化可能非常微妙,并且现有的分析方法需要了解材料的特定物理。 PCA是一个无人驾驶的ML工具,这意味着不需要对输入数据的假设,但我们发现它仍然可以成功应用于不对称曲线,并且可以恢复相位转换的指示。将该方法应用于具有不同底层物理的一系列磁性材料。我们发现,同时对所有这些材料进行PCA可以对相变指示器的清晰度产生积极影响,并且还可以改善不对称功能最重要变化的检测。对于这个联合PCA,我们介绍了一种简单的方法来跟踪不同材料的贡献以获得更有意义的分析。
translated by 谷歌翻译
本文通过研究阶段转换的$ Q $State Potts模型,通过许多无监督的机器学习技术,即主成分分析(PCA),$ K $ - 梅尔集群,统一歧管近似和投影(UMAP),和拓扑数据分析(TDA)。即使在所有情况下,我们都能够检索正确的临界温度$ t_c(q)$,以$ q = 3,4 $和5 $,结果表明,作为UMAP和TDA的非线性方法依赖于有限尺寸效果,同时仍然能够区分第一和二阶相转换。该研究可以被认为是在研究相转变的调查中使用不同无监督的机器学习算法的基准。
translated by 谷歌翻译
激光诱导的击穿光谱是用于在环境压力下快速和直接的样品的快速和直接多元素映射的优选技术,而没有对靶元素的任何限制。然而,Libs映射数据具有两个特殊性:由于单次测量而导致的内在低信噪比,并且由于获得用于成像的高频频谱而导致的高维度。这使得所有变速器都变高:在这种情况下,消融光斑直径减小,以及烧结质量和发射信号,而给定表面的光谱数量增加。因此,从嘈杂和大型数据集中有效地提取物理化学信息是一个主要问题。几位作者引入多变量方法作为应对这些数据的手段,特别是主要成分分析。然而,已知PCA为数据集的一致重建呈现了理论限制,因此有利于Libs映射数据的有效解释的限制。在本文中,我们使用离散小波变换和基于内核的稀疏PCA来引入HyperPCA,用于高光谱图像的新分析工具,用于使用基于内核的稀疏PCA来降低噪声对数据的影响,并始终重建光谱信号,特别强调libs数据。首先使用模拟Libs映射数据集来说明该方法,以强调其具有高噪声和/或高度干扰的光谱的性能。提供了标准PCA和传统的单变量数据分析的比较。最后,它用于在两种情况下处理实际数据,清楚地说明所提出的算法的潜力。我们表明该方法在回收的信息的数量和质量上具有优势,从而提高了分析表面的物理化学表征。
translated by 谷歌翻译
质量不足的质量生产可能会对工具,生产下降和低质量产品造成极为昂贵的损害。非常需要自动,快速和廉价的策略来估算质量控制,降低风险和故障预测的重要材料特性。在这项工作中,我们分析了高吞吐量的基于钢的产品。目前,使用手动破坏性测试检查材料质量,该测试缓慢,浪费,仅覆盖一小部分材料。为了获得完整的测试覆盖范围,我们的工业合作者开发了一种非接触式,无创的电磁传感器,以实时测量所有材料。我们的贡献是三个方面:1)我们在受控的实验中表明,传感器可以通过故意改变特性区分钢。 2)对48个钢管进行了全面测量,并对样品进行了其他破坏性测试,以作为地面真理。拟合线性模型可从非侵入性测量中预测通常通过破坏性测试获得的两种关键材料特性(屈服强度和拉伸强度)。在剩余的交叉验证中评估性能。 3)所得模型用于分析用非侵入性传感器测量的〜108 km的处理材料的实际生产数据上的材料特性和与记录的产品故障的关系。该模型实现了出色的性能(F3得分为0.95),预测材料的拉伸强度规格不足。模型预测和记录的产品故障的组合表明,如果大量的估计收益应力值不超出规格,则产品故障的风险很高。我们的分析证明了实时质量控制,风险监控和故障检测的有希望的方向。
translated by 谷歌翻译
模式形成过程中拓扑和微观结构方案中过渡的识别和分类对于理解和制造许多应用领域中的微观结构精确的新型材料至关重要。不幸的是,相关的微观结构过渡可能取决于以微妙而复杂的方式取决于过程参数,而经典相变理论未捕获。尽管有监督的机器学习方法可能对识别过渡制度很有用,但他们需要标签,这些标签需要先验了解订单参数或描述这些过渡的相关结构。由动态系统的通用原理的激励,我们使用一种自我监督的方法来解决使用神经网络从观察到的微观结构中预测过程参数的反问题。这种方法不需要关于不同类别的微观结构模式或预测微观结构过渡的目标任务的预定义的,标记的数据。我们表明,执行逆问题预测任务的困难与发现微观结构制度的目标有关,因为微观结构模式的定性变化与我们自我监督问题的不确定性预测的变化相对应。我们通过在两个不同的模式形成过程中自动发现微观结构方案中的过渡来证明我们的方法的价值:两相混合物的旋律分解以及在薄膜物理蒸气沉积过程中二进制合金浓度调制的形成。这种方法为发现和理解看不见的或难以辨认的过渡制度开辟了一个有希望的途径,并最终用于控制复杂的模式形成过程。
translated by 谷歌翻译
由于机器学习是当前计算材料科学文献中的流行主题,因此为化合物创建表示形式已成为普遍的位置。这些表示形式很少被比较,因为评估了它们的性能 - 与它们一起使用的算法的性能是非平凡的。由于研究过程引起的许多材料数据集含有偏差和偏斜,因此已经引入了一个集群交叉验证(LOCO-CV),以衡量算法在预测以前看不见的材料基团时的性能。这提出了对Loco-CV测量结果的簇大小范围的影响和控制的问题。我们提出了基于组成的表示之间的详尽比较,并研究了如何使用内核近似功能来更好地分开数据以增强Loco-CV应用程序。我们发现,在大多数测试的任务中,域知识并不能提高机器学习的性能,而带隙预测是显着的例外。我们还发现,径向基函数在所有测试的10个数据集中提高了化学数据集的线性可分离性,并为在Loco-CV过程中应用此函数的应用提供了一个框架,以改善机车-CV测量结果,无论机器学习算法如何,选择度量和复合表示的选择。我们建议将内核Loco-CV作为训练范式,以示材料数据上的算法的外推能力。
translated by 谷歌翻译
过渡光谱是一种有力的工具,可以解码额外行星气氛的化学成分。在本文中,我们专注于分析来自过渡外部的光谱数据的无监督技术。我们展示了i)的方法,清洁和验证数据,ii)基于概述统计(位置和变异性估计),iii)的初始探索数据分析,iii)探索和量化数据中的现有相关性,IV)预处理和线性变换数据到其主要成分,v)维数减少和歧管学习,vi)聚类和异常检测,vii)可视化和数据的解释。为了说明所提出的无监督方法,我们使用众所周知的公共基准数据集的合成传输谱。我们表明光谱数据中存在高度的相关性,该数据呼叫适当的低维表示。我们探索了许多不同的技术,用于减少这种维数,在概要统计,主成分等方面确定几种合适的选择。我们在主成分基础上发现有趣的结构,即与不同化学制度相对应的明确定义的分支。底层大气。我们证明,这些分支可以以完全无监督的方式用K-Means聚类算法成功恢复。我们倡导第三个主成分的光谱数据的三维表示,以揭示数据中的现有结构并快速表征行星的化学类。
translated by 谷歌翻译
人工智能(AI)和机器学习(ML)的最新表现突破,尤其是深度学习的进步(DL),功能强大,易于使用的ML库(例如Scikit-Learn,Tensorflow,Pytorch。),Pytorch。,Pytorch。。核工程师对AI/ML的前所未有的兴趣,并增加了计算能力。对于基于物理学的计算模型,已经广泛研究了验证,验证和不确定性定量(VVUQ),并且已经开发了许多方法。但是,ML模型的VVUQ的研究相对较少,尤其是在核工程中。在这项工作中,我们专注于ML模型的UQ作为ML VVUQ的初步步骤,更具体地说,是Deep Neural Networks(DNNS),因为它们是用于回归和分类任务的最广泛使用的监督ML算法。这项工作旨在量化DNN的预测或近似不确定性,当它们用作昂贵的物理模型的替代模型时。比较了DNN UQ的三种技术,即Monte Carlo辍学(MCD),深层合奏(DE)和贝叶斯神经网络(BNNS)。两个核工程示例用于基准这些方法,(1)使用野牛代码的时间依赖性裂变气体释放数据,以及(2)基于BFBT基准测试的无效分数模拟使用痕量代码。发现这三种方法通常需要不同的DNN体系结构和超参数来优化其性能。 UQ结果还取决于可用培训数据的量和数据的性质。总体而言,所有这三种方法都可以提供对近似不确定性的合理估计。当平均预测接近测试数据时,不确定性通常较小,而BNN方法通常会产生比MCD和DE更大的不确定性。
translated by 谷歌翻译
机器学习方法的最新进展以及扫描探针显微镜(SPMS)的可编程接口的新兴可用性使自动化和自动显微镜在科学界的关注方面推向了最前沿。但是,启用自动显微镜需要开发特定于任务的机器学习方法,了解物理发现与机器学习之间的相互作用以及完全定义的发现工作流程。反过来,这需要平衡领域科学家的身体直觉和先验知识与定义实验目标和机器学习算法的奖励,这些算法可以将它们转化为特定的实验协议。在这里,我们讨论了贝叶斯活跃学习的基本原理,并说明了其对SPM的应用。我们从高斯过程作为一种简单的数据驱动方法和对物理模型的贝叶斯推断作为基于物理功能的扩展的贝叶斯推断,再到更复杂的深内核学习方法,结构化的高斯过程和假设学习。这些框架允许使用先验数据,在光谱数据中编码的特定功能以及在实验过程中表现出的物理定律的探索。讨论的框架可以普遍应用于结合成像和光谱,SPM方法,纳米识别,电子显微镜和光谱法以及化学成像方法的所有技术,并且对破坏性或不可逆测量的影响特别影响。
translated by 谷歌翻译
我们采用变化性AutoEncoders从单粒子Anderson杂质模型谱函数的数据集中提取物理洞察。培训AutoEncoders以查找低维,潜在的空间表示,其忠实地表征培训集的每个元素,通过重建误差测量。变形式自动化器,标准自动化器的概率概括,进一步条件促进了高度可解释的特征。在我们的研究中,我们发现学习的潜在变量与众所周知的众所周知,但非活动的参数强烈关联,这些参数表征了安德森杂质模型中的紧急行为。特别地,一种潜在的可变变量与粒子孔不对称相关,而另一个潜在的变量与杂质模型中动态产生的低能量尺度接近一对一的对应关系。使用符号回归,我们将此变量模拟了该变量作为已知的裸物理输入参数和“重新发现”的kondo温度的非扰动公式。我们开发的机器学习管道表明了一种通用方法,它开启了发现其他物理系统中的新领域知识的机会。
translated by 谷歌翻译
成像,散射和光谱是理解和发现新功能材料的基础。自动化和实验技术的当代创新导致这些测量更快,分辨率更高,从而产生了大量的分析数据。这些创新在用户设施和同步射击光源时特别明显。机器学习(ML)方法经常开发用于实时地处理和解释大型数据集。然而,仍然存在概念障碍,进入设施一般用户社区,通常缺乏ML的专业知识,以及部署ML模型的技术障碍。在此,我们展示了各种原型ML模型,用于在国家同步光源II(NSLS-II)的多个波束线上在飞行分析。我们谨慎地描述这些示例,专注于将模型集成到现有的实验工作流程中,使得读者可以容易地将它们自己的ML技术与具有普通基础设施的NSLS-II或设施的实验中的实验。此处介绍的框架展示了几乎没有努力,多样化的ML型号通过集成到实验编程和数据管理的现有Blueske套件中与反馈回路一起运行。
translated by 谷歌翻译
批处理过程显示了几种可变性来源,从原材料的特性到制造过程中不同事件期间变化的初始和不断发展的条件。在本章中,我们将用一个工业示例说明如何使用机器学习来减少这种明显的数据,同时维护过程工程师的相关信息。将提出两个常见的用例:1)自动分析以快速找到批处理过程中的相关性,以及2)轨迹分析以监视和识别异常批次,从而导致过程控制改进。
translated by 谷歌翻译
与高维数据集的探索性分析(例如主成分分析(PCA))相反,邻居嵌入(NE)技术倾向于更好地保留高维数据的局部结构/拓扑。然而,保留局部结构的能力是以解释性为代价的:诸如T-分布的随机邻居嵌入(T-SNE)或统一的歧管近似和投影(UMAP)等技术没有提供拓扑结构的介绍(UMAP)(UMAP)(UMAP)(UMAP)(UMAP)(UMAP)(UMAP)。在相应的嵌入中看到的群集)结构。在这里,我们提出了基于PCA,Q-残基和Hotelling的T2贡献的化学计量学领域的不同“技巧”,并结合了新型可视化方法,从而得出了邻居嵌入的局部和全局解释。我们展示了我们的方法如何使用标准的单变量或多变量方法来识别数据点组之间的歧视性特征。
translated by 谷歌翻译
Recent developments in the methods of explainable AI (XAI) methods allow researchers to explore the inner workings of deep neural networks (DNNs), revealing crucial information about input-output relationships and realizing how data connects with machine learning models. In this paper we explore interpretability of DNN models designed to identify jets coming from top quark decay in high energy proton-proton collisions at the Large Hadron Collider (LHC). We review a subset of existing top tagger models and explore different quantitative methods to identify which features play the most important roles in identifying the top jets. We also investigate how and why feature importance varies across different XAI metrics, how feature correlations impact their explainability, and how latent space representations encode information as well as correlate with physically meaningful quantities. Our studies uncover some major pitfalls of existing XAI methods and illustrate how they can be overcome to obtain consistent and meaningful interpretation of these models. We additionally illustrate the activity of hidden layers as Neural Activation Pattern (NAP) diagrams and demonstrate how they can be used to understand how DNNs relay information across the layers and how this understanding can help to make such models significantly simpler by allowing effective model reoptimization and hyperparameter tuning. By incorporating observations from the interpretability studies, we obtain state-of-the-art top tagging performance from augmented implementation of existing network
translated by 谷歌翻译
机器学习最近被出现为研究复杂现象的有希望的方法,其特征是丰富的数据集。特别地,以数据为中心的方法为手动检查可能错过的实验数据集中自动发现结构的可能性。在这里,我们介绍可解释的无监督监督的混合机学习方法,混合相关卷积神经网络(Hybrid-CCNN),并将其应用于使用基于Rydberg Atom阵列的可编程量子模拟器产生的实验数据。具体地,我们应用Hybrid-CCNN以通过可编程相互作用分析在方形格子上的新量子阶段。初始无监督的维度降低和聚类阶段首先揭示了五个不同的量子相位区域。在第二个监督阶段,我们通过培训完全解释的CCNN来细化这些相界并通过训练每个阶段提取相关的相关性。在条纹相中的每个相捕获量子波动中专门识别的特征空间加权和相关的相关性并鉴定两个先前未检测到的相,菱形和边界有序相位。这些观察结果表明,具有机器学习的可编程量子模拟器的组合可用作有关相关量子态的详细探索的强大工具。
translated by 谷歌翻译
尽管在最近的研究中,冷水珊瑚的分布模式(例如paragorgia achorea)受到了越来越多的关注,但对它们的原位活性模式知之甚少。在本文中,我们使用机器学习技术检查了灰木杆菌中的息肉活动,以分析从挪威Stjernsund部署的自主登录机群集获得的高分辨率时间序列数据和照片。本文得出的模型的互动说明是作为补充材料提供的。我们发现,珊瑚息肉扩展程度的最佳预测指标是当前方向,滞后为三个小时。与水流无直接相关的其他变量(例如温度和盐度)提供了更少的有关息肉活动的信息。有趣的是,可以通过对测量位点上方的水柱中的层流进行采样,而不是通过对珊瑚的直接流中的更湍流流进行采样。我们的结果表明,灰木息肉的活性模式受Stjernsund的强潮流状态的控制。看来,木托氏菌对环境当前状态的较短变化没有反应,而是根据潮汐周期本身的大规模模式来调整其行为,以优化营养的吸收。
translated by 谷歌翻译
在许多反应流系统中,已知或假定热化学状态空间与低维歧管(LDM)相近。可以使用各种方法来获取这些歧管,并随后表达具有更少参数化变量的原始高维空间。主成分分析(PCA)是可用于获得LDM的维度降低方法之一。 PCA没有对参数化变量做出事先假设,并从训练数据中凭经验检索它们。在本文中,我们表明将PCA应用于局部数据簇(本地PCA)能够检测热化学状态空间的内在参数化。我们首先证明,使用三种不同复杂性的共同燃烧模型:Burke-Schumann模型,化学平衡模型和均匀反应器。这些模型的参数化已知先验,可以通过本地PCA方法进行基准测试。我们进一步将本地PCA的应用扩展到更具挑战性的案例,即湍流的非原型$ n $ heptane/air喷气火焰,该燃料不再显而易见。我们的结果表明,对于更复杂的数据集也可以获得有意义的参数化。我们表明,局部PCA找到可以链接到局部化学计量,反应进度和烟灰形成过程的变量。
translated by 谷歌翻译
The ongoing transition from a linear (produce-use-dispose) to a circular economy poses significant challenges to current state-of-the-art information and communication technologies. In particular, the derivation of integrated, high-level views on material, process, and product streams from (real-time) data produced along value chains is challenging for several reasons. Most importantly, sufficiently rich data is often available yet not shared across company borders because of privacy concerns which make it impossible to build integrated process models that capture the interrelations between input materials, process parameters, and key performance indicators along value chains. In the current contribution, we propose a privacy-preserving, federated multivariate statistical process control (FedMSPC) framework based on Federated Principal Component Analysis (PCA) and Secure Multiparty Computation to foster the incentive for closer collaboration of stakeholders along value chains. We tested our approach on two industrial benchmark data sets - SECOM and ST-AWFD. Our empirical results demonstrate the superior fault detection capability of the proposed approach compared to standard, single-party (multiway) PCA. Furthermore, we showcase the possibility of our framework to provide privacy-preserving fault diagnosis to each data holder in the value chain to underpin the benefits of secure data sharing and federated process modeling.
translated by 谷歌翻译
使用机器学习算法来预测复杂系统的行为正在蓬勃发展。但是,在包括燃烧在内的多物理问题中有效利用机器学习工具的关键是将它们与物理和计算机模型搭配使用。如果所有先验知识和物理约束都体现了这些工具的性能。换句话说,必须对科学方法进行调整,以使机器学习进入图片,并充分利用我们生成的大量数据,这要归功于数值计算的进步。本章回顾了一些开放的机会,用于应用燃烧系统的数据驱动的减少订单建模。提供了湍流燃烧数据,经验低维歧管(ELDM)识别,分类,回归和降低阶数模型中特征提取的示例。
translated by 谷歌翻译
This paper describes a simple technique to analyze Generative Adversarial Networks (GANs) and create interpretable controls for image synthesis, such as change of viewpoint, aging, lighting, and time of day. We identify important latent directions based on Principal Component Analysis (PCA) applied either in latent space or feature space. Then, we show that a large number of interpretable controls can be defined by layer-wise perturbation along the principal directions. Moreover, we show that BigGAN can be controlled with layer-wise inputs in a StyleGAN-like manner. We show results on different GANs trained on various datasets, and demonstrate good qualitative matches to edit directions found through earlier supervised approaches.
translated by 谷歌翻译