智能论文笔记

Learning Physics from the Machine: An Interpretable Boosted Decision Tree Analysis for the Majorana Demonstrator

I. J. Arnquist , F. T. Avignone III , A. S. Barabash , C. J. Barton , K. H. Bhimani , E. Blalock , B. Bos , M. Busch , M. Buuck , T. S. Caldwell

分类：机器学习

2022-07-21

Majorana示威者是一项领先的实验，寻找具有高纯净锗探测器（HPGE）的中性s中性双β衰变。机器学习提供了一种最大化这些检测器提供的信息量的新方法，但是与传统分析相比，数据驱动的性质使其不可解释。一项可解释性研究揭示了机器的决策逻辑，使我们能够从机器中学习以反馈传统分析。在这项工作中，我们介绍了Majorana演示者数据的第一个机器学习分析。这也是对任何锗探测器实验的第一个可解释的机器学习分析。训练了两个梯度增强的决策树模型，以从数据中学习，并进行了基于游戏理论的模型可解释性研究，以了解分类功率的起源。通过从数据中学习，该分析识别重建参数之间的相关性，以进一步增强背景拒绝性能。通过从机器中学习，该分析揭示了新的背景类别对相互利用的标准Majorana分析的重要性。该模型与下一代锗探测器实验（如传说）高度兼容，因为它可以同时在大量探测器上进行训练。

translated by 谷歌翻译

KamNet: An Integrated Spatiotemporal Deep Neural Network for Rare Event Search in KamLAND-Zen

A. Li , Z. Fu , L. Winslow , C. Grant , H. Song , H. Ozaki , I. Shimizu , A. Takeuchi

分类：机器学习

2022-03-03

罕见的事件搜索使我们能够通过利用专门的大型探测器来搜索无法与其他方式无法访问的新物理学。机器学习提供了一种新工具来最大化这些检测器提供的信息。信息很少，这迫使这些算法从最低级别的数据开始，并利用检测器中的所有对称性来产生结果。在这项工作中，我们提出了Kamnet，该Kamnet在几何深度学习和时空数据分析中实现了突破，以最大程度地提高Kamland-Zen的物理范围，Kamland-Zen是kiloton量表球形液体闪烁体检测器，以寻找中微子的中微子双β衰减（$ 0 \ beta \ beta \ beta \ beta $）。使用Kamland的简化背景模型，我们表明Kamnet在基准MC模拟上以较高的鲁棒性水平优于常规CNN。然后，我们使用模拟数据，证明了Kamnet将Kamland-Zen的敏感性提高到$ 0 \ nu \ beta \ beta \ beta $和$ 0 \ nu \ beta \ beta \ beta $的能力。这项工作的一个关键组成部分是增加了注意机制来阐明基础物理Kamnet用于背景排斥。

translated by 谷歌翻译

Advances in Multi-Variate Analysis Methods for New Physics Searches at the Large Hadron Collider

Anna Stakia , Tommaso Dorigo , Giovanni Banelli , Daniela Bortoletto , Alessandro Casa , Pablo de Castro , Christophe Delaere , Julien Donini , Livio Finos , Michele Gallinaro

分类：机器学习

2021-05-16

在2015年和2019年之间，地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”，研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用，并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人，仍然在测试阶段，承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中，在研究和开发的那些中，最相关的新工具以及对其性能的评估。

translated by 谷歌翻译

Beyond Cuts in Small Signal Scenarios -- Enhanced Sneutrino Detectability Using Machine Learning

Daniel Alvestad , Nikolai Fomin , Jörn Kersten , Steffen Maeland , Inga Strümke

分类： (统计)机器学习

2021-08-06

在背景主导的情况下，通过机器学习和信号和背景之间的可观察者之间的高度重叠来调查LHC在LHC的新物理搜索的敏感性。我们使用两种不同的型号，XGBoost和深度神经网络，利用可观察到之间的相关性，并将这种方法与传统的切割方法进行比较。我们认为不同的方法来分析模型的输出，发现模板拟合通常比简单的切割更好地执行。通过福芙氏分解，我们可以额外了解事件运动学与机器学习模型输出之间的关系。我们认为具有亚霉素的超对称场景作为一个具体示例，但方法可以应用于更广泛的超对称模型。

translated by 谷歌翻译

Energy reconstruction for large liquid scintillator detectors with machine learning techniques: aggregated features approach

Arsenii Gavrikov , Yury Malyshkin , Fedor Ratnikov

分类：机器学习

2022-06-17

由液体闪光灯（LS）靶标组成的大型探测器被一系列照片 - 型型管（PMT）包围，广泛用于现代中微子实验中：Borexino，Kamland，Daya Bay，Double Chooz，Reno，Reno，Reno和即将到来的Juno及其卫星朱诺检测器陶。这样的设备能够测量中微子能量，这可以从PMT通道上的光及其空间和时间分布中得出。但是，在大规模探测器中实现精细的能源分辨率是具有挑战性的。在这项工作中，我们介绍了该类型最先进的检测器Juno的能源重建方法的机器学习方法。我们专注于0-10 MEV的能量范围的正电子事件，该事件与juno $ - $中微子中的主要信号相对应，该信号源自核反应堆核心，并通过逆β-蛋白通道检测到。我们考虑使用PMTS收集的信息计算的综合特征，并在综合特征上进行了培训的深层神经网络。我们描述了我们功能工程程序的详细信息，并表明机器学习模型可以使用工程功能的子集提供能源分辨率$ \ sigma = 3 \％$。用于模型培训和测试的数据集由Monte Carlo方法与官方Juno软件生成。还提出了用于评估实际数据重建算法性能的校准源。

translated by 谷歌翻译

Explainable Machine Learning for Breakdown Prediction in High Gradient RF Cavities

Christoph Obermair , Thomas Cartier-Michaud , Andrea Apollonio , William Millar , Lukas Felsberger , Lorenz Fischl , Holger Severin Bovbjerg , Daniel Wollmann , Walter Wuensch , Nuria Catalan-Lasheras

分类：机器学习

2022-02-10

The occurrence of vacuum arcs or radio frequency (rf) breakdowns is one of the most prevalent factors limiting the high-gradient performance of normal conducting rf cavities in particle accelerators. In this paper, we search for the existence of previously unrecognized features related to the incidence of rf breakdowns by applying a machine learning strategy to high-gradient cavity data from CERN's test stand for the Compact Linear Collider (CLIC). By interpreting the parameters of the learned models with explainable artificial intelligence (AI), we reverse-engineer physical properties for deriving fast, reliable, and simple rule-based models. Based on 6 months of historical data and dedicated experiments, our models show fractions of data with a high influence on the occurrence of breakdowns. Specifically, it is shown that the field emitted current following an initial breakdown is closely related to the probability of another breakdown occurring shortly thereafter. Results also indicate that the cavity pressure should be monitored with increased temporal resolution in future experiments, to further explore the vacuum activity associated with breakdowns.

translated by 谷歌翻译

IDP-PGFE: An Interpretable Disruption Predictor based on Physics-Guided Feature Extraction

Chengshuo Shen , Wei Zheng , Yonghua Ding , Xinkun Ai , Fengming Xue , Yu Zhong , Nengchao Wang , Li Gao , Zhipeng Chen , Zhoujun Yang

分类：人工智能 | 机器学习

2022-08-28

近年来，破坏预测取得了迅速的进展，尤其是在机器学习（ML）的方法中。理解为什么预测因子使某个预测与未来Tokamak破坏预测指标的预测准确性一样至关重要。大多数破坏预测因素的目的是准确性或跨机能力。但是，如果可以解释中断预测模型，则可以说明为什么某些样品被归类为中断前体。这使我们能够说出传入的破坏类型，并使我们深入了解破坏机制。本文根据J-TEXT上的物理引导特征提取（IDP-PGFE）设计了一种称为可解释的破坏预测变量的破坏预测变量。通过提取物理引导的特征有效地改善了模型的预测性能。需要高性能模型来确保解释结果的有效性。 IDP-PGFE的可解释性研究提供了对J-Text破坏的理解，并且通常与现有的破坏理解一致。 IDP-PGFE已被应用于破坏，因为在J文本上的密度极限实验的密度不断增加。 PGFE的时间演变具有贡献，表明ECRH的应用触发了辐射引起的破坏，从而降低了破坏时的密度。虽然RMP的应用确实提高了J文本中的密度极限。解释性研究指导了RMP不仅会影响MHD不稳定性，而且还会影响辐射轮廓的密度极限破坏的物理机制，从而延迟了密度极限的破坏。

translated by 谷歌翻译

Pulse Shape Simulation and Discrimination using Machine-Learning Techniques

Shubham Dutta , Sayan Ghosh , Satyaki Bhattacharya , Satyajit Saha

分类：机器学习

2022-06-30

粒子识别实验质量的基本度量是其统计能力以区分信号和背景。在使用闪烁体检测器的许多核，高能和罕见的搜索实验中，脉冲形状歧视（PSD）是用于此目的的基本方法。传统技术利用信号和背景事件的脉冲衰减时间之间的差异或由不同类型的辐射量子引起的脉冲信号以实现良好的歧视。但是，只有当总的光发射足以获得适当的脉冲轮廓时，这种技术才有效。仅当由于检测器中的入射粒子而引起明显的后坐力时，才有可能。但是，罕见的事实搜索实验（例如中微子或深色可能的直接搜索实验）并不总是满足这些条件。因此，必须拥有一种可以在这些情况下提供非常有效歧视的方法。基于神经网络的机器学习算法已用于许多物理学领域，尤其是在高能实验中的分类问题，并且与传统技术相比，结果更好。我们介绍了我们对两种基于网络方法的研究的结果。密集的神经网络和复发性神经网络，用于脉冲形状歧视，并将其与常规方法相同。

translated by 谷歌翻译

Applying Machine Learning to Life Insurance: some knowledge sharing to master it

Antoine Chancel , Laura Bradier , Antoine Ly , Razvan Ionescu , Laurene Martin

分类： (统计)机器学习 | 机器学习

2022-09-05

机器学习渗透到许多行业，这为公司带来了新的利益来源。然而，在人寿保险行业中，机器学习在实践中并未被广泛使用，因为在过去几年中，统计模型表明了它们的风险评估效率。因此，保险公司可能面临评估人工智能价值的困难。随着时间的流逝，专注于人寿保险行业的修改突出了将机器学习用于保险公司的利益以及通过释放数据价值带来的利益。本文回顾了传统的生存建模方法论，并通过机器学习技术扩展了它们。它指出了与常规机器学习模型的差异，并强调了特定实现在与机器学习模型家族中面对审查数据的重要性。在本文的补充中，已经开发了Python库。已经调整了不同的开源机器学习算法，以适应人寿保险数据的特殊性，即检查和截断。此类模型可以轻松地从该SCOR库中应用，以准确地模拟人寿保险风险。

translated by 谷歌翻译

Graph Neural Networks for Low-Energy Event Classification & Reconstruction in IceCube

R. Abbasi , M. Ackermann , J. Adams , N. Aggarwal , J. A. Aguilar , M. Ahlers , M. Ahrens , J. M. Alameddine , A. A. Alves Jr. , N. M. Amin

分类：机器学习

2022-09-07

ICECUBE是一种用于检测1 GEV和1 PEV之间大气和天体中微子的光学传感器的立方公斤阵列，该阵列已部署1.45 km至2.45 km的南极的冰盖表面以下1.45 km至2.45 km。来自ICE探测器的事件的分类和重建在ICeCube数据分析中起着核心作用。重建和分类事件是一个挑战，这是由于探测器的几何形状，不均匀的散射和冰中光的吸收，并且低于100 GEV的光，每个事件产生的信号光子数量相对较少。为了应对这一挑战，可以将ICECUBE事件表示为点云图形，并将图形神经网络（GNN）作为分类和重建方法。 GNN能够将中微子事件与宇宙射线背景区分开，对不同的中微子事件类型进行分类，并重建沉积的能量，方向和相互作用顶点。基于仿真，我们提供了1-100 GEV能量范围的比较与当前ICECUBE分析中使用的当前最新最大似然技术，包括已知系统不确定性的影响。对于中微子事件分类，与当前的IceCube方法相比，GNN以固定的假阳性速率（FPR）提高了信号效率的18％。另外，GNN在固定信号效率下将FPR的降低超过8（低于半百分比）。对于能源，方向和相互作用顶点的重建，与当前最大似然技术相比，分辨率平均提高了13％-20％。当在GPU上运行时，GNN能够以几乎是2.7 kHz的中位数ICECUBE触发速率的速率处理ICECUBE事件，这打开了在在线搜索瞬态事件中使用低能量中微子的可能性。

translated by 谷歌翻译

Towards a method to anticipate dark matter signals with deep learning at the LHC

Ernesto Arganda , Anibal D. Medina , Andres D. Perez , Alejandro Szynkman

分类：机器学习

2021-05-25

我们使用神经网络研究几种简化的暗物质（DM）模型及其在LHC的签名。我们专注于通常的单声角加上缺失的横向能量通道，但要训练算法我们在2D直方图中组织数据而不是逐个事件阵列。这导致较大的性能提升，以区分标准模型（SM）和SM以及新物理信号。我们使用KineMatic单速仪功能作为输入数据，允许我们描述具有单个数据示例的模型的系列。我们发现神经网络性能不依赖于模拟的后台事件数量，如果它们作为$ s / \ sqrt {b} $函数呈现，其中$ s $和$ b $是信号和背景的数量每直方图的事件分别。这提供了对方法的灵活性，因为在这种情况下测试特定模型只需要了解新物理单次横截面。此外，我们还在关于真实DM性质的错误假设下讨论网络性能。最后，我们提出了多模型分类器以更普遍的方式搜索和识别新信号，对于下一个LHC运行。

translated by 谷歌翻译

DeepSNR: A deep learning foundation for offline gravitational wave detection

Michael Andrews , Manfred Paulini , Luke Sellers , Alexey Bobrick , Gianni Martire , Haydn Vestal

分类：机器学习

2022-07-11

迄今为止，引力波发现的所有科学主张都依赖于候选观测值的离线统计分析，以量化相对于背景过程的重要性。 Ligo实验中这种离线检测管道中的当前基础是匹配的滤波器算法，该算法产生了基于信噪比的基于信噪比的统计量，用于对候选观测进行排名。现有的基于深度学习的尝试检测引力波，这些尝试在信号灵敏度和计算效率（计算效率）中都表现出了输出概率分数。但是，概率分数不容易集成到发现工作流程中，从而将深度学习的使用限制为迄今为止的非发现的应用程序。在本文中，引入了深度学习信噪比（DEEPSNR）检测管道，该检测管道使用了一种新方法来从深度学习分类器中生成信噪比排名统计量，从而为使用提供了第一个使用的基础在面向发现的管道中的深度学习算法。通过从第一次观察运行中识别二进制黑洞合并候选者与噪声源相对于噪声源来证明DeepSNR的性能。使用Ligo检测器响应的高保真模拟用于在物理观察物方面介绍深度学习模型的第一个灵敏度估计。还研究了在各种实验方面的DeepSNR的鲁棒性。结果为DeepSNR用于在更广泛的背景下的引力波和罕见信号的科学发现铺平了道路，从而有可能检测到昏迷的信号和从未被观察到的现象。

translated by 谷歌翻译

Feature Selection with Distance Correlation

Ranit Das , Gregor Kasieczka , David Shih

分类：机器学习

2022-11-30

Choosing which properties of the data to use as input to multivariate decision algorithms -- a.k.a. feature selection -- is an important step in solving any problem with machine learning. While there is a clear trend towards training sophisticated deep networks on large numbers of relatively unprocessed inputs (so-called automated feature engineering), for many tasks in physics, sets of theoretically well-motivated and well-understood features already exist. Working with such features can bring many benefits, including greater interpretability, reduced training and run time, and enhanced stability and robustness. We develop a new feature selection method based on Distance Correlation (DisCo), and demonstrate its effectiveness on the tasks of boosted top- and $W$-tagging. Using our method to select features from a set of over 7,000 energy flow polynomials, we show that we can match the performance of much deeper architectures, by using only ten features and two orders-of-magnitude fewer model parameters.

translated by 谷歌翻译

MLGWSC-1: The first Machine Learning Gravitational-Wave Search Mock Data Challenge

Marlin B. Schäfer , Ondřej Zelenka , Alexander H. Nitz , He Wang , Shichao Wu , Zong-Kuan Guo , Zhoujian Cao , Zhixiang Ren , Paraskevi Nousi , Nikolaos Stergioulas

分类：机器学习

2022-09-22

我们介绍了第一个机器学习引力波搜索模拟数据挑战（MLGWSC-1）的结果。在这一挑战中，参与的小组必须从二进制黑洞合并中识别出复杂性和持续时间逐渐嵌入在逐渐更现实的噪声中的引力波信号。 4个提供的数据集中的决赛包含O3A观察的真实噪声，并发出了20秒的持续时间，其中包含进动效应和高阶模式。我们介绍了在提交前从参与者未知的1个月的测试数据中得出的6个输入算法的平均灵敏度距离和运行时。其中4个是机器学习算法。我们发现，最好的基于机器学习的算法能够以每月1个的错误警报率（FAR）的速度（FAR）实现基于匹配过滤的生产分析的敏感距离的95％。相反，对于真实的噪音，领先的机器学习搜索获得了70％。为了更高的范围，敏感距离缩小的差异缩小到某些数据集上选择机器学习提交的范围$ \ geq 200 $以优于传统搜索算法的程度。我们的结果表明，当前的机器学习搜索算法可能已经在有限的参数区域中对某些生产设置有用。为了改善最新的技术，机器学习算法需要降低他们能够检测信号并将其有效性扩展到参数空间区域的虚假警报率，在这些区域中，建模的搜索在计算上很昂贵。根据我们的发现，我们汇编了我们认为，将机器学习搜索提升到重力波信号检测中的宝贵工具，我们认为这是最重要的研究领域。

translated by 谷歌翻译

A Detailed Study of Interpretability of Deep Neural Network based Top Taggers

Ayush Khot , Mark S. Neubauer , Avik Roy

分类：机器学习

2022-10-09

Recent developments in the methods of explainable AI (XAI) methods allow researchers to explore the inner workings of deep neural networks (DNNs), revealing crucial information about input-output relationships and realizing how data connects with machine learning models. In this paper we explore interpretability of DNN models designed to identify jets coming from top quark decay in high energy proton-proton collisions at the Large Hadron Collider (LHC). We review a subset of existing top tagger models and explore different quantitative methods to identify which features play the most important roles in identifying the top jets. We also investigate how and why feature importance varies across different XAI metrics, how feature correlations impact their explainability, and how latent space representations encode information as well as correlate with physically meaningful quantities. Our studies uncover some major pitfalls of existing XAI methods and illustrate how they can be overcome to obtain consistent and meaningful interpretation of these models. We additionally illustrate the activity of hidden layers as Neural Activation Pattern (NAP) diagrams and demonstrate how they can be used to understand how DNNs relay information across the layers and how this understanding can help to make such models significantly simpler by allowing effective model reoptimization and hyperparameter tuning. By incorporating observations from the interpretability studies, we obtain state-of-the-art top tagging performance from augmented implementation of existing network

translated by 谷歌翻译

Machine Learning in the Search for New Fundamental Physics

Georgia Karagiorgi , Gregor Kasieczka , Scott Kravitz , Benjamin Nachman , David Shih

分类： (统计)机器学习

2021-12-07

机器学习在加强和加速寻求新基本物理学方面发挥着至关重要的作用。我们审查了新物理学的机器学习方法和应用中，在地面高能量物理实验的背景下，包括大型强子撞机，罕见的事件搜索和中微生实验。虽然机器学习在这些领域拥有悠久的历史，但深入学习革命（2010年代初）就研究的范围和雄心而产生了定性转变。这些现代化的机器学习发展是本综述的重点。

translated by 谷歌翻译

Predicting Swarm Equatorial Plasma Bubbles Via Supervised Machine Learning

S. Reddy , C. Forsyth , A. Aruliah , D. Kataria , A. Smith , J. Bortnik , E. Aa , G. Lewis

分类：机器学习

2022-09-27

赤道等离子体气泡（EPB）是低密度血浆的羽毛，它们从F层的底部升至Exosphere。 EPB是无线电波闪烁的已知原因，可以降低与航天器的通信。我们构建了一个随机的森林回归剂，以预测和预测IBI处理器在船上检测到的EPB [0-1]的可能性。我们使用从2014年到2021年的8年群数据，并将数据从时间序列转换为5维空间，该空间包括纬度，经度，MLT，年份和年度。我们还增加了KP，F10.7厘米和太阳风速。关于地理位置，当地时间，季节和太阳活动的EPB的观察主要与现有工作一致，而链接的地磁活动尚不清楚。该预测的精度为88％，并且在EPB特异性时空尺度上的性能很好。这证明了XGBoost方法能够成功捕获群EPB的气候和每日变异性。由于电离层内的局部和随机特征，捕获每日方差长期以来一直逃避研究人员。我们利用Shapley值来解释该模型并深入了解EPB的物理学。我们发现，随着太阳能速度的增加，EPB的概率降低。我们还确定了EPB概率周围的尖峰。这两个见解直接源自XGBoost和Shapley技术。

translated by 谷歌翻译

The Dark Machines Anomaly Score Challenge: Benchmark Data and Model Independent Event Classification for the Large Hadron Collider

T. Aarrestad , M. van Beekveld , M. Bona , A. Boveia , S. Caron , J. Davies , A. De Simone , C. Doglioni , J. M. Duarte , A. Farbin

分类： (统计)机器学习

2021-05-28

我们描述了作为黑暗机器倡议和LES Houches 2019年物理学研讨会进行的数据挑战的结果。挑战的目标是使用无监督机器学习算法检测LHC新物理学的信号。首先，我们提出了如何实现异常分数以在LHC搜索中定义独立于模型的信号区域。我们定义并描述了一个大型基准数据集，由> 10亿美元的Muton-Proton碰撞，其中包含> 10亿美元的模拟LHC事件组成。然后，我们在数据挑战的背景下审查了各种异常检测和密度估计算法，我们在一组现实分析环境中测量了它们的性能。我们绘制了一些有用的结论，可以帮助开发无监督的新物理搜索在LHC的第三次运行期间，并为我们的基准数据集提供用于HTTPS://www.phenomldata.org的未来研究。重现分析的代码在https://github.com/bostdiek/darkmachines-unsupervisedChallenge提供。

translated by 谷歌翻译

Model Transparency and Interpretability : Survey and Application to the Insurance Industry

Dimitri Delcaillau , Antoine Ly , Alize Papp , Franck Vermet

分类： (统计)机器学习 | 机器学习

2022-09-01

即使有效，模型的使用也必须伴随着转换数据的各个级别的理解（上游和下游）。因此，需求增加以定义单个数据与算法可以根据其分析可以做出的选择（例如，一种产品或一种促销报价的建议，或代表风险的保险费率）。模型用户必须确保模型不会区分，并且也可以解释其结果。本文介绍了模型解释的重要性，并解决了模型透明度的概念。在保险环境中，它专门说明了如何使用某些工具来强制执行当今可以利用机器学习的精算模型的控制。在一个简单的汽车保险中损失频率估计的示例中，我们展示了一些解释性方法的兴趣，以适应目标受众的解释。

translated by 谷歌翻译

HTML版本

Classification algorithms applied to structure formation simulations

Jazhiel Chacón , J. Alberto Vázquez , Erick Almaraz

分类：机器学习

2021-06-11

在整个宇宙学模拟中，初始条件中的物质密度场的性质对今天形成的结构的特征具有决定性的影响。在本文中，我们使用随机森林分类算法来推断暗物质颗粒是否追溯到初始条件，最终将在肿块上高于一些阈值的暗物质卤素。该问题可能被构成为二进制分类任务，其中物质密度字段的初始条件映射到由光环发现者程序提供的分类标签。我们的研究结果表明，随机森林是有效的工具，无法在不运行完整过程的情况下预测宇宙学模拟的输出。在将来可能使用这些技术来降低计算时间并更有效地探索不同暗物质/暗能候选对宇宙结构的形成的影响。

translated by 谷歌翻译