无监督的异常检测对于未来在大型数据集中搜索稀有现象的分析可能至关重要,例如在LHC收集的。为此,我们介绍了一个受到物理启发的变量自动编码器(VAE)体系结构,该体系结构在LHC奥运会机器学习挑战数据集中竞争性和稳健性。我们证明了如何将某些物理可观察物直接嵌入VAE潜在空间中,同时使分类器显然是不可知的,可以帮助识别和表征测得的光谱中的特征,这是由于数据集中存在异常而引起的。
translated by 谷歌翻译
我们描述了作为黑暗机器倡议和LES Houches 2019年物理学研讨会进行的数据挑战的结果。挑战的目标是使用无监督机器学习算法检测LHC新物理学的信号。首先,我们提出了如何实现异常分数以在LHC搜索中定义独立于模型的信号区域。我们定义并描述了一个大型基准数据集,由> 10亿美元的Muton-Proton碰撞,其中包含> 10亿美元的模拟LHC事件组成。然后,我们在数据挑战的背景下审查了各种异常检测和密度估计算法,我们在一组现实分析环境中测量了它们的性能。我们绘制了一些有用的结论,可以帮助开发无监督的新物理搜索在LHC的第三次运行期间,并为我们的基准数据集提供用于HTTPS://www.phenomldata.org的未来研究。重现分析的代码在https://github.com/bostdiek/darkmachines-unsupervisedChallenge提供。
translated by 谷歌翻译
We present a detailed study on Variational Autoencoders (VAEs) for anomalous jet tagging at the Large Hadron Collider. By taking in low-level jet constituents' information, and training with background QCD jets in an unsupervised manner, the VAE is able to encode important information for reconstructing jets, while learning an expressive posterior distribution in the latent space. When using the VAE as an anomaly detector, we present different approaches to detect anomalies: directly comparing in the input space or, instead, working in the latent space. In order to facilitate general search approaches such as bump-hunt, mass-decorrelated VAEs based on distance correlation regularization are also studied. We find that the naive mass-decorrelated VAEs fail at maintaining proper detection performance, by assigning higher probabilities to some anomalous samples. To build a performant mass-decorrelated anomalous jet tagger, we propose the Outlier Exposed VAE (OE-VAE), for which some outlier samples are introduced in the training process to guide the learned information. OE-VAEs are employed to achieve two goals at the same time: increasing sensitivity of outlier detection and decorrelating jet mass from the anomaly score. We succeed in reaching excellent results from both aspects. Code implementation of this work can be found at https://github.com/taolicheng/VAE-Jet
translated by 谷歌翻译
对异常检测方法的需求不断增长,可以以模型 - 不可知的方式扩大对新颗粒的搜索。大多数新方法的建议专注于信号灵敏度。但是,选择异常事件是不够的 - 还必须有一个策略来为所选事件提供上下文。我们提出了无监督检测的第一个完整的策略,其包括信号灵敏度和用于背景估计的数据驱动方法。我们的技术由两个同时培训的autoencoders建造,被迫彼此去相关。该方法可以脱机用于非共振异常检测,也是第一个完整的在线兼容的异常检测策略。我们表明,我们的方法在为ADC2021数据挑战准备的各种信号上实现了出色的性能。
translated by 谷歌翻译
从限制黑暗部门的暗物质颗粒的生产可能导致许多新颖的实验签名。根据理论的细节,质子 - 质子碰撞中的黑暗夸克生产可能导致颗粒的半衰期:黑暗强度的准直喷雾,其中颗粒碰撞器实验只有一些。实验签名的特征在于,具有与喷射器的可见部件相结合的重建缺失的动量。这种复杂的拓扑对检测器效率低下和错误重建敏感,从而产生人为缺失的势头。通过这项工作,我们提出了一种信号不可知的策略来拒绝普通喷射,并通过异常检测技术鉴定半衰期喷射。具有喷射子结构变量的深度神经自动化器网络作为输入,证明了对分析异常喷射的非常有用。该研究重点介绍了半意射流签名;然而,该技术可以适用于任何新的物理模型,该模型预测来自非SM粒子的喷射器的签名。
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
AutoEncoders在异常检测中具有高能物理学中的有用应用,特别是对于喷气机 - 在碰撞中产生的颗粒的准直淋浴,例如Cern大型强子撞机的碰撞。我们探讨了基于图形的AutoEncoders,它们在其“粒子云”表示中的喷射器上运行,并且可以在喷气机内的粒子中利用相互依存的依赖性,用于这种任务。另外,我们通过图形神经网络对能量移动器的距离开发可差的近似,这随后可以用作自动化器的重建损耗函数。
translated by 谷歌翻译
In collider-based particle and nuclear physics experiments, data are produced at such extreme rates that only a subset can be recorded for later analysis. Typically, algorithms select individual collision events for preservation and store the complete experimental response. A relatively new alternative strategy is to additionally save a partial record for a larger subset of events, allowing for later specific analysis of a larger fraction of events. We propose a strategy that bridges these paradigms by compressing entire events for generic offline analysis but at a lower fidelity. An optimal-transport-based $\beta$ Variational Autoencoder (VAE) is used to automate the compression and the hyperparameter $\beta$ controls the compression fidelity. We introduce a new approach for multi-objective learning functions by simultaneously learning a VAE appropriate for all values of $\beta$ through parameterization. We present an example use case, a di-muon resonance search at the Large Hadron Collider (LHC), where we show that simulated data compressed by our $\beta$-VAE has enough fidelity to distinguish distinct signal morphologies.
translated by 谷歌翻译
我们提出了一种用于测试使用吸收材料记录辐射电磁(EM)场的天线阵列的新方法,并使用条件编码器解码器模型通过AI评估所得到的热图像串。鉴于馈送到每个阵列元件的信号的功率和相位,我们能够通过我们训练的模型重建正常序列,并将其与热相机观察到的真实序列进行比较。这些热图仅包含低级模式,例如各种形状的斑点。然后,基于轮廓的异常检测器可以将重建误差矩阵映射到异常的分数,以识别故障的天线阵列,并将分类F量度(F-M)增加到46%。我们在天线测试系统收集的时间序列热量量表上展示了我们的方法。传统上,变形自身摩擦(VAE)学习观察噪声可以产生比具有恒定噪声假设的VAE更好的结果。然而,我们证明这不是对这种低级模式的异常检测的情况,有两个原因。首先,结合所学到的观察噪声的基线度量重建概率不能分化异常模式。其次,具有较低观察噪声假设的VAE的接收器操作特性(ROC)曲线下的区域比具有学习噪声的VAE高出11.83%。
translated by 谷歌翻译
在印刷电路板(PCB)的组装过程中,大多数误差是由表面安装装置(SMD)中的焊点引起的。在文献中,传统的特征提取基于方法需要设计手工制作的特征,并依赖于分层的RGB照明来检测焊接接头误差,而基于监督的卷积神经网络(CNN)的方法需要大量标记的异常样本(有缺陷的焊点)实现高精度。为了解决无限制环境中的光学检查问题,没有特殊的照明,没有无差错的参考板,我们提出了一种用于异常检测的新的Beta变化AutoEncoders(Beta-VAE)架构,可以在IC上工作和非IC组件。我们表明,拟议的模型学会了Disondled的数据表示,导致更独立的功能和改进的潜在空间表示。我们比较用于表征异常的激活和基于梯度的表示;并观察不同Beta参数对精度的影响,并在β-VAE中的特征表示中的影响。最后,我们表明,可以通过在没有指定的硬件或特征工程的直接正常样品上培训的模型来检测焊点上的异常。
translated by 谷歌翻译
A new Lossy Causal Temporal Convolutional Neural Network Autoencoder for anomaly detection is proposed in this work. Our framework uses a rate-distortion loss and an entropy bottleneck to learn a compressed latent representation for the task. The main idea of using a rate-distortion loss is to introduce representation flexibility that ignores or becomes robust to unlikely events with distinctive patterns, such as anomalies. These anomalies manifest as unique distortion features that can be accurately detected in testing conditions. This new architecture allows us to train a fully unsupervised model that has high accuracy in detecting anomalies from a distortion score despite being trained with some portion of unlabelled anomalous data. This setting is in stark contrast to many of the state-of-the-art unsupervised methodologies that require the model to be only trained on "normal data". We argue that this partially violates the concept of unsupervised training for anomaly detection as the model uses an informed decision that selects what is normal from abnormal for training. Additionally, there is evidence to suggest it also effects the models ability at generalisation. We demonstrate that models that succeed in the paradigm where they are only trained on normal data fail to be robust when anomalous data is injected into the training. In contrast, our compression-based approach converges to a robust representation that tolerates some anomalous distortion. The robust representation achieved by a model using a rate-distortion loss can be used in a more realistic unsupervised anomaly detection scheme.
translated by 谷歌翻译
我们如何检测异常:也就是说,与给定的一组高维数据(例如图像或传感器数据)显着不同的样品?这是众多应用程序的实际问题,也与使学习算法对意外输入更强大的目标有关。自动编码器是一种流行的方法,部分原因是它们的简单性和降低维度的能力。但是,异常评分函数并不适应正常样品范围内重建误差的自然变化,这阻碍了它们检测实际异常的能力。在本文中,我们从经验上证明了局部适应性对具有真实数据的实验中异常评分的重要性。然后,我们提出了新颖的自适应重建基于错误的评分方法,该方法根据潜在空间的重建误差的局部行为来适应其评分。我们表明,这改善了各种基准数据集中相关基线的异常检测性能。
translated by 谷歌翻译
我们提出了一种用于超声心动图视频的新型异常检测方法。引入的方法利用心脏周期的周期性来学习各种潜在轨迹模型(TVAE)的不同变体。对这些模型进行了对婴儿超声心动图视频内部数据集的健康样本的培训,这些数据集由多个室内视图组成,以了解健康人群的规范性。在推断期间,最大值基于后验(MAP)的异常检测以检测我们数据集中的分布样品。所提出的方法可靠地识别出严重的先天性心脏缺陷,例如Ebstein的异常或Shonecomplex。此外,它在检测肺动脉高压和右心室扩张的任务方面,通过标准变异自动编码器实现了优于基于地图的异常检测。最后,我们证明了所提出的方法通过热图提供了对其输出的可解释解释,该图突出了与异常心脏结构相对应的区域。
translated by 谷歌翻译
本文旨在开发一种基于声学信号的无监督异常检测方法来自动机器监测。现有的方法,例如Deep AutoCoder(DAE),变异自动编码器(VAE),条件变异自动编码器(CVAE)等在潜在空间中的表示功能有限,因此,异常检测性能差。必须为每种不同类型的机器培训不同的模型,以准确执行异常检测任务。为了解决此问题,我们提出了一种新方法,称为层次条件变化自动编码器(HCVAE)。该方法利用有关工业设施的可用分类学等级知识来完善潜在空间表示。这些知识也有助于模型改善异常检测性能。我们通过使用适当的条件证明了单个HCVAE模型对不同类型机器的概括能力。此外,为了显示拟议方法的实用性,(i)我们在不同领域评估了HCVAE模型,(ii)我们检查了部分分层知识的影响。我们的结果表明,HCVAE方法验证了这两个点,并且在AUC得分度量上最大的15%在异常检测任务上的基线系统的表现优于基线系统。
translated by 谷歌翻译
异常检测是指识别偏离正常模式的观察,这是各个领域的活跃研究区域。最近,数据量表越来越多,复杂性和维度将传统的表示和基于统计的异常检测方法变得具有挑战性。在本文中,我们利用了高光谱图像异常检测的生成模型。 GIST是模拟正常数据的分布,而分布外样品可以被视为异常值。首先,研究了基于变分的基于异常的检测方法。理论上和经验地发现它们由于距离强烈的概念($ F $ -divergence)作为正则化而不稳定。其次,本文介绍了切片的Wasserstein距离,与F分歧相比,这是一种较弱的分布措施。然而,随机切片的数量难以估计真正的距离。最后,我们提出了一个投影的切片Wasserstein(PSW)基于AutoEncoder的异常筛选方法。特别是,我们利用计算友好的特征分解方法来找到切片高维数据的主成分。此外,我们所提出的距离可以用闭合形式计算,即使是先前的分布也不是高斯。在各种现实世界高光谱异常检测基准上进行的综合实验证明了我们提出的方法的卓越性能。
translated by 谷歌翻译
我们采用变化性AutoEncoders从单粒子Anderson杂质模型谱函数的数据集中提取物理洞察。培训AutoEncoders以查找低维,潜在的空间表示,其忠实地表征培训集的每个元素,通过重建误差测量。变形式自动化器,标准自动化器的概率概括,进一步条件促进了高度可解释的特征。在我们的研究中,我们发现学习的潜在变量与众所周知的众所周知,但非活动的参数强烈关联,这些参数表征了安德森杂质模型中的紧急行为。特别地,一种潜在的可变变量与粒子孔不对称相关,而另一个潜在的变量与杂质模型中动态产生的低能量尺度接近一对一的对应关系。使用符号回归,我们将此变量模拟了该变量作为已知的裸物理输入参数和“重新发现”的kondo温度的非扰动公式。我们开发的机器学习管道表明了一种通用方法,它开启了发现其他物理系统中的新领域知识的机会。
translated by 谷歌翻译
我们研究了通过机器学习从欧几里得相关函数重建光谱函数的逆问题。我们提出了一个新型的神经网络SVAE,该网络基于变异自动编码器(VAE),可以自然应用于逆问题。 SVAE的突出特征是,作为损失函数中的先验信息包含了频谱函数的地面真实值的香农 - jaynes熵项,要最小化。我们使用高斯混合模型产生的一般光谱函数训练网络。作为一项测试,我们使用由一个由一个共振峰制成的四种不同类型的物理动机函数产生的相关器,连续项和使用非相关性QCD获得的扰动光谱函数。从模拟数据测试我们发现,在大多数情况下,SVAE与重建光谱函数质量的最大熵方法(MEM)相媲美,甚至在光谱函数具有尖峰的情况下且数据数量不足的情况下,SVAE与MEM的表现相当。相关器中的点。通过在淬火晶格QCD中获得的charmonium的时间相关函数应用于$ 128^3 \ times96 $ lattices和$ 128^3 \ times48 $ lattices,我们找到了$ 128^3 \ times96 $ lattices in 0.75 $ t_c $ on 0.75 $ t_c $ on 0.75 $ t_c $,我们发现,我们找到了,我们找到了,我们找到从SVAE和MEM提取的$ \ eta_c $的共振峰值对晶格模拟中采用的时间方向($ n_ \ tau $)的点数具有很大的依赖为了解决$ \ eta_c $的命运为1.5 $ t_c $。
translated by 谷歌翻译
在异常检测(AD)中,给出了识别测试样本是否异常,给出了正常样本的数据集。近期和有希望的广告方法依赖于深度生成模型,例如变形自动化器(VAES),用于对正常数据分布的无监督学习。在半监督广告(SSAD)中,数据还包括标记异常的小样本。在这项工作中,我们提出了两个用于SSAD培训VAES的两个变分方法。两种方法中的直观思路是将编码器训练到潜在向量之间的“分开”以进行正常和异常数据。我们表明,这个想法可以源于问题的原则概率制剂,并提出了简单有效的算法。我们的方法可以应用于各种数据类型,因为我们在从自然图像到天文学和医学的SSAD数据集上展示,可以与任何VAE模型架构相结合,并且自然与合奏相兼容。与未特定于特定数据类型的最先进的SSAD方法比较时,我们获得了异常值检测的显着改进。
translated by 谷歌翻译
与许多其他任务一样,神经网络对于异常检测目的而言非常有效。但是,很少有深度学习模型适合于在表格数据集上检测异常。本文提出了一种新的方法来标记基于Tracin的异常,这是最初引入的出于明确目的而引入的影响度量。所提出的方法可以增加任何无监督的深度异常检测方法。我们使用变异自动编码器测试我们的方法,并表明训练点子样本对测试点的平均影响可以作为异常的代理。与最先进的方法相比,我们的模型被证明具有竞争力:它在医疗和网络安全表格基准数据上的检测准确性方面具有可比性或更好的性能。
translated by 谷歌翻译
我们介绍了基于深频自动化器的异常检测技术在激光干涉仪中检测重力波信号的问题。在噪声数据上接受训练,这类算法可以使用无监督的策略来检测信号,即,不瞄准特定类型的来源。我们开发了自定义架构,以分析来自两个干涉仪的数据。我们将所获得的性能与其他AutoEncoder架构和卷积分类器进行比较。与更传统的监督技术相比,拟议战略的无监督性质在准确性方面具有成本。另一方面,在预先计算信号模板的集合之外,存在定性增益。经常性AutoEncoder超越基于不同架构的其他AutoEncoder。本文呈现的复发性自动额片的类可以补充用于引力波检测的搜索策略,并延长正在进行的检测活动的范围。
translated by 谷歌翻译