与许多其他任务一样,神经网络对于异常检测目的而言非常有效。但是,很少有深度学习模型适合于在表格数据集上检测异常。本文提出了一种新的方法来标记基于Tracin的异常,这是最初引入的出于明确目的而引入的影响度量。所提出的方法可以增加任何无监督的深度异常检测方法。我们使用变异自动编码器测试我们的方法,并表明训练点子样本对测试点的平均影响可以作为异常的代理。与最先进的方法相比,我们的模型被证明具有竞争力:它在医疗和网络安全表格基准数据上的检测准确性方面具有可比性或更好的性能。
translated by 谷歌翻译
在异常检测(AD)中,给出了识别测试样本是否异常,给出了正常样本的数据集。近期和有希望的广告方法依赖于深度生成模型,例如变形自动化器(VAES),用于对正常数据分布的无监督学习。在半监督广告(SSAD)中,数据还包括标记异常的小样本。在这项工作中,我们提出了两个用于SSAD培训VAES的两个变分方法。两种方法中的直观思路是将编码器训练到潜在向量之间的“分开”以进行正常和异常数据。我们表明,这个想法可以源于问题的原则概率制剂,并提出了简单有效的算法。我们的方法可以应用于各种数据类型,因为我们在从自然图像到天文学和医学的SSAD数据集上展示,可以与任何VAE模型架构相结合,并且自然与合奏相兼容。与未特定于特定数据类型的最先进的SSAD方法比较时,我们获得了异常值检测的显着改进。
translated by 谷歌翻译
异常检测是指识别偏离正常模式的观察,这是各个领域的活跃研究区域。最近,数据量表越来越多,复杂性和维度将传统的表示和基于统计的异常检测方法变得具有挑战性。在本文中,我们利用了高光谱图像异常检测的生成模型。 GIST是模拟正常数据的分布,而分布外样品可以被视为异常值。首先,研究了基于变分的基于异常的检测方法。理论上和经验地发现它们由于距离强烈的概念($ F $ -divergence)作为正则化而不稳定。其次,本文介绍了切片的Wasserstein距离,与F分歧相比,这是一种较弱的分布措施。然而,随机切片的数量难以估计真正的距离。最后,我们提出了一个投影的切片Wasserstein(PSW)基于AutoEncoder的异常筛选方法。特别是,我们利用计算友好的特征分解方法来找到切片高维数据的主成分。此外,我们所提出的距离可以用闭合形式计算,即使是先前的分布也不是高斯。在各种现实世界高光谱异常检测基准上进行的综合实验证明了我们提出的方法的卓越性能。
translated by 谷歌翻译
在能源系统的数字化中,传感器和智能电表越来越多地用于监视生产,运行和需求。基于智能电表数据的异常检测对于在早期阶段识别潜在的风险和异常事件至关重要,这可以作为及时启动适当动作和改善管理的参考。但是,来自能源系统的智能电表数据通常缺乏标签,并且包含噪声和各种模式,而没有明显的周期性。同时,在不同的能量场景中对异常的模糊定义和高度复杂的时间相关性对异常检测构成了巨大的挑战。许多传统的无监督异常检测算法(例如基于群集或基于距离的模型)对噪声不强大,也不完全利用时间序列中的时间依赖性以及在多个变量(传感器)中的其他依赖关系。本文提出了一种基于带有注意机制的变异复发自动编码器的无监督异常检测方法。凭借来自智能电表的“肮脏”数据,我们的方法预示了缺失的值和全球异常,以在训练中缩小其贡献。本文与基于VAE的基线方法和其他四种无监督的学习方法进行了定量比较,证明了其有效性和优势。本文通过一项实际案例研究进一步验证了所提出的方法,该研究方法是检测工业加热厂的供水温度异常。
translated by 谷歌翻译
半监督异常检测旨在使用在正常数据上培训的模型来检测来自正常样本的异常。随着近期深度学习的进步,研究人员设计了高效的深度异常检测方法。现有作品通常使用神经网络将数据映射到更具内容性的表示中,然后应用异常检测算法。在本文中,我们提出了一种方法,DASVDD,它共同学习AutoEncoder的参数,同时最小化其潜在表示上的封闭超球的音量。我们提出了一个异常的分数,它是自动化器的重建误差和距离潜在表示中封闭边距中心的距离的组合。尽量减少这种异常的分数辅助我们在培训期间学习正常课程的潜在分布。包括异常分数中的重建错误确保DESVDD不受常见的极度崩溃问题,因为DESVDD模型不会收敛到映射到潜在表示中的恒定点的常量点。几个基准数据集上的实验评估表明,该方法优于常用的最先进的异常检测算法,同时在不同的异常类中保持鲁棒性能。
translated by 谷歌翻译
在印刷电路板(PCB)的组装过程中,大多数误差是由表面安装装置(SMD)中的焊点引起的。在文献中,传统的特征提取基于方法需要设计手工制作的特征,并依赖于分层的RGB照明来检测焊接接头误差,而基于监督的卷积神经网络(CNN)的方法需要大量标记的异常样本(有缺陷的焊点)实现高精度。为了解决无限制环境中的光学检查问题,没有特殊的照明,没有无差错的参考板,我们提出了一种用于异常检测的新的Beta变化AutoEncoders(Beta-VAE)架构,可以在IC上工作和非IC组件。我们表明,拟议的模型学会了Disondled的数据表示,导致更独立的功能和改进的潜在空间表示。我们比较用于表征异常的激活和基于梯度的表示;并观察不同Beta参数对精度的影响,并在β-VAE中的特征表示中的影响。最后,我们表明,可以通过在没有指定的硬件或特征工程的直接正常样品上培训的模型来检测焊点上的异常。
translated by 谷歌翻译
我们提出了一种用于测试使用吸收材料记录辐射电磁(EM)场的天线阵列的新方法,并使用条件编码器解码器模型通过AI评估所得到的热图像串。鉴于馈送到每个阵列元件的信号的功率和相位,我们能够通过我们训练的模型重建正常序列,并将其与热相机观察到的真实序列进行比较。这些热图仅包含低级模式,例如各种形状的斑点。然后,基于轮廓的异常检测器可以将重建误差矩阵映射到异常的分数,以识别故障的天线阵列,并将分类F量度(F-M)增加到46%。我们在天线测试系统收集的时间序列热量量表上展示了我们的方法。传统上,变形自身摩擦(VAE)学习观察噪声可以产生比具有恒定噪声假设的VAE更好的结果。然而,我们证明这不是对这种低级模式的异常检测的情况,有两个原因。首先,结合所学到的观察噪声的基线度量重建概率不能分化异常模式。其次,具有较低观察噪声假设的VAE的接收器操作特性(ROC)曲线下的区域比具有学习噪声的VAE高出11.83%。
translated by 谷歌翻译
异常检测旨在识别数据点,这些数据点显示了未标记数据集中大多数数据的系统偏差。一个普遍的假设是,可以使用干净的培训数据(没有异常),这在实践中通常会违反。我们提出了一种在存在与广泛模型兼容的未标记异常的情况下训练异常检测器的策略。这个想法是在更新模型参数时将二进制标签共同推断为每个基准(正常与异常)。受到异常暴露的启发(Hendrycks等人,2018年),该暴露考虑合成创建,标记为异常,我们因此使用了两个共享参数的损失的组合:一个用于正常参数,一个用于异常数据。然后,我们对参数和最可能(潜在)标签进行块坐标更新。我们在三个图像数据集,30个表格数据集和视频异常检测基准上使用几个主链模型进行了实验,对基线显示了一致且显着的改进。
translated by 谷歌翻译
时间序列的异常提供了各个行业的关键方案的见解,从银行和航空航天到信息技术,安全和医学。但是,由于异常的定义,经常缺乏标签以及此类数据中存在的极为复杂的时间相关性,因此识别时间序列数据中的异常尤其具有挑战性。LSTM自动编码器是基于长期短期内存网络的异常检测的编码器传统方案,该方案学会重建时间序列行为,然后使用重建错误来识别异常。我们将Denoising Architecture作为对该LSTM编码模型模型的补充,并研究其对现实世界以及人为生成的数据集的影响。我们证明了所提出的体系结构既提高了准确性和训练速度,从而使LSTM自动编码器更有效地用于无监督的异常检测任务。
translated by 谷歌翻译
我们如何检测异常:也就是说,与给定的一组高维数据(例如图像或传感器数据)显着不同的样品?这是众多应用程序的实际问题,也与使学习算法对意外输入更强大的目标有关。自动编码器是一种流行的方法,部分原因是它们的简单性和降低维度的能力。但是,异常评分函数并不适应正常样品范围内重建误差的自然变化,这阻碍了它们检测实际异常的能力。在本文中,我们从经验上证明了局部适应性对具有真实数据的实验中异常评分的重要性。然后,我们提出了新颖的自适应重建基于错误的评分方法,该方法根据潜在空间的重建误差的局部行为来适应其评分。我们表明,这改善了各种基准数据集中相关基线的异常检测性能。
translated by 谷歌翻译
人脑解剖图像的专家解释是神经放射学的中心部分。已经提出了几种基于机器学习的技术来协助分析过程。但是,通常需要对ML模型进行培训以执行特定的任务,例如脑肿瘤分割或分类。相应的培训数据不仅需要费力的手动注释,而且人脑MRI中可以存在多种异常 - 甚至同时发生,这使得所有可能的异常情况都非常具有挑战性。因此,可能的解决方案是一种无监督的异常检测(UAD)系统,可以从健康受试者的未标记数据集中学习数据分布,然后应用以检测​​分布样本。然后,这种技术可用于检测异常 - 病变或异常,例如脑肿瘤,而无需明确训练该特定病理的模型。过去已经为此任务提出了几种基于变异的自动编码器(VAE)技术。即使它们在人为模拟的异常情况下表现良好,但其中许多在检测临床数据中的异常情况下表现较差。这项研究提出了“上下文编码” VAE(CEVAE)模型的紧凑版本,并结合了预处理和后处理步骤,创建了UAD管道(Strega)(Strega),该步骤对临床数据更强大,并显示其在检测到其检测方面的适用性脑MRI中的肿瘤等异常。 The proposed pipeline achieved a Dice score of 0.642$\pm$0.101 while detecting tumours in T2w images of the BraTS dataset and 0.859$\pm$0.112 while detecting artificially induced anomalies, while the best performing baseline achieved 0.522$\pm$0.135 and 0.783$\ PM分别为0.111美元。
translated by 谷歌翻译
异常检测是确定不符合正常数据分布的样品。由于异常数据的无法获得,培训监督的深神经网络是一项繁琐的任务。因此,无监督的方法是解决此任务的常见方法。深度自动编码器已被广泛用作许多无监督的异常检测方法的基础。但是,深层自动编码器的一个显着缺点是,它们通过概括重建异常值来提供不足的表示异常检测的表示。在这项工作中,我们设计了一个对抗性框架,该框架由两个竞争组件组成,一个对抗性变形者和一个自动编码器。对抗性变形器是一种卷积编码器,学会产生有效的扰动,而自动编码器是一个深层卷积神经网络,旨在重建来自扰动潜在特征空间的图像。这些网络经过相反的目标训练,在这种目标中,对抗性变形者会产生用于编码器潜在特征空间的扰动,以最大化重建误差,并且自动编码器试图中和这些扰动的效果以最大程度地减少它。当应用于异常检测时,该提出的方法会由于对特征空间的扰动应用而学习语义上的富裕表示。所提出的方法在图像和视频数据集上的异常检测中优于现有的最新方法。
translated by 谷歌翻译
用木材制成的木材和森林产品,例如家具,是宝贵的商品,就像许多高估的自然资源的全球贸易一样,面临腐败,欺诈和非法收获的挑战。木材和森林产品部门的这些灰色和黑色市场活动不仅限于收获木材的国家,而是在整个全球供应链中扩展,并与非法金融流有关,例如基于贸易的洗钱,记录欺诈,种类标签和其他非法活动。在没有地面真理的情况下,使用贸易数据找到此类欺诈活动的任务可以作为无监督的异常检测问题进行建模。但是,现有的方法在其对大规模贸易数据的适用性方面存在某些缺点。贸易数据是异质的,具有表格格式的分类和数值属性。总体挑战在于数据的复杂性,数量和速度,具有大量实体和缺乏地面真相标签。为了减轻这些方法,我们提出了一种新型的无监督异常检测 - 基于对比度学习的异质异常检测(CHAD),通常适用于大规模的异质表格数据。我们证明,我们的模型CHAD对公共基准数据集的多个可比较基线表现出色,并且在贸易数据的情况下优于它们。更重要的是,我们证明我们的方法减少了假设和努力所需的高参数调整,这在无监督的培训范式中是一个关键的挑战。具体而言,我们的总体目标涉及使用提单贸易记录数据账单来检测可疑的木材运输和模式。在运输记录中检测异常交易可以使政府机构和供应链成分进一步调查。
translated by 谷歌翻译
We consider the problem of anomaly detection in images, and present a new detection technique. Given a sample of images, all known to belong to a "normal" class (e.g., dogs), we show how to train a deep neural model that can detect out-of-distribution images (i.e., non-dog objects). The main idea behind our scheme is to train a multi-class model to discriminate between dozens of geometric transformations applied on all the given images. The auxiliary expertise learned by the model generates feature detectors that effectively identify, at test time, anomalous images based on the softmax activation statistics of the model when applied on transformed images. We present extensive experiments using the proposed detector, which indicate that our technique consistently improves all known algorithms by a wide margin.1 Unless otherwise mentioned, the use of the adjective "normal" is unrelated to the Gaussian distribution.32nd Conference on Neural Information Processing Systems (NIPS 2018),
translated by 谷歌翻译
我们描述了作为黑暗机器倡议和LES Houches 2019年物理学研讨会进行的数据挑战的结果。挑战的目标是使用无监督机器学习算法检测LHC新物理学的信号。首先,我们提出了如何实现异常分数以在LHC搜索中定义独立于模型的信号区域。我们定义并描述了一个大型基准数据集,由> 10亿美元的Muton-Proton碰撞,其中包含> 10亿美元的模拟LHC事件组成。然后,我们在数据挑战的背景下审查了各种异常检测和密度估计算法,我们在一组现实分析环境中测量了它们的性能。我们绘制了一些有用的结论,可以帮助开发无监督的新物理搜索在LHC的第三次运行期间,并为我们的基准数据集提供用于HTTPS://www.phenomldata.org的未来研究。重现分析的代码在https://github.com/bostdiek/darkmachines-unsupervisedChallenge提供。
translated by 谷歌翻译
异常检测是一项具有挑战性的任务,经常在实际上出现所有工业和科学领域,从欺诈检测和数据质量监测到寻找罕见的疾病病例和寻找新物理学。大多数传统的异常检测方法,例如单级SVM和鲁棒自动编码器,是单级分类方法,即专注于将正常数据与空间的其余部分分开。这些方法基于正常和异常类别的可分离性的假设,随后不考虑任何异常的任何可用样本。尽管如此,在实际设置中,一些异常样品通常可用;但是,通常以平衡分类任务所需的量低,并且可以总是保持可分离的假设。这导致了重要的任务 - 将已知的异常样品掺入异常检测模型的训练程序中。在这项工作中,我们提出了一种新颖的模型 - 不可知论培训程序来解决这项任务。我们将单级分类重构为二进制分类问题,与伪异常样本区分开。通过将潜在分布的尾部进入模型,从标准化流动模型的低密度区域中抽出伪异常样本。这种方法允许容易地包括已知的异常进入任意分类器的训练过程。我们展示了我们的方法在一类问题上表现出可比的性能,最重要的是,在具有可变量的已知异常的任务上实现了可比或优越的结果。
translated by 谷歌翻译
We present a detailed study on Variational Autoencoders (VAEs) for anomalous jet tagging at the Large Hadron Collider. By taking in low-level jet constituents' information, and training with background QCD jets in an unsupervised manner, the VAE is able to encode important information for reconstructing jets, while learning an expressive posterior distribution in the latent space. When using the VAE as an anomaly detector, we present different approaches to detect anomalies: directly comparing in the input space or, instead, working in the latent space. In order to facilitate general search approaches such as bump-hunt, mass-decorrelated VAEs based on distance correlation regularization are also studied. We find that the naive mass-decorrelated VAEs fail at maintaining proper detection performance, by assigning higher probabilities to some anomalous samples. To build a performant mass-decorrelated anomalous jet tagger, we propose the Outlier Exposed VAE (OE-VAE), for which some outlier samples are introduced in the training process to guide the learned information. OE-VAEs are employed to achieve two goals at the same time: increasing sensitivity of outlier detection and decorrelating jet mass from the anomaly score. We succeed in reaching excellent results from both aspects. Code implementation of this work can be found at https://github.com/taolicheng/VAE-Jet
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
在智能交通系统中,交通拥堵异常检测至关重要。运输机构的目标有两个方面:监视感兴趣领域的一般交通状况,并在异常拥堵状态下定位道路细分市场。建模拥塞模式可以实现这些目标,以实现全市道路的目标,相当于学习多元时间序列(MTS)的分布。但是,现有作品要么不可伸缩,要么无法同时捕获MTS中的空间信息。为此,我们提出了一个由数据驱动的生成方法组成的原则性和全面的框架,该方法可以执行可拖动的密度估计来检测流量异常。我们的方法在特征空间中的第一群段段,然后使用条件归一化流以在无监督的设置下在群集级别识别异常的时间快照。然后,我们通过在异常群集上使用内核密度估计器来识别段级别的异常。关于合成数据集的广泛实验表明,我们的方法在召回和F1得分方面显着优于几种最新的拥塞异常检测和诊断方法。我们还使用生成模型来采样标记的数据,该数据可以在有监督的环境中训练分类器,从而减轻缺乏在稀疏设置中进行异常检测的标记数据。
translated by 谷歌翻译
我们考虑为移动机器人构建视觉异常检测系统的问题。标准异常检测模型是使用仅由非异常数据组成的大型数据集训练的。但是,在机器人技术应用中,通常可以使用(可能很少)的异常示例。我们解决了利用这些数据以通过与Real-NVP损失共同使辅助外离群损失损失共同使实际NVP异常检测模型的性能提高性能的问题。我们在新的数据集(作为补充材料)上进行定量实验,该数据集在室内巡逻方案中设计为异常检测。在不连接测试集中,我们的方法优于替代方案,并表明即使少数异常框架也可以实现重大的性能改进。
translated by 谷歌翻译