聚类分析是机器学习中的关键任务之一。传统上,聚类一直是一项独立的任务,与异常检测分开。由于离群值可以大大侵蚀聚类的性能,因此,少数算法尝试在聚类过程中掺入离群值检测。但是,大多数这些算法基于基于无监督的分区算法,例如K-均值。鉴于这些算法的性质,它们通常无法处理复杂的非凸形簇。为了应对这一挑战,我们提出了SSDBCODI,这是一种半监督密度的算法。 SSDBCODI结合了基于密度的算法的优势,这些算法能够处理复杂形状的簇,以及半监督元素,该元素具有灵活性,可以根据一些用户标签调整聚类结果。我们还将离群检测组件与聚类过程合并。根据过程中产生的三个分数检测到潜在离群值:(1)达到性得分,该得分衡量了一个点的密度可至关重要是对标记的正常物体的测量值,(2)局部密度得分,该局部密度得分,它测量了相邻密度的密度数据对象和(3)相似性得分,该分数测量了一个点与其最近标记的异常值的接近度。然后,在下一步中,在用于训练分类器以进一步群集和离群值检测之前,基于这三个分数为每个数据实例生成实例权重。为了增强对拟议算法的理解,为了进行评估,我们已经针对多个数据集上的某些最新方法运行了拟议的算法,并分别列出了除聚类外检测的结果。我们的结果表明,我们的算法可以通过少量标签获得优异的结果。
translated by 谷歌翻译
异常值是一个事件或观察,其被定义为不同于距群体的不规则距离的异常活动,入侵或可疑数据点。然而,异常事件的定义是主观的,取决于应用程序和域(能量,健康,无线网络等)。重要的是要尽可能仔细地检测异常事件,以避免基础设施故障,因为异常事件可能导致对基础设施的严重损坏。例如,诸如微电网的网络物理系统的攻击可以发起电压或频率不稳定性,从而损坏涉及非常昂贵的修复的智能逆变器。微电网中的不寻常活动可以是机械故障,行为在系统中发生变化,人体或仪器错误或恶意攻击。因此,由于其可变性,异常值检测(OD)是一个不断增长的研究领域。在本章中,我们讨论了使用AI技术的OD方法的进展。为此,通过多个类别引入每个OD模型的基本概念。广泛的OD方法分为六大类:基于统计,基于距离,基于密度的,基于群集的,基于学习的和合奏方法。对于每个类别,我们讨论最近最先进的方法,他们的应用领域和表演。之后,关于对未来研究方向的建议提供了关于各种技术的优缺点和挑战的简要讨论。该调查旨在指导读者更好地了解OD方法的最新进展,以便保证AI。
translated by 谷歌翻译
分层群集的主要挑战之一是如何适当地识别群集树较低级别的代表点,这些点将被用作群集树的较高级别的根源以进行进一步的聚合。然而,传统的分层聚类方法采用了一些简单的技巧来选择可能不像代表的“代表”点。因此,构造的簇树在其稳健性和可靠性较弱的方面不太吸引。针对这个问题,我们提出了一种新的分层聚类算法,其中,在构建聚类树形图的同时,我们可以有效地检测基于对每个子最小跨越树中的互易读数的互动最近数据点进行评分的代表点。 UCI数据集的广泛实验表明,所提出的算法比其他基准更准确。同时,在我们的分析下,所提出的算法具有O(nlogn)时间复杂度和O(logn)空间复杂度,表明它具有在处理具有更少时间和存储消​​耗的大规模数据方面具有可扩展性。
translated by 谷歌翻译
流媒体数据中对异常的实时检测正在受到越来越多的关注,因为它使我们能够提高警报,预测故障并检测到整个行业的入侵或威胁。然而,很少有人注意比较流媒体数据(即在线算法)的异常检测器的有效性和效率。在本文中,我们介绍了来自不同算法家族(即基于距离,密度,树木或投影)的主要在线检测器的定性合成概述,并突出了其构建,更新和测试检测模型的主要思想。然后,我们对在线检测算法的定量实验评估以及其离线对应物进行了彻底的分析。检测器的行为与不同数据集(即元功能)的特征相关,从而提供了对其性能的元级分析。我们的研究介绍了文献中几个缺失的见解,例如(a)检测器对随机分类器的可靠性以及什么数据集特性使它们随机执行; (b)在线探测器在何种程度上近似离线同行的性能; (c)哪种绘制检测器的策略和更新原始图最适合检测仅在数据集的功能子空间中可见的异常; (d)属于不同算法家族的探测器的有效性与效率之间的权衡是什么; (e)数据集的哪些特定特征产生在线算法以胜过所有其他特征。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
在几十年来,通过仅评估对象级因子来计算数据中的对象的异常分数时,传统的异常探测器已经忽略了组级因子,无法捕获集体异常值。为缓解此问题,我们提出了一种称为邻居代表(NR)的方法,这些方法使所有现有的异常值探测器能够有效地检测到包括集体异常值,包括集体异常值,同时保持其计算完整性。它通过选择代表性对象来实现这一目标,然后将这些对象进行评分,然后将代表对象的分数应用于其集体对象。在不改变现有探测器的情况下,NR兼容现有的探测器,同时相对于最先进的异常值探测器提高了+ 8%(0.72至0.78 AUC)的现实世界数据集的性能。
translated by 谷歌翻译
使用机器学习算法从未标记的文本中提取知识可能很复杂。文档分类和信息检索是两个应用程序,可以从无监督的学习(例如文本聚类和主题建模)中受益,包括探索性数据分析。但是,无监督的学习范式提出了可重复性问题。初始化可能会导致可变性,具体取决于机器学习算法。此外,关于群集几何形状,扭曲可能会产生误导。在原因中,异常值和异常的存在可能是决定因素。尽管初始化和异常问题与文本群集和主题建模相关,但作者并未找到对它们的深入分析。这项调查提供了这些亚地区的系统文献综述(2011-2022),并提出了共同的术语,因为类似的程序具有不同的术语。作者描述了研究机会,趋势和开放问题。附录总结了与审查的作品直接或间接相关的文本矢量化,分解和聚类算法的理论背景。
translated by 谷歌翻译
培训和测试监督对象检测模型需要大量带有地面真相标签的图像。标签定义图像中的对象类及其位置,形状以及可能的其他信息,例如姿势。即使存在人力,标签过程也非常耗时。我们引入了一个新的标签工具,用于2D图像以及3D三角网格:3D标记工具(3DLT)。这是一个独立的,功能丰富和跨平台软件,不需要安装,并且可以在Windows,MacOS和基于Linux的发行版上运行。我们不再像当前工具那样在每个图像上分别标记相同的对象,而是使用深度信息从上述图像重建三角形网格,并仅在上述网格上标记一次对象。我们使用注册来简化3D标记,离群值检测来改进2D边界框的计算和表面重建,以将标记可能性扩展到大点云。我们的工具经过最先进的方法测试,并且在保持准确性和易用性的同时,它极大地超过了它们。
translated by 谷歌翻译
We combine the metrics of distance and isolation to develop the \textit{Analytic Isolation and Distance-based Anomaly (AIDA) detection algorithm}. AIDA is the first distance-based method that does not rely on the concept of nearest-neighbours, making it a parameter-free model. Differently from the prevailing literature, in which the isolation metric is always computed via simulations, we show that AIDA admits an analytical expression for the outlier score, providing new insights into the isolation metric. Additionally, we present an anomaly explanation method based on AIDA, the \textit{Tempered Isolation-based eXplanation (TIX)} algorithm, which finds the most relevant outlier features even in data sets with hundreds of dimensions. We test both algorithms on synthetic and empirical data: we show that AIDA is competitive when compared to other state-of-the-art methods, and it is superior in finding outliers hidden in multidimensional feature subspaces. Finally, we illustrate how the TIX algorithm is able to find outliers in multidimensional feature subspaces, and use these explanations to analyze common benchmarks used in anomaly detection.
translated by 谷歌翻译
在许多应用程序中,检测异常行为是新兴的需求,尤其是在安全性和可靠性是关键方面的情况下。尽管对异常的定义严格取决于域框架,但它通常是不切实际的或太耗时的,无法获得完全标记的数据集。使用无监督模型来克服缺乏标签的模型通常无法捕获特定的特定异常情况,因为它们依赖于异常值的一般定义。本文提出了一种新的基于积极学习的方法Alif,以通过减少所需标签的数量并将检测器调整为用户提供的异常的定义来解决此问题。在存在决策支持系统(DSS)的情况下,提出的方法特别有吸引力,这种情况在现实世界中越来越流行。尽管常见的DSS嵌入异常检测功能取决于无监督的模型,但它们没有办法提高性能:Alif能够通过在常见操作期间利用用户反馈来增强DSS的功能。 Alif是对流行的隔离森林的轻巧修改,在许多真实的异常检测数据集中,相对于其他最先进的算法证明了相对于其他最先进算法的出色性能。
translated by 谷歌翻译
我们讨论集群分析的拓扑方面,并表明在聚类之前推断数据集的拓扑结构可以大大增强群集检测:理论论证和经验证据表明,聚类嵌入向量,代表数据歧管的结构,而不是观察到的特征矢量他们自己是非常有益的。为了证明,我们将流形学习方法与基于密度的聚类方法DBSCAN结合了歧管学习方法UMAP。合成和真实数据结果表明,这既简化和改善了多种低维问题,包括密度变化和/或纠缠形状的群集。我们的方法简化了聚类,因为拓扑预处理始终降低DBSCAN的参数灵敏度。然后,用dbscan聚类所得的嵌入可以超过诸如spectacl和clustergan之类的复杂方法。最后,我们的调查表明,聚类中的关键问题似乎不是数据的标称维度或其中包含多少不相关的功能,而是\ textIt {可分离}群集在环境观察空间中的\ textit {可分离},它们嵌入了它们中。 ,通常是数据特征定义的(高维)欧几里得空间。我们的方法之所以成功,是因为我们将数据投影到更合适的空间后,从某种意义上说,我们执行了群集分析。
translated by 谷歌翻译
我们介绍了异常聚类,其目标是将数据分组为语义相干的异常类型簇。这与异常检测不同,其目标是将异常从正常数据分开。与目标居中图像聚类应用程序不同,异常群集尤其具有挑战性,因为异常模式是微妙和本地的。我们使用基于补丁的预嵌入和现成的聚类方法提供了一个简单而有效的聚类框架。我们在图像之间定义距离功能,每个距离由加权平均嵌入的欧几里德距离表示为嵌入袋。重量定义了袋子中的实例(即贴片嵌入)的重要性,这可能会突出缺陷区域。如果标记为标记的正常数据,我们以无监督的方式计算权重或以半监督方式计算权重。广泛的实验研究表明,所提出的聚类框架的有效性以及在现有多实例或深簇框架上的新距离功能。总体而言,我们的框架在MVTEC对象和纹理类别上实现了0.451和0.674标准化的相互信息分数,并进一步改善了一些标记的正常数据(0.577,0.669),远远超过基线(0.244,0.273)或最先进的深层聚类方法(0.176,0.277)。
translated by 谷歌翻译
异常和异常值检测是机器学习中的长期问题。在某些情况下,异常检测容易,例如当从诸如高斯的良好特征的分布中抽出数据时。但是,当数据占据高维空间时,异常检测变得更加困难。我们呈现蛤蜊(聚类学习近似歧管),是任何度量空间中的歧管映射技术。 CLAM以快速分层聚类技术开始,然后根据使用多个几何和拓扑功能所选择的重叠群集,从群集树中引导图表。使用这些图形,我们实现了Chaoda(群集分层异常和异常值检测算法),探索了图形的各种属性及其组成集群以查找异常值。 Chaoda采用了一种基于培训数据集的转移学习形式,并将这些知识应用于不同基数,维度和域的单独测试集。在24个公开可用的数据集上,我们将Chaoda(按衡量ROC AUC)与各种最先进的无监督异常检测算法进行比较。六个数据集用于培训。 Chaoda优于16个剩余的18个数据集的其他方法。 CLAM和Chaoda规模大,高维“大数据”异常检测问题,并贯穿数据集和距离函数。克拉姆和Chaoda的源代码在github上自由地提供https://github.com/uri-abd/clam。
translated by 谷歌翻译
Deep neural networks (DNNs) have demonstrated superior performance over classical machine learning to support many features in safety-critical systems. Although DNNs are now widely used in such systems (e.g., self driving cars), there is limited progress regarding automated support for functional safety analysis in DNN-based systems. For example, the identification of root causes of errors, to enable both risk analysis and DNN retraining, remains an open problem. In this paper, we propose SAFE, a black-box approach to automatically characterize the root causes of DNN errors. SAFE relies on a transfer learning model pre-trained on ImageNet to extract the features from error-inducing images. It then applies a density-based clustering algorithm to detect arbitrary shaped clusters of images modeling plausible causes of error. Last, clusters are used to effectively retrain and improve the DNN. The black-box nature of SAFE is motivated by our objective not to require changes or even access to the DNN internals to facilitate adoption.Experimental results show the superior ability of SAFE in identifying different root causes of DNN errors based on case studies in the automotive domain. It also yields significant improvements in DNN accuracy after retraining, while saving significant execution time and memory when compared to alternatives. CCS Concepts: • Software and its engineering → Software defect analysis; • Computing methodologies → Machine learning.
translated by 谷歌翻译
Standard agglomerative clustering suggests establishing a new reliable linkage at every step. However, in order to provide adaptive, density-consistent and flexible solutions, we study extracting all the reliable linkages at each step, instead of the smallest one. Such a strategy can be applied with all common criteria for agglomerative hierarchical clustering. We also study that this strategy with the single linkage criterion yields a minimum spanning tree algorithm. We perform experiments on several real-world datasets to demonstrate the performance of this strategy compared to the standard alternative.
translated by 谷歌翻译
聚类是一种无监督的机器学习方法,其中未标记的元素/对象被分组在一起,旨在构建成熟的群集,以根据其相似性对其元素进行分类。该过程的目的是向研究人员提供有用的帮助,以帮助她/他确定数据中的模式。在处理大型数据库时,如果没有聚类算法的贡献,这种模式可能无法轻易检测到。本文对最广泛使用的聚类方法进行了深入的描述,并伴随着有关合适的参数选择和初始化的有用演示。同时,本文不仅代表了一篇评论,该评论突出了所检查的聚类技术的主要要素,而且强调了这些算法基于3个数据集的聚类效率的比较,从而在对抗性和复杂性中揭示了其现有的弱点和能力,在持续的离散和持续的离散和离散和持续的差异。观察。产生的结果有助于我们根据数据集的大小提取有关检查聚类技术的适当性的宝贵结论。
translated by 谷歌翻译
异常的可视化和检测异常(异常值)对许多领域,特别是网络安全的重要性至关重要。在这些领域提出了几种方法,但我们的知识迄今为止,它们都不是在一个相干框架中同时或合作地满足了两个目标。引入了这些方法的可视化方法,用于解释检测算法的输出,而不是用于促进独立视觉检测的数据探测。这是我们的出发点:未经避免,不审视和非分析方法,对Vission(人类流程)和检测(算法)的异常值,分配不变的异常分数(标准化为$ [0,1] $) ,而不是硬二元决定。 Novely的新颖性的主要方面是它将数据转换为新的空间,该空间是在本文中引入的作为邻域累积密度函数(NCDF),其中进行了可视化和检测。在该空间中,异常值非常明显可区分,因此检测算法分配的异常分数在ROC曲线(AUC)下实现了高区域。我们在模拟和最近公布的网络安全数据集中评估了不避免,并将其与其中的三种最成功的异常检测方法进行比较:LOF,IF和FABOD。就AUC而言,不避免几乎是整体胜利者。这篇文章通过提供了对未避免的新理论和实际途径的预测来了解。其中包括设计一种可视化辅助异常检测(Vaad),一种软件通过提供不避免的检测算法(在后发动机中运行),NCDF可视化空间(呈现为绘图)以及其他传统方法在原始特征空间中的可视化,所有这些都在一个交互环境中链接。
translated by 谷歌翻译
群集集群或共识群集已成为一种强大的工具,用于提高各种聚类方法的鲁棒性和结果的稳定性。加权聚类集群自然地从集群集群中产生。加权群集集合的参数之一是聚类集群中的元素(群集或集群)具有不同的质量,或者对象或特征具有不同意义的重要性。但是,不可能直接将加权机制从分类(监督)域中应用于群集(无监督)域,因为群集本质上是一个不存在的问题。本文通过讨论不同类型的权重,确定重量值的主要方法以及将加权聚类集合与复杂数据的应用程序的主要方法概述了加权集群集群集合概述。本文提出的统一框架将有助于聚类从业者为自己的问题选择最合适的加权机制。
translated by 谷歌翻译
我们描述了作为黑暗机器倡议和LES Houches 2019年物理学研讨会进行的数据挑战的结果。挑战的目标是使用无监督机器学习算法检测LHC新物理学的信号。首先,我们提出了如何实现异常分数以在LHC搜索中定义独立于模型的信号区域。我们定义并描述了一个大型基准数据集,由> 10亿美元的Muton-Proton碰撞,其中包含> 10亿美元的模拟LHC事件组成。然后,我们在数据挑战的背景下审查了各种异常检测和密度估计算法,我们在一组现实分析环境中测量了它们的性能。我们绘制了一些有用的结论,可以帮助开发无监督的新物理搜索在LHC的第三次运行期间,并为我们的基准数据集提供用于HTTPS://www.phenomldata.org的未来研究。重现分析的代码在https://github.com/bostdiek/darkmachines-unsupervisedChallenge提供。
translated by 谷歌翻译
聚类算法的全面基准是困难的两个关键因素:(i)〜这种无监督的学习方法的独特数学定义和(ii)〜某些聚类算法采用的生成模型或群集标准之间的依赖性的依赖性内部集群验证。因此,对严格基准测试的最佳做法没有达成共识,以及是否有可能在给定申请的背景之外。在这里,我们认为合成数据集必须继续在群集算法的评估中发挥重要作用,但这需要构建适当地涵盖影响聚类算法性能的各种属性集的基准。通过我们的框架,我们展示了重要的角色进化算法,以支持灵活的这种基准,允许简单的修改和扩展。我们说明了我们框架的两种可能用途:(i)〜基准数据的演变与一组手派生属性和(ii)〜生成梳理给定对算法之间的性能差异的数据集。我们的作品对设计集群基准的设计具有足够挑战广泛算法的集群基准,并进一步了解特定方法的优势和弱点。
translated by 谷歌翻译