异常检测是识别数据集中异常实例或事件的过程,这些情况偏离了规范。在本研究中,我们提出了一种基于机器学习算法的签名,以检测给定数据集的稀有或意外项目。我们将签名或随机签名的应用作为异常检测算法的特征提取器;此外,我们为随机签名构建提供了简单的,表示的理论理由。我们的第一个申请基于合成数据,旨在区分股票价格的实际和假轨迹,这是通过目视检查无法区分的。我们还通过使用加密货币市场的交易数据来显示实际应用程序。在这种情况下,我们能够通过无监督的学习算法识别在社交网络上组织的泵和转储尝试,该算法高达88%,从而实现了靠近现场最先进的结果基于监督学习。
translated by 谷歌翻译
基于签名的技术使数学洞察力洞悉不断发展的数据的复杂流之间的相互作用。这些见解可以自然地转化为理解流数据的数值方法,也许是由于它们的数学精度,已被证明在数据不规则而不是固定的情况下分析流的数据以及数据和数据的尺寸很有用样本量均为中等。了解流的多模式数据是指数的:$ d $ d $的字母中的$ n $字母中的一个单词可以是$ d^n $消息之一。签名消除了通过采样不规则性引起的指数级噪声,但仍然存在指数量的信息。这项调查旨在留在可以直接管理指数缩放的域中。在许多问题中,可伸缩性问题是一个重要的挑战,但需要另一篇调查文章和进一步的想法。这项调查描述了一系列环境集足够小以消除大规模机器学习的可能性,并且可以有效地使用一小部分免费上下文和原则性功能。工具的数学性质可以使他们对非数学家的使用恐吓。本文中介绍的示例旨在弥合此通信差距,并提供从机器学习环境中绘制的可进行的工作示例。笔记本可以在线提供这些示例中的一些。这项调查是基于伊利亚·雪佛兰(Ilya Chevryev)和安德烈·科米利津(Andrey Kormilitzin)的早期论文,它们在这种机械开发的较早时刻大致相似。本文说明了签名提供的理论见解是如何在对应用程序数据的分析中简单地实现的,这种方式在很大程度上对数据类型不可知。
translated by 谷歌翻译
本文研究了使用神经跳跃(NJ-ODE)框架扩展的一般随机过程的问题。虽然NJ-ODE是为预测不规则观察到的时间序列而建立收敛保证的第一个框架,但这些结果仅限于从中\^o-diffusions的数据,特别是Markov过程,特别是在其中同时观察到所有坐标。。在这项工作中,我们通过利用签名变换的重建属性,将这些结果推广到具有不完整观察结果的通用,可能是非马克维亚或不连续的随机过程。这些理论结果得到了经验研究的支持,在该研究中,在非马克维亚数据的情况下,依赖路径依赖性的NJ-ode优于原始的NJ-ode框架。
translated by 谷歌翻译
为了允许机器学习算法从原始数据中提取知识,必须首先清除,转换,并将这些数据置于适当的形式。这些通常很耗时的阶段被称为预处理。预处理阶段的一个重要步骤是特征选择,其目的通过减少数据集的特征量来更好地执行预测模型。在这些数据集中,不同事件的实例通常是不平衡的,这意味着某些正常事件被超出,而其他罕见事件非常有限。通常,这些罕见的事件具有特殊的兴趣,因为它们具有比正常事件更具辨别力。这项工作的目的是过滤提供给这些罕见实例的特征选择方法的实例,从而积极影响特征选择过程。在这项工作过程中,我们能够表明这种过滤对分类模型的性能以及异常值检测方法适用于该过滤。对于某些数据集,所产生的性能增加仅为百分点,但对于其他数据集,我们能够实现高达16%的性能的增加。这项工作应导致预测模型的改进以及在预处理阶段的过程中的特征选择更好的可解释性。本着公开科学的精神,提高了我们的研究领域的透明度,我们已经在公开的存储库中提供了我们的所有源代码和我们的实验结果。
translated by 谷歌翻译
该行业许多领域的自动化越来越多地要求为检测异常事件设计有效的机器学习解决方案。随着传感器的普遍存在传感器监测几乎连续地区的复杂基础设施的健康,异常检测现在可以依赖于以非常高的频率进行采样的测量,从而提供了在监视下的现象的非常丰富的代表性。为了充分利用如此收集的信息,观察不能再被视为多变量数据,并且需要一个功能分析方法。本文的目的是探讨近期对实际数据集的功能设置中异常检测技术的性能。在概述最先进的和视觉描述性研究之后,比较各种异常检测方法。虽然功能设置中的异常分类(例如,形状,位置)在文献中记录,但为所识别的异常分配特定类型似乎是一个具有挑战性的任务。因此,鉴于模拟研究中的这些突出显示类型,现有方法的强度和弱点是基准测试。接下来在两个数据集上评估异常检测方法,与飞行中的直升机监测和建筑材料的光谱相同有关。基准分析由从业者的建议指导结束。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
长序列中的子序列异常检测是在广泛域中应用的重要问题。但是,迄今为止文献中提出的方法具有严重的局限性:它们要么需要用于设计异常发现算法的先前领域知识,要么在与相同类型的复发异常情况下使用繁琐且昂贵。在这项工作中,我们解决了这些问题,并提出了一种适用于域的不可知论次序列异常检测的方法。我们的方法series2graph基于新型低维嵌入子序列的图表。 Series2Graph不需要标记的实例(例如监督技术)也不需要无异常的数据(例如零阳性学习技术),也不需要识别长度不同的异常。在迄今为止使用的最大合成和真实数据集的实验结果表明,所提出的方法正确地识别了单一和复发异常,而无需任何先验的特征,以优于多种差距的准确性,同时提高了几种竞争的方法,同时又表现出色更快的数量级。本文出现在VLDB 2020中。
translated by 谷歌翻译
流媒体数据中对异常的实时检测正在受到越来越多的关注,因为它使我们能够提高警报,预测故障并检测到整个行业的入侵或威胁。然而,很少有人注意比较流媒体数据(即在线算法)的异常检测器的有效性和效率。在本文中,我们介绍了来自不同算法家族(即基于距离,密度,树木或投影)的主要在线检测器的定性合成概述,并突出了其构建,更新和测试检测模型的主要思想。然后,我们对在线检测算法的定量实验评估以及其离线对应物进行了彻底的分析。检测器的行为与不同数据集(即元功能)的特征相关,从而提供了对其性能的元级分析。我们的研究介绍了文献中几个缺失的见解,例如(a)检测器对随机分类器的可靠性以及什么数据集特性使它们随机执行; (b)在线探测器在何种程度上近似离线同行的性能; (c)哪种绘制检测器的策略和更新原始图最适合检测仅在数据集的功能子空间中可见的异常; (d)属于不同算法家族的探测器的有效性与效率之间的权衡是什么; (e)数据集的哪些特定特征产生在线算法以胜过所有其他特征。
translated by 谷歌翻译
培训和测试监督对象检测模型需要大量带有地面真相标签的图像。标签定义图像中的对象类及其位置,形状以及可能的其他信息,例如姿势。即使存在人力,标签过程也非常耗时。我们引入了一个新的标签工具,用于2D图像以及3D三角网格:3D标记工具(3DLT)。这是一个独立的,功能丰富和跨平台软件,不需要安装,并且可以在Windows,MacOS和基于Linux的发行版上运行。我们不再像当前工具那样在每个图像上分别标记相同的对象,而是使用深度信息从上述图像重建三角形网格,并仅在上述网格上标记一次对象。我们使用注册来简化3D标记,离群值检测来改进2D边界框的计算和表面重建,以将标记可能性扩展到大点云。我们的工具经过最先进的方法测试,并且在保持准确性和易用性的同时,它极大地超过了它们。
translated by 谷歌翻译
We combine the metrics of distance and isolation to develop the \textit{Analytic Isolation and Distance-based Anomaly (AIDA) detection algorithm}. AIDA is the first distance-based method that does not rely on the concept of nearest-neighbours, making it a parameter-free model. Differently from the prevailing literature, in which the isolation metric is always computed via simulations, we show that AIDA admits an analytical expression for the outlier score, providing new insights into the isolation metric. Additionally, we present an anomaly explanation method based on AIDA, the \textit{Tempered Isolation-based eXplanation (TIX)} algorithm, which finds the most relevant outlier features even in data sets with hundreds of dimensions. We test both algorithms on synthetic and empirical data: we show that AIDA is competitive when compared to other state-of-the-art methods, and it is superior in finding outliers hidden in multidimensional feature subspaces. Finally, we illustrate how the TIX algorithm is able to find outliers in multidimensional feature subspaces, and use these explanations to analyze common benchmarks used in anomaly detection.
translated by 谷歌翻译
矢量值随机变量的矩序列可以表征其定律。我们通过使用所谓的稳健签名矩来研究路径值随机变量(即随机过程)的类似问题。这使我们能够为随机过程定律得出最大平均差异类型的度量,并研究其在随机过程定律方面引起的拓扑。可以使用签名内核对该度量进行内核,从而有效地计算它。作为应用程序,我们为随机过程定律提供了非参数的两样本假设检验。
translated by 谷歌翻译
异常的可视化和检测异常(异常值)对许多领域,特别是网络安全的重要性至关重要。在这些领域提出了几种方法,但我们的知识迄今为止,它们都不是在一个相干框架中同时或合作地满足了两个目标。引入了这些方法的可视化方法,用于解释检测算法的输出,而不是用于促进独立视觉检测的数据探测。这是我们的出发点:未经避免,不审视和非分析方法,对Vission(人类流程)和检测(算法)的异常值,分配不变的异常分数(标准化为$ [0,1] $) ,而不是硬二元决定。 Novely的新颖性的主要方面是它将数据转换为新的空间,该空间是在本文中引入的作为邻域累积密度函数(NCDF),其中进行了可视化和检测。在该空间中,异常值非常明显可区分,因此检测算法分配的异常分数在ROC曲线(AUC)下实现了高区域。我们在模拟和最近公布的网络安全数据集中评估了不避免,并将其与其中的三种最成功的异常检测方法进行比较:LOF,IF和FABOD。就AUC而言,不避免几乎是整体胜利者。这篇文章通过提供了对未避免的新理论和实际途径的预测来了解。其中包括设计一种可视化辅助异常检测(Vaad),一种软件通过提供不避免的检测算法(在后发动机中运行),NCDF可视化空间(呈现为绘图)以及其他传统方法在原始特征空间中的可视化,所有这些都在一个交互环境中链接。
translated by 谷歌翻译
尽管机器学习方法已在金融领域广泛使用,但在非常成功的学位上,这些方法仍然可以根据解释性,可比性和可重复性来定制特定研究和不透明。这项研究的主要目的是通过提供一种通用方法来阐明这一领域,该方法是调查 - 不合Snostic且可解释给金融市场从业人员,从而提高了其效率,降低了进入的障碍,并提高了实验的可重复性。提出的方法在两个自动交易平台组件上展示。也就是说,价格水平,众所周知的交易模式和一种新颖的2步特征提取方法。该方法依赖于假设检验,该假设检验在其他社会和科学学科中广泛应用,以有效地评估除简单分类准确性之外的具体结果。提出的主要假设是为了评估所选的交易模式是否适合在机器学习设置中使用。在整个实验中,我们发现在机器学习设置中使用所考虑的交易模式仅由统计数据得到部分支持,从而导致效果尺寸微不足道(反弹7- $ 0.64 \ pm 1.02 $,反弹11 $ 0.38 \ pm 0.98 $,并且篮板15- $ 1.05 \ pm 1.16 $),但允许拒绝零假设。我们展示了美国期货市场工具上的通用方法,并提供了证据表明,通过这种方法,我们可以轻松获得除传统绩效和盈利度指标之外的信息指标。这项工作是最早将这种严格的统计支持方法应用于金融市场领域的工作之一,我们希望这可能是更多研究的跳板。
translated by 谷歌翻译
自动日志文件分析可以尽早发现相关事件,例如系统故障。特别是,自我学习的异常检测技术在日志数据中捕获模式,随后向系统操作员报告意外的日志事件事件,而无需提前提供或手动对异常情况进行建模。最近,已经提出了越来越多的方法来利用深度学习神经网络为此目的。与传统的机器学习技术相比,这些方法证明了出色的检测性能,并同时解决了不稳定数据格式的问题。但是,有许多不同的深度学习体系结构,并且编码由神经网络分析的原始和非结构化日志数据是不平凡的。因此,我们进行了系统的文献综述,概述了部署的模型,数据预处理机制,异常检测技术和评估。该调查没有定量比较现有方法,而是旨在帮助读者了解不同模型体系结构的相关方面,并强调未来工作的开放问题。
translated by 谷歌翻译
The detection of anomalies in time series data is crucial in a wide range of applications, such as system monitoring, health care or cyber security. While the vast number of available methods makes selecting the right method for a certain application hard enough, different methods have different strengths, e.g. regarding the type of anomalies they are able to find. In this work, we compare six unsupervised anomaly detection methods with different complexities to answer the questions: Are the more complex methods usually performing better? And are there specific anomaly types that those method are tailored to? The comparison is done on the UCR anomaly archive, a recent benchmark dataset for anomaly detection. We compare the six methods by analyzing the experimental results on a dataset- and anomaly type level after tuning the necessary hyperparameter for each method. Additionally we examine the ability of individual methods to incorporate prior knowledge about the anomalies and analyse the differences of point-wise and sequence wise features. We show with broad experiments, that the classical machine learning methods show a superior performance compared to the deep learning methods across a wide range of anomaly types.
translated by 谷歌翻译
复杂的事件识别(CER)系统在过去二十年中变得流行,因为它们能够“立即”检测在实时事件流上的模式。然而,缺乏预测模式可能发生在例如由Cer发动机实际检测到这种发生之前的模式。我们提出了一项正式的框架,试图解决复杂事件预测(CEF)的问题。我们的框架结合了两个形式主义:a)用于编码复杂事件模式的符号自动机; b)预测后缀树,可以提供自动机构的行为的简洁概率描述。我们比较我们提出的方法,以防止最先进的方法,并在准确性和效率方面展示其优势。特别地,预测后缀树是可变的马尔可夫模型,可以通过仅记住足够的信息的过去序列来捕获流中的长期依赖性。我们的实验结果表明了能够捕获这种长期依赖性的准确性的益处。这是通过增加我们模型的顺序来实现的,以满足需要执行给定顺序的所有可能的过去序列的所有可能的过去序列的详尽枚举的全阶马尔可夫模型。我们还广泛讨论CEF解决方案如何最佳地评估其预测的质量。
translated by 谷歌翻译
基于用法的保险已成为车辆保险的新标准;因此,找到使用保险人的驾驶数据的有效方法很重要。在车辆的行程摘要中应用异常检测,我们开发了一种方法,允许为每辆车辆得出“常规”和“特殊性”异常轮廓。为此,使用每辆车辆进行的每次旅行的异常检测算法来计算常规和特殊性异常得分。与相关车辆进行的其他旅行相比,前者测量了旅行的异常程度,而后者则与任何车辆进行的旅行相比,衡量了其异常程度。所得的异常得分向量用作常规和特殊性曲线。然后从这些配置文件中提取功能,我们为其研究索赔分类框架中的预测能力。使用真实数据,我们发现从车辆的特殊性概况提取的功能改善了分类。
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
自2009年比特币成立以来,随着日常交易超过100亿美元,加密货币的市场已经超出了初始预期。随着行业的自动化,自动欺诈探测器的需求变得非常明显。实时检测异常会阻止潜在的事故和经济损失。多元时间序列数据中的异常检测提出了一个特定的挑战,因为它需要同时考虑时间依赖性和变量之间的关系。实时识别异常并不是一项容易的任务,特别是因为他们观察到的确切的异常行为。有些要点可能会呈现全球或局部异常行为,而其他点由于其频率或季节性行为或趋势的变化,可能是异常的。在本文中,我们建议从特定帐户进行以太坊的实时交易,并调查了各种各样的传统和新算法。我们根据他们搜索的策略和异常行为对它们进行分类,并表明当它们将它们捆绑在一起时,它们可以证明是一个很好的实时探测器,警报时间不超过几秒钟,并且非常有高信心。
translated by 谷歌翻译
无论是在功能选择的领域还是可解释的AI领域,都有基于其重要性的“排名”功能的愿望。然后可以将这种功能重要的排名用于:(1)减少数据集大小或(2)解释机器学习模型。但是,在文献中,这种特征排名没有以系统的,一致的方式评估。许多论文都有不同的方式来争论哪些具有重要性排名最佳的特征。本文通过提出一种新的评估方法来填补这一空白。通过使用合成数据集,可以事先知道特征重要性得分,从而可以进行更系统的评估。为了促进使用新方法的大规模实验,在Python建造了一个名为FSEVAL的基准测定框架。该框架允许并行运行实验,并在HPC系统上的计算机上分布。通过与名为“权重和偏见”的在线平台集成,可以在实时仪表板上进行交互探索图表。该软件作为开源软件发布,并在PYPI平台上以包裹发行。该研究结束时,探索了一个这样的大规模实验,以在许多方面找到参与算法的优势和劣势。
translated by 谷歌翻译