在执行现实生活过程中,计划或意外的变化是常见的。检测这些更改是优化运行此类过程的组织的性能的必要条件。最先进的大多数算法都集中在突然变化的检测上,抛开其他类型的变化。在本文中,我们将专注于自动检测渐进漂移,这是一种特殊的变化类型,其中两个模型的情况在一段时间内重叠。所提出的算法依赖于一致性检查指标来自动检测变化,还将这些变化的全自动分类为突然或逐渐分类。该方法已通过一个由120个日志组成的合成数据集进行了验证,该数据集具有不同的变化分布,在检测和分类准确性,延迟和变化区域在比较主要的最新算法方面取得更好的结果。
translated by 谷歌翻译
概念漂移过程挖掘(PM)是一种挑战,因为古典方法假设进程处于稳态,即事件共享相同的进程版本。我们对这些领域的交叉点进行了系统的文献综述,从而审查了过程采矿中的概念漂移,并提出了用于漂移检测和在线流程挖掘的现有技术的分类,以实现不断发展的环境。现有的作品描绘了(i)PM仍然主要关注离线分析,并且(ii)由于缺乏公共评估协议,数据集和指标,过程中的概念漂移技术的评估是麻烦的。
translated by 谷歌翻译
过程发现是一种技术系列,有助于从其数据足迹中理解流程。然而,随着过程随着时间的变化而变化,它们的相应模型也应导致模型不足或过度陈酿的行为。我们提出了一种发现算法,该算法将声明过程从事件流中提取为动态条件响应(DCR)图。监视流以生成过程的时间表示,后来处理以生成声明模型。我们通过定量和定性评估验证了该技术。对于定量评估,我们采用了扩展的JACCARD相似性度量,以说明声明环境中的过程变化。对于定性评估,我们展示了该技术确定的变化如何对应于现有过程中的实际变化。可以在线获得测试的技术和数据。
translated by 谷歌翻译
Concept drift primarily refers to an online supervised learning scenario when the relation between the input data and the target variable changes over time. Assuming a general knowledge of supervised learning in this paper we characterize adaptive learning process, categorize existing strategies for handling concept drift, overview the most representative, distinct and popular techniques and algorithms, discuss evaluation methodology of adaptive algorithms, and present a set of illustrative applications. The survey covers the different facets of concept drift in an integrated way to reflect on the existing scattered state-of-the-art. Thus, it aims at providing a comprehensive introduction to the concept drift adaptation for researchers, industry analysts and practitioners.
translated by 谷歌翻译
在过程挖掘中,发现技术使从事件日志自动构建业务流程模型成为可能。但是,结果通常无法达到模型复杂性及其拟合精度之间的平衡,因此需要进行手动模型调整。该论文提出了一种方法开采的方法,该方法基于模型复杂性和适应性的组合评估为模型优化提供半自动支持。为了在两种成分之间取得平衡,提出了一种模型简化方法,该方法基本上在所需的粒度下抽象了原始模型。此外,我们介绍了一个元态的概念,该元素的周期崩溃了,该循环可以潜在地简化模型并解释模型。我们旨在使用来自医疗保健领域不同应用程序的三个数据集证明技术解决方案的功能。它们是针对COVID-19大流行期间动脉高血压和医疗保健工作人员工作流动的患者的远程监测过程。案例研究还调查了各种复杂性度量和解决方案应用方式的使用,从而提供了有关改善过程模型中改善可解释性和复杂性/适应性平衡的更好实践的见解。
translated by 谷歌翻译
业务流程模拟(BPS)是估计变更对业务流程对其绩效指标的影响的常见方法。例如,BPS允许我们估算如果我们自动化其活动之一的过程的周期时间。 BPS的起点是用仿真参数(BPS模型)注释的业务过程模型。几项研究提出了通过过程挖掘自动从事件日志发现BPS模型的方法。但是,该空间中的当前技术发现了BPS模型,该模型仅捕获由资源争夺或资源不可用而引起的等待时间。通常,业务流程中等待时间的相当一部分是由无关紧要的延误引起的,例如资源等待客户返回电话。本文提出了一种发现从输入数据中发现无关的延迟的方法,并将计时器事件注入BPS模型以捕获发现的延迟。涉及合成和现实生活日志的经验评估表明,该方法会产生BPS模型,以更好地反映该过程的时间动力学,相对于未捕获无关紧要的延迟的BPS模型。
translated by 谷歌翻译
最先进的过程发现方法从事件日志构建自由选择流程模型。因此,构造的模型不会考虑事件之间的间接依赖关系。每当输入行为不是自由选择时,这些方法都无法提供精确的模型。在本文中,我们提出了一种通过添加非自由选择构造通过基于地区的技术发现的非自由选择构造来增强自由选择工艺模型的新方法。这使我们能够从现有的过程发现方法的性能中受益以及采用基本合成技术的准确性。我们证明,当存在间接依赖关系时,所提出的方法在提高了事件日志时保留了适应性。该方法已经在合成和实际数据集中实施和测试。结果表明其在从事件日志中修复模型的有效性。
translated by 谷歌翻译
Concept drift describes unforeseeable changes in the underlying distribution of streaming data over time. Concept drift research involves the development of methodologies and techniques for drift detection, understanding and adaptation. Data analysis has revealed that machine learning in a concept drift environment will result in poor learning results if the drift is not addressed. To help researchers identify which research topics are significant and how to apply related techniques in data analysis tasks, it is necessary that a high quality, instructive review of current research developments and trends in the concept drift field is conducted. In addition, due to the rapid development of concept drift in recent years, the methodologies of learning under concept drift have become noticeably systematic, unveiling a framework which has not been mentioned in literature. This paper reviews over 130 high quality publications in concept drift related research areas, analyzes up-to-date developments in methodologies and techniques, and establishes a framework of learning under concept drift including three main components: concept drift detection, concept drift understanding, and concept drift adaptation. This paper lists and discusses 10 popular synthetic datasets and 14 publicly available benchmark datasets used for evaluating the performance of learning algorithms aiming at handling concept drift. Also, concept drift related research directions are covered and discussed. By providing state-of-the-art knowledge, this survey will directly support researchers in their understanding of research developments in the field of learning under concept drift.
translated by 谷歌翻译
复杂的事件识别(CER)系统在过去二十年中变得流行,因为它们能够“立即”检测在实时事件流上的模式。然而,缺乏预测模式可能发生在例如由Cer发动机实际检测到这种发生之前的模式。我们提出了一项正式的框架,试图解决复杂事件预测(CEF)的问题。我们的框架结合了两个形式主义:a)用于编码复杂事件模式的符号自动机; b)预测后缀树,可以提供自动机构的行为的简洁概率描述。我们比较我们提出的方法,以防止最先进的方法,并在准确性和效率方面展示其优势。特别地,预测后缀树是可变的马尔可夫模型,可以通过仅记住足够的信息的过去序列来捕获流中的长期依赖性。我们的实验结果表明了能够捕获这种长期依赖性的准确性的益处。这是通过增加我们模型的顺序来实现的,以满足需要执行给定顺序的所有可能的过去序列的所有可能的过去序列的详尽枚举的全阶马尔可夫模型。我们还广泛讨论CEF解决方案如何最佳地评估其预测的质量。
translated by 谷歌翻译
Performance debugging in production is a fundamental activity in modern service-based systems. The diagnosis of performance issues is often time-consuming, since it requires thorough inspection of large volumes of traces and performance indices. In this paper we present DeLag, a novel automated search-based approach for diagnosing performance issues in service-based systems. DeLag identifies subsets of requests that show, in the combination of their Remote Procedure Call execution times, symptoms of potentially relevant performance issues. We call such symptoms Latency Degradation Patterns. DeLag simultaneously searches for multiple latency degradation patterns while optimizing precision, recall and latency dissimilarity. Experimentation on 700 datasets of requests generated from two microservice-based systems shows that our approach provides better and more stable effectiveness than three state-of-the-art approaches and general purpose machine learning clustering algorithms. DeLag is more effective than all baseline techniques in at least one case study (with p $\leq$ 0.05 and non-negligible effect size). Moreover, DeLag outperforms in terms of efficiency the second and the third most effective baseline techniques on the largest datasets used in our evaluation (up to 22%).
translated by 谷歌翻译
对业务流程的预测监控是流程挖掘的子领域,旨在预测下一个事件的特征或下一个事件的序列。虽然已经提出了基于深度学习的多种方法,主要是经常发生的神经网络和卷积神经网络,但它们都不是真正利用过程模型中可用的结构信息。本文提出了一种基于图形卷积网络和经常性神经网络的方法,所述内部网络从过程模型中使用信息。真实事件日志的实验评估表明,我们的方法更加一致,更优于当前的最先进的方法。
translated by 谷歌翻译
对自然和人制过程的研究通常会导致长时间有序值的长序列,也就是时间序列(TS)。这样的过程通常由多个状态组成,例如机器的操作模式,使观测过程中的状态变化会导致测量值形状的分布变化。时间序列分割(TSS)试图发现TS事后的这种变化,以推断数据生成过程的变化。通常将TSS视为无监督的学习问题,目的是识别某些统计属性可区分的细分。 TSS的当前算法要求用户设置依赖域的超参数,对TS值分布进行假设或可检测更改的类型,以限制其适用性。常见的超参数是段均匀性和变更点的数量的度量,对于每个数据集,这尤其难以调节。我们提出了TSS的一种新颖,高度准确,无参数和域的无义方法的方法。扣子分层将TS分为两个部分。更改点是通过训练每个可能的拆分点的二进制TS分类器来确定的,并选择最能识别从任何一个分区的子序列的一个拆分。 CLASP使用两种新颖的定制算法从数据中学习了其主要的两个模型参数。在我们使用115个数据集的基准测试的实验评估中,我们表明,扣子优于准确性,并且可以快速且可扩展。此外,我们使用几个现实世界的案例研究强调了扣子的特性。
translated by 谷歌翻译
自动日志文件分析可以尽早发现相关事件,例如系统故障。特别是,自我学习的异常检测技术在日志数据中捕获模式,随后向系统操作员报告意外的日志事件事件,而无需提前提供或手动对异常情况进行建模。最近,已经提出了越来越多的方法来利用深度学习神经网络为此目的。与传统的机器学习技术相比,这些方法证明了出色的检测性能,并同时解决了不稳定数据格式的问题。但是,有许多不同的深度学习体系结构,并且编码由神经网络分析的原始和非结构化日志数据是不平凡的。因此,我们进行了系统的文献综述,概述了部署的模型,数据预处理机制,异常检测技术和评估。该调查没有定量比较现有方法,而是旨在帮助读者了解不同模型体系结构的相关方面,并强调未来工作的开放问题。
translated by 谷歌翻译
本文介绍了Planminer-N算法,基于Planminer域学习算法的域学习技术。此处呈现的算法在使用噪声数据作为输入时,提高了Planminer的学习能力。 Planminer算法能够推断出算术和逻辑表达式以从输入数据学习数值规划域,但它旨在在面对噪声输入数据时不可靠的情况下工作。在本文中,我们向Planminer的学习过程提出了一系列增强,以扩展其从嘈杂数据中学习的能力。这些方法通过检测噪声和过滤它并研究学习的学习动作模型来预处理输入数据,以便在它们中找到错误的前提条件/效果。使用来自国际规划竞赛(IPC)的一组域来测试本文提出的方法。取得的结果表明,在面对嘈杂的输入数据时,Planminer-N大大提高了Planminer的性能。
translated by 谷歌翻译
预测过程分析已成为组织的基本援助,从而为其流程提供在线运营支持。但是,需要向流程利益相关者提供解释为什么预测给定流程执行以某种方式行事的原因。否则,他们将不太可能相信预测性监测技术,从而采用它。本文提出了一个预测分析框架,该框架还具有基于Shapley值的游戏理论的解释功能。该框架已在IBM Process采矿套件中实施,并为业务用户商业化。该框架已在现实生活事件数据上进行了测试,以评估预测的质量和相应的评估。特别是,已经执行了用户评估,以了解系统提供的解释是否可以使流程利益相关者可理解。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
可靠的剩余时间预测正在进行的业务流程是一个高度相关的主题。一个例子是订单交付,这是一个关键的竞争因素,例如零售是因为它是客户满意度的主要驱动力。为了及时实现及时的交付,对交付过程剩余时间的准确预测至关重要。在过程挖掘领域内,已经提出了各种各样的剩余时间预测技术。在这项工作中,我们基于随机培养皿网的剩余时间预测,该预测通常分布在k-nearthiend邻居中。 k-nearest邻居算法是在存储过去的时间以完成先前活动的时间的简单矢量上执行的。通过仅采用一部分实例,获得了更具代表性和稳定的随机培养皿网,从而导致更准确的时间预测。我们讨论了该技术及其在Python中的基本实现,并使用不同的现实世界数据集来评估我们扩展的预测能力。这些实验在结合有关预测能力方面的两种技术方面都具有明显的优势。
translated by 谷歌翻译
在这项工作中,我们提出了一种从随机已知的日志中恢复的算法,这种设置越来越普遍,随着传感器数量的增加和产生不确定数据的预测模型。建议的方法计算过程模型与随机已知的痕迹之间的符合性,并在此随机迹线中恢复最佳对齐,作为真实痕迹。本文提供了各种成本模型对痕量恢复准确性的影响的分析,并利用产品多刷子来比较替代的跟踪恢复选项。我们使用两个公开数据集进行评估的方法的平均准确性令人印象深刻,平均恢复精度得分为90-97%,显着改善了一种共同的启发式,它为每种不确定的活动选择了最可能的价值。我们认为,拟议算法从随机已知的日志中恢复正确的痕迹的有效性可能是在不确定的环境中开发可靠的决策工具的有力帮助。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译