业务流程偏差是指业务流程执行的子集的现象,以消极或积极的方式偏离{他们的预期或理想的结果。业务流程的偏差执行包括违反合规规则的人,或者欠冲前或超过绩效目标的执行。偏差挖掘涉及通过分析支持业务流程的系统存储的事件日志来揭示揭示异常执行的原因。在本文中,首先通过基于顺序和声明模式模式的特征和它们的组合来研究解释业务流程的偏差问题。然后,通过基于纯数据属性值和数据感知声明规则利用事件日志中的事件日志和迹线的数据属性来进一步提高说明。然后通过用于规则感应的直接和间接方法来提取表征消化的解释。使用来自多个域的实际日志,根据他们准确地区分过程的非偏差和异常执行能力以及决赛的可理解性的能力来评估一系列特征类型和不同形式的决策规则。返回给用户的结果。
translated by 谷歌翻译
Prescriptive Process Monitoring systems recommend, during the execution of a business process, interventions that, if followed, prevent a negative outcome of the process. Such interventions have to be reliable, that is, they have to guarantee the achievement of the desired outcome or performance, and they have to be flexible, that is, they have to avoid overturning the normal process execution or forcing the execution of a given activity. Most of the existing Prescriptive Process Monitoring solutions, however, while performing well in terms of recommendation reliability, provide the users with very specific (sequences of) activities that have to be executed without caring about the feasibility of these recommendations. In order to face this issue, we propose a new Outcome-Oriented Prescriptive Process Monitoring system recommending temporal relations between activities that have to be guaranteed during the process execution in order to achieve a desired outcome. This softens the mandatory execution of an activity at a given point in time, thus leaving more freedom to the user in deciding the interventions to put in place. Our approach defines these temporal relations with Linear Temporal Logic over finite traces patterns that are used as features to describe the historical process data recorded in an event log by the information systems supporting the execution of the process. Such encoded log is used to train a Machine Learning classifier to learn a mapping between the temporal patterns and the outcome of a process execution. The classifier is then queried at runtime to return as recommendations the most salient temporal patterns to be satisfied to maximize the likelihood of a certain outcome for an input ongoing process execution. The proposed system is assessed using a pool of 22 real-life event logs that have already been used as a benchmark in the Process Mining community.
translated by 谷歌翻译
预测过程分析已成为组织的基本援助,从而为其流程提供在线运营支持。但是,需要向流程利益相关者提供解释为什么预测给定流程执行以某种方式行事的原因。否则,他们将不太可能相信预测性监测技术,从而采用它。本文提出了一个预测分析框架,该框架还具有基于Shapley值的游戏理论的解释功能。该框架已在IBM Process采矿套件中实施,并为业务用户商业化。该框架已在现实生活事件数据上进行了测试,以评估预测的质量和相应的评估。特别是,已经执行了用户评估,以了解系统提供的解释是否可以使流程利益相关者可理解。
translated by 谷歌翻译
我们建议使用基于规则的技术加速系统级调试的根源程序。我们描述了该过程及其如何提供高质量的调试提示,以减少调试工作。这包括来自许多测试日志的工程功能的启发式方法,以及用于生成强大调试提示的数据分析技术。作为案例研究,我们将这些技术用于电源管理(PM)设计功能软件包C8的根源失败,并显示了它们的有效性。此外,我们提出了一种挖掘引起根源的经验和重用结果,加速未来调试活动并减少对验证专家的依赖的方法。我们认为,这些技术也对不同级别的抽象级别的其他验证活动也有益,对于复杂的硬件,软件和固件系统,包括前硅和后硅。
translated by 谷歌翻译
概念漂移过程挖掘(PM)是一种挑战,因为古典方法假设进程处于稳态,即事件共享相同的进程版本。我们对这些领域的交叉点进行了系统的文献综述,从而审查了过程采矿中的概念漂移,并提出了用于漂移检测和在线流程挖掘的现有技术的分类,以实现不断发展的环境。现有的作品描绘了(i)PM仍然主要关注离线分析,并且(ii)由于缺乏公共评估协议,数据集和指标,过程中的概念漂移技术的评估是麻烦的。
translated by 谷歌翻译
过程发现是一种技术系列,有助于从其数据足迹中理解流程。然而,随着过程随着时间的变化而变化,它们的相应模型也应导致模型不足或过度陈酿的行为。我们提出了一种发现算法,该算法将声明过程从事件流中提取为动态条件响应(DCR)图。监视流以生成过程的时间表示,后来处理以生成声明模型。我们通过定量和定性评估验证了该技术。对于定量评估,我们采用了扩展的JACCARD相似性度量,以说明声明环境中的过程变化。对于定性评估,我们展示了该技术确定的变化如何对应于现有过程中的实际变化。可以在线获得测试的技术和数据。
translated by 谷歌翻译
可靠的剩余时间预测正在进行的业务流程是一个高度相关的主题。一个例子是订单交付,这是一个关键的竞争因素,例如零售是因为它是客户满意度的主要驱动力。为了及时实现及时的交付,对交付过程剩余时间的准确预测至关重要。在过程挖掘领域内,已经提出了各种各样的剩余时间预测技术。在这项工作中,我们基于随机培养皿网的剩余时间预测,该预测通常分布在k-nearthiend邻居中。 k-nearest邻居算法是在存储过去的时间以完成先前活动的时间的简单矢量上执行的。通过仅采用一部分实例,获得了更具代表性和稳定的随机培养皿网,从而导致更准确的时间预测。我们讨论了该技术及其在Python中的基本实现,并使用不同的现实世界数据集来评估我们扩展的预测能力。这些实验在结合有关预测能力方面的两种技术方面都具有明显的优势。
translated by 谷歌翻译
In the last years many accurate decision support systems have been constructed as black boxes, that is as systems that hide their internal logic to the user. This lack of explanation constitutes both a practical and an ethical issue. The literature reports many approaches aimed at overcoming this crucial weakness sometimes at the cost of scarifying accuracy for interpretability. The applications in which black box decision systems can be used are various, and each approach is typically developed to provide a solution for a specific problem and, as a consequence, delineating explicitly or implicitly its own definition of interpretability and explanation. The aim of this paper is to provide a classification of the main problems addressed in the literature with respect to the notion of explanation and the type of black box system. Given a problem definition, a black box type, and a desired explanation this survey should help the researcher to find the proposals more useful for his own work. The proposed classification of approaches to open black box models should also be useful for putting the many research open questions in perspective.
translated by 谷歌翻译
在过程挖掘中,发现技术使从事件日志自动构建业务流程模型成为可能。但是,结果通常无法达到模型复杂性及其拟合精度之间的平衡,因此需要进行手动模型调整。该论文提出了一种方法开采的方法,该方法基于模型复杂性和适应性的组合评估为模型优化提供半自动支持。为了在两种成分之间取得平衡,提出了一种模型简化方法,该方法基本上在所需的粒度下抽象了原始模型。此外,我们介绍了一个元态的概念,该元素的周期崩溃了,该循环可以潜在地简化模型并解释模型。我们旨在使用来自医疗保健领域不同应用程序的三个数据集证明技术解决方案的功能。它们是针对COVID-19大流行期间动脉高血压和医疗保健工作人员工作流动的患者的远程监测过程。案例研究还调查了各种复杂性度量和解决方案应用方式的使用,从而提供了有关改善过程模型中改善可解释性和复杂性/适应性平衡的更好实践的见解。
translated by 谷歌翻译
对比模式挖掘(CPM)是数据挖掘的重要且流行的子场。传统的顺序模式无法描述不同类别数据之间的对比度信息,而涉及对比概念的对比模式可以描述不同对比条件下数据集之间的显着差异。根据该领域发表的论文数量,我们发现研究人员对CPM的兴趣仍然活跃。由于CPM有许多研究问题和研究方法。该领域的新研究人员很难在短时间内了解该领域的一般状况。因此,本文的目的是为对比模式挖掘的研究方向提供最新的全面概述。首先,我们对CPM提出了深入的理解,包括评估歧视能力的基本概念,类型,采矿策略和指标。然后,我们根据CPM方法根据其特征分类为基于边界的算法,基于树的算法,基于进化模糊的系统算法,基于决策树的算法和其他算法。此外,我们列出了这些方法的经典算法,并讨论它们的优势和缺点。提出了CPM中的高级主题。最后,我们通过讨论该领域的挑战和机遇来结束调查。
translated by 谷歌翻译
流程数据可用性的兴起最近导致了数据驱动的学习方法的发展。但是,这些方法中的大多数限制了学习模型的使用来预测正在进行的过程执行的未来。本文的目的是向向前迈出一步,并利用可用的数据来学习采取行动,通过支持用户的最佳策略(绩效衡量)的建议。我们采用一个过程参与者的优化视角,我们建议下一步执行的最佳活动,以响应在复杂的外部环境中发生的事情,而外源性因素没有控制。为此,我们研究了一种通过强化学习来学习的方法,从观察过去的执行中学习的最佳政策,并建议开展最佳活动,以进行优化关键的兴趣指标。该方法的有效性在从现实生活数据中获取的两种情况下得到了证明。
translated by 谷歌翻译
越来越多的工作已经认识到利用机器学习(ML)进步的重要性,以满足提取访问控制属性,策略挖掘,策略验证,访问决策等有效自动化的需求。在这项工作中,我们调查和总结了各种ML解决不同访问控制问题的方法。我们提出了ML模型在访问控制域中应用的新分类学。我们重点介绍当前的局限性和公开挑战,例如缺乏公共现实世界数据集,基于ML的访问控制系统的管理,了解黑盒ML模型的决策等,并列举未来的研究方向。
translated by 谷歌翻译
Performance debugging in production is a fundamental activity in modern service-based systems. The diagnosis of performance issues is often time-consuming, since it requires thorough inspection of large volumes of traces and performance indices. In this paper we present DeLag, a novel automated search-based approach for diagnosing performance issues in service-based systems. DeLag identifies subsets of requests that show, in the combination of their Remote Procedure Call execution times, symptoms of potentially relevant performance issues. We call such symptoms Latency Degradation Patterns. DeLag simultaneously searches for multiple latency degradation patterns while optimizing precision, recall and latency dissimilarity. Experimentation on 700 datasets of requests generated from two microservice-based systems shows that our approach provides better and more stable effectiveness than three state-of-the-art approaches and general purpose machine learning clustering algorithms. DeLag is more effective than all baseline techniques in at least one case study (with p $\leq$ 0.05 and non-negligible effect size). Moreover, DeLag outperforms in terms of efficiency the second and the third most effective baseline techniques on the largest datasets used in our evaluation (up to 22%).
translated by 谷歌翻译
业务流程的自动化和数字化导致信息系统中捕获的大量数据,这可以帮助企业更好地理解其流程,改善工作流或提供运营支持。通过对正在进行的过程进行预测,可以识别瓶颈并重新分配资源,以及在过程实例的状态(案例)中获得的见解。传统上,数据是以带有单个识别案例概念的事件日志的形式从系统中提取的,例如用于现金订单(O2C)流程的订单ID。但是,实际过程通常具有多种对象类型,例如订单,项目和软件包,因此强制使用单个案例概念的格式不会反映数据中的基本关系。引入了以对象为中心的事件日志(OCEL)格式,以正确捕获此信息。最先进的预测方法仅根据传统事件日志量身定制。该论点表明,可以使用OCEL中包含的丰富数据来增强一种利用生成对抗网络(GAN),长期记忆(LSTM)体系结构(SEQ2SEQ)的预测方法。 OCEL中的对象可以具有可用于预测下一个事件和时间戳的属性,例如对于对象类型包的优先类属性,指示速度较慢或更快地处理。在预测剩余事件的序列相似性和时间戳的平均绝对误差(MAE)的指标中,本文中的方法匹配或超过了先前的研究,具体取决于所选对象属性是否是模型的有用特征。此外,本文提供了一个Web界面,以预测用户输入中的下一个活动序列。
translated by 谷歌翻译
最近,在以结果为导向的预测过程监测(OOPPM)的领域进行了转变,以使用可解释的人工智能范式中的模型,但是评估仍然主要是通过基于绩效的指标来进行的,而不是考虑到启示性和缺乏可行性。解释。在本文中,我们通过解释的解释性(通过广泛使用的XAI属性和功能复杂性)和解释性模型的忠诚(通过单调性和分歧的水平)来定义解释性。沿事件,情况和控制流透视图分析了引入的属性,这些视角是基于过程的分析的典型代表。这允许定量比较,除其他外,固有地创建了用事后解释(例如Shapley值)(例如Shapley值)的固有创建的解释(例如逻辑回归系数)。此外,本文通过洞悉如何在OOPPM中典型的OOPPM中典型的变化预处理,模型的复杂性和事后解释性技术来撰写基于事件日志和手头的任务的准则,以根据事件日志规范和手头的任务选择适当的模型,以根据事件日志规范和手头任务选择适当的模型。影响模型的解释性。为此,我们在13个现实生活事件日志上基准了七个分类器。
translated by 谷歌翻译
业务流程模拟(BPS)是估计变更对业务流程对其绩效指标的影响的常见方法。例如,BPS允许我们估算如果我们自动化其活动之一的过程的周期时间。 BPS的起点是用仿真参数(BPS模型)注释的业务过程模型。几项研究提出了通过过程挖掘自动从事件日志发现BPS模型的方法。但是,该空间中的当前技术发现了BPS模型,该模型仅捕获由资源争夺或资源不可用而引起的等待时间。通常,业务流程中等待时间的相当一部分是由无关紧要的延误引起的,例如资源等待客户返回电话。本文提出了一种发现从输入数据中发现无关的延迟的方法,并将计时器事件注入BPS模型以捕获发现的延迟。涉及合成和现实生活日志的经验评估表明,该方法会产生BPS模型,以更好地反映该过程的时间动力学,相对于未捕获无关紧要的延迟的BPS模型。
translated by 谷歌翻译
Various methods using machine and deep learning have been proposed to tackle different tasks in predictive process monitoring, forecasting for an ongoing case e.g. the most likely next event or suffix, its remaining time, or an outcome-related variable. Recurrent neural networks (RNNs), and more specifically long short-term memory nets (LSTMs), stand out in terms of popularity. In this work, we investigate the capabilities of such an LSTM to actually learn the underlying process model structure of an event log. We introduce an evaluation framework that combines variant-based resampling and custom metrics for fitness, precision and generalization. We evaluate 4 hypotheses concerning the learning capabilities of LSTMs, the effect of overfitting countermeasures, the level of incompleteness in the training set and the level of parallelism in the underlying process model. We confirm that LSTMs can struggle to learn process model structure, even with simplistic process data and in a very lenient setup. Taking the correct anti-overfitting measures can alleviate the problem. However, these measures did not present themselves to be optimal when selecting hyperparameters purely on predicting accuracy. We also found that decreasing the amount of information seen by the LSTM during training, causes a sharp drop in generalization and precision scores. In our experiments, we could not identify a relationship between the extent of parallelism in the model and the generalization capability, but they do indicate that the process' complexity might have impact.
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
复杂的事件识别(CER)系统在过去二十年中变得流行,因为它们能够“立即”检测在实时事件流上的模式。然而,缺乏预测模式可能发生在例如由Cer发动机实际检测到这种发生之前的模式。我们提出了一项正式的框架,试图解决复杂事件预测(CEF)的问题。我们的框架结合了两个形式主义:a)用于编码复杂事件模式的符号自动机; b)预测后缀树,可以提供自动机构的行为的简洁概率描述。我们比较我们提出的方法,以防止最先进的方法,并在准确性和效率方面展示其优势。特别地,预测后缀树是可变的马尔可夫模型,可以通过仅记住足够的信息的过去序列来捕获流中的长期依赖性。我们的实验结果表明了能够捕获这种长期依赖性的准确性的益处。这是通过增加我们模型的顺序来实现的,以满足需要执行给定顺序的所有可能的过去序列的所有可能的过去序列的详尽枚举的全阶马尔可夫模型。我们还广泛讨论CEF解决方案如何最佳地评估其预测的质量。
translated by 谷歌翻译
最先进的深度学习方法在许多任务上实现了类似人类的表现,但仍会犯错。用易于解释的术语表征这些错误,可以深入了解分类器是否容易出现系统错误,但也提供了一种行动和改善分类器的方法。我们建议发现与正确响应密切相关的那些特征值组合(即模式)。错误的预测,以获取任意分类器的全局和可解释的描述。我们证明这是更通用的标签描述问题的实例,我们根据最小描述长度原理提出了这一点。要发现一个良好的模式集,我们开发了有效的前提算法。通过大量的实验,我们表明它在合成数据和现实世界中的实践中表现出色。与现有的解决方案不同,即使在许多功能上的高度不平衡数据上,它也可以恢复地面真相模式。通过两个有关视觉问题答案和命名实体识别的案例研究,我们确认前提可以清楚且可行的见解对现代NLP分类器的系统错误。
translated by 谷歌翻译