可靠的剩余时间预测正在进行的业务流程是一个高度相关的主题。一个例子是订单交付,这是一个关键的竞争因素,例如零售是因为它是客户满意度的主要驱动力。为了及时实现及时的交付,对交付过程剩余时间的准确预测至关重要。在过程挖掘领域内,已经提出了各种各样的剩余时间预测技术。在这项工作中,我们基于随机培养皿网的剩余时间预测,该预测通常分布在k-nearthiend邻居中。 k-nearest邻居算法是在存储过去的时间以完成先前活动的时间的简单矢量上执行的。通过仅采用一部分实例,获得了更具代表性和稳定的随机培养皿网,从而导致更准确的时间预测。我们讨论了该技术及其在Python中的基本实现,并使用不同的现实世界数据集来评估我们扩展的预测能力。这些实验在结合有关预测能力方面的两种技术方面都具有明显的优势。
translated by 谷歌翻译
Various methods using machine and deep learning have been proposed to tackle different tasks in predictive process monitoring, forecasting for an ongoing case e.g. the most likely next event or suffix, its remaining time, or an outcome-related variable. Recurrent neural networks (RNNs), and more specifically long short-term memory nets (LSTMs), stand out in terms of popularity. In this work, we investigate the capabilities of such an LSTM to actually learn the underlying process model structure of an event log. We introduce an evaluation framework that combines variant-based resampling and custom metrics for fitness, precision and generalization. We evaluate 4 hypotheses concerning the learning capabilities of LSTMs, the effect of overfitting countermeasures, the level of incompleteness in the training set and the level of parallelism in the underlying process model. We confirm that LSTMs can struggle to learn process model structure, even with simplistic process data and in a very lenient setup. Taking the correct anti-overfitting measures can alleviate the problem. However, these measures did not present themselves to be optimal when selecting hyperparameters purely on predicting accuracy. We also found that decreasing the amount of information seen by the LSTM during training, causes a sharp drop in generalization and precision scores. In our experiments, we could not identify a relationship between the extent of parallelism in the model and the generalization capability, but they do indicate that the process' complexity might have impact.
translated by 谷歌翻译
预测过程分析已成为组织的基本援助,从而为其流程提供在线运营支持。但是,需要向流程利益相关者提供解释为什么预测给定流程执行以某种方式行事的原因。否则,他们将不太可能相信预测性监测技术,从而采用它。本文提出了一个预测分析框架,该框架还具有基于Shapley值的游戏理论的解释功能。该框架已在IBM Process采矿套件中实施,并为业务用户商业化。该框架已在现实生活事件数据上进行了测试,以评估预测的质量和相应的评估。特别是,已经执行了用户评估,以了解系统提供的解释是否可以使流程利益相关者可理解。
translated by 谷歌翻译
业务流程的自动化和数字化导致信息系统中捕获的大量数据,这可以帮助企业更好地理解其流程,改善工作流或提供运营支持。通过对正在进行的过程进行预测,可以识别瓶颈并重新分配资源,以及在过程实例的状态(案例)中获得的见解。传统上,数据是以带有单个识别案例概念的事件日志的形式从系统中提取的,例如用于现金订单(O2C)流程的订单ID。但是,实际过程通常具有多种对象类型,例如订单,项目和软件包,因此强制使用单个案例概念的格式不会反映数据中的基本关系。引入了以对象为中心的事件日志(OCEL)格式,以正确捕获此信息。最先进的预测方法仅根据传统事件日志量身定制。该论点表明,可以使用OCEL中包含的丰富数据来增强一种利用生成对抗网络(GAN),长期记忆(LSTM)体系结构(SEQ2SEQ)的预测方法。 OCEL中的对象可以具有可用于预测下一个事件和时间戳的属性,例如对于对象类型包的优先类属性,指示速度较慢或更快地处理。在预测剩余事件的序列相似性和时间戳的平均绝对误差(MAE)的指标中,本文中的方法匹配或超过了先前的研究,具体取决于所选对象属性是否是模型的有用特征。此外,本文提供了一个Web界面,以预测用户输入中的下一个活动序列。
translated by 谷歌翻译
业务流程偏差是指业务流程执行的子集的现象,以消极或积极的方式偏离{他们的预期或理想的结果。业务流程的偏差执行包括违反合规规则的人,或者欠冲前或超过绩效目标的执行。偏差挖掘涉及通过分析支持业务流程的系统存储的事件日志来揭示揭示异常执行的原因。在本文中,首先通过基于顺序和声明模式模式的特征和它们的组合来研究解释业务流程的偏差问题。然后,通过基于纯数据属性值和数据感知声明规则利用事件日志中的事件日志和迹线的数据属性来进一步提高说明。然后通过用于规则感应的直接和间接方法来提取表征消化的解释。使用来自多个域的实际日志,根据他们准确地区分过程的非偏差和异常执行能力以及决赛的可理解性的能力来评估一系列特征类型和不同形式的决策规则。返回给用户的结果。
translated by 谷歌翻译
业务流程模拟(BPS)是估计变更对业务流程对其绩效指标的影响的常见方法。例如,BPS允许我们估算如果我们自动化其活动之一的过程的周期时间。 BPS的起点是用仿真参数(BPS模型)注释的业务过程模型。几项研究提出了通过过程挖掘自动从事件日志发现BPS模型的方法。但是,该空间中的当前技术发现了BPS模型,该模型仅捕获由资源争夺或资源不可用而引起的等待时间。通常,业务流程中等待时间的相当一部分是由无关紧要的延误引起的,例如资源等待客户返回电话。本文提出了一种发现从输入数据中发现无关的延迟的方法,并将计时器事件注入BPS模型以捕获发现的延迟。涉及合成和现实生活日志的经验评估表明,该方法会产生BPS模型,以更好地反映该过程的时间动力学,相对于未捕获无关紧要的延迟的BPS模型。
translated by 谷歌翻译
概念漂移过程挖掘(PM)是一种挑战,因为古典方法假设进程处于稳态,即事件共享相同的进程版本。我们对这些领域的交叉点进行了系统的文献综述,从而审查了过程采矿中的概念漂移,并提出了用于漂移检测和在线流程挖掘的现有技术的分类,以实现不断发展的环境。现有的作品描绘了(i)PM仍然主要关注离线分析,并且(ii)由于缺乏公共评估协议,数据集和指标,过程中的概念漂移技术的评估是麻烦的。
translated by 谷歌翻译
为了允许机器学习算法从原始数据中提取知识,必须首先清除,转换,并将这些数据置于适当的形式。这些通常很耗时的阶段被称为预处理。预处理阶段的一个重要步骤是特征选择,其目的通过减少数据集的特征量来更好地执行预测模型。在这些数据集中,不同事件的实例通常是不平衡的,这意味着某些正常事件被超出,而其他罕见事件非常有限。通常,这些罕见的事件具有特殊的兴趣,因为它们具有比正常事件更具辨别力。这项工作的目的是过滤提供给这些罕见实例的特征选择方法的实例,从而积极影响特征选择过程。在这项工作过程中,我们能够表明这种过滤对分类模型的性能以及异常值检测方法适用于该过滤。对于某些数据集,所产生的性能增加仅为百分点,但对于其他数据集,我们能够实现高达16%的性能的增加。这项工作应导致预测模型的改进以及在预处理阶段的过程中的特征选择更好的可解释性。本着公开科学的精神,提高了我们的研究领域的透明度,我们已经在公开的存储库中提供了我们的所有源代码和我们的实验结果。
translated by 谷歌翻译
最近,在以结果为导向的预测过程监测(OOPPM)的领域进行了转变,以使用可解释的人工智能范式中的模型,但是评估仍然主要是通过基于绩效的指标来进行的,而不是考虑到启示性和缺乏可行性。解释。在本文中,我们通过解释的解释性(通过广泛使用的XAI属性和功能复杂性)和解释性模型的忠诚(通过单调性和分歧的水平)来定义解释性。沿事件,情况和控制流透视图分析了引入的属性,这些视角是基于过程的分析的典型代表。这允许定量比较,除其他外,固有地创建了用事后解释(例如Shapley值)(例如Shapley值)的固有创建的解释(例如逻辑回归系数)。此外,本文通过洞悉如何在OOPPM中典型的OOPPM中典型的变化预处理,模型的复杂性和事后解释性技术来撰写基于事件日志和手头的任务的准则,以根据事件日志规范和手头的任务选择适当的模型,以根据事件日志规范和手头任务选择适当的模型。影响模型的解释性。为此,我们在13个现实生活事件日志上基准了七个分类器。
translated by 谷歌翻译
对业务流程的预测监控是流程挖掘的子领域,旨在预测下一个事件的特征或下一个事件的序列。虽然已经提出了基于深度学习的多种方法,主要是经常发生的神经网络和卷积神经网络,但它们都不是真正利用过程模型中可用的结构信息。本文提出了一种基于图形卷积网络和经常性神经网络的方法,所述内部网络从过程模型中使用信息。真实事件日志的实验评估表明,我们的方法更加一致,更优于当前的最先进的方法。
translated by 谷歌翻译
最先进的过程发现方法从事件日志构建自由选择流程模型。因此,构造的模型不会考虑事件之间的间接依赖关系。每当输入行为不是自由选择时,这些方法都无法提供精确的模型。在本文中,我们提出了一种通过添加非自由选择构造通过基于地区的技术发现的非自由选择构造来增强自由选择工艺模型的新方法。这使我们能够从现有的过程发现方法的性能中受益以及采用基本合成技术的准确性。我们证明,当存在间接依赖关系时,所提出的方法在提高了事件日志时保留了适应性。该方法已经在合成和实际数据集中实施和测试。结果表明其在从事件日志中修复模型的有效性。
translated by 谷歌翻译
在这项工作中,我们提出了一种从随机已知的日志中恢复的算法,这种设置越来越普遍,随着传感器数量的增加和产生不确定数据的预测模型。建议的方法计算过程模型与随机已知的痕迹之间的符合性,并在此随机迹线中恢复最佳对齐,作为真实痕迹。本文提供了各种成本模型对痕量恢复准确性的影响的分析,并利用产品多刷子来比较替代的跟踪恢复选项。我们使用两个公开数据集进行评估的方法的平均准确性令人印象深刻,平均恢复精度得分为90-97%,显着改善了一种共同的启发式,它为每种不确定的活动选择了最可能的价值。我们认为,拟议算法从随机已知的日志中恢复正确的痕迹的有效性可能是在不确定的环境中开发可靠的决策工具的有力帮助。
translated by 谷歌翻译
Prescriptive Process Monitoring systems recommend, during the execution of a business process, interventions that, if followed, prevent a negative outcome of the process. Such interventions have to be reliable, that is, they have to guarantee the achievement of the desired outcome or performance, and they have to be flexible, that is, they have to avoid overturning the normal process execution or forcing the execution of a given activity. Most of the existing Prescriptive Process Monitoring solutions, however, while performing well in terms of recommendation reliability, provide the users with very specific (sequences of) activities that have to be executed without caring about the feasibility of these recommendations. In order to face this issue, we propose a new Outcome-Oriented Prescriptive Process Monitoring system recommending temporal relations between activities that have to be guaranteed during the process execution in order to achieve a desired outcome. This softens the mandatory execution of an activity at a given point in time, thus leaving more freedom to the user in deciding the interventions to put in place. Our approach defines these temporal relations with Linear Temporal Logic over finite traces patterns that are used as features to describe the historical process data recorded in an event log by the information systems supporting the execution of the process. Such encoded log is used to train a Machine Learning classifier to learn a mapping between the temporal patterns and the outcome of a process execution. The classifier is then queried at runtime to return as recommendations the most salient temporal patterns to be satisfied to maximize the likelihood of a certain outcome for an input ongoing process execution. The proposed system is assessed using a pool of 22 real-life event logs that have already been used as a benchmark in the Process Mining community.
translated by 谷歌翻译
在执行现实生活过程中,计划或意外的变化是常见的。检测这些更改是优化运行此类过程的组织的性能的必要条件。最先进的大多数算法都集中在突然变化的检测上,抛开其他类型的变化。在本文中,我们将专注于自动检测渐进漂移,这是一种特殊的变化类型,其中两个模型的情况在一段时间内重叠。所提出的算法依赖于一致性检查指标来自动检测变化,还将这些变化的全自动分类为突然或逐渐分类。该方法已通过一个由120个日志组成的合成数据集进行了验证,该数据集具有不同的变化分布,在检测和分类准确性,延迟和变化区域在比较主要的最新算法方面取得更好的结果。
translated by 谷歌翻译
在过程挖掘中,发现技术使从事件日志自动构建业务流程模型成为可能。但是,结果通常无法达到模型复杂性及其拟合精度之间的平衡,因此需要进行手动模型调整。该论文提出了一种方法开采的方法,该方法基于模型复杂性和适应性的组合评估为模型优化提供半自动支持。为了在两种成分之间取得平衡,提出了一种模型简化方法,该方法基本上在所需的粒度下抽象了原始模型。此外,我们介绍了一个元态的概念,该元素的周期崩溃了,该循环可以潜在地简化模型并解释模型。我们旨在使用来自医疗保健领域不同应用程序的三个数据集证明技术解决方案的功能。它们是针对COVID-19大流行期间动脉高血压和医疗保健工作人员工作流动的患者的远程监测过程。案例研究还调查了各种复杂性度量和解决方案应用方式的使用,从而提供了有关改善过程模型中改善可解释性和复杂性/适应性平衡的更好实践的见解。
translated by 谷歌翻译
Predictive monitoring is a subfield of process mining that aims to predict how a running case will unfold in the future. One of its main challenges is forecasting the sequence of activities that will occur from a given point in time -- suffix prediction -- . Most approaches to the suffix prediction problem learn to predict the suffix by learning how to predict the next activity only, not learning from the whole suffix during the training phase. This paper proposes a novel architecture based on an encoder-decoder model with an attention mechanism that decouples the representation learning of the prefixes from the inference phase, predicting only the activities of the suffix. During the inference phase, this architecture is extended with a heuristic search algorithm that improves the selection of the activity for each index of the suffix. Our approach has been tested using 12 public event logs against 6 different state-of-the-art proposals, showing that it significantly outperforms these proposals.
translated by 谷歌翻译
人工神经网络无法评估其预测的不确定性是对它们广泛使用的障碍。我们区分了两种类型的可学习不确定性:由于缺乏训练数据和噪声引起的观察不确定性而导致的模型不确定性。贝叶斯神经网络使用坚实的数学基础来学习其预测的模型不确定性。观察不确定性可以通过在这些网络中添加一层并增强其损失功能来计算观察不确定性。我们的贡献是将这些不确定性概念应用于预测过程监控任务中,以训练基于不确定性的模型以预测剩余时间和结果。我们的实验表明,不确定性估计值允许分化更多和不准确的预测,并在回归和分类任务中构建置信区间。即使在运行过程的早期阶段,这些结论仍然是正确的。此外,部署的技术是快速的,并产生了更准确的预测。学习的不确定性可以增加用户对其流程预测系统的信心,促进人类与这些系统之间的更好合作,并通过较小的数据集实现早期的实施。
translated by 谷歌翻译
无论是在功能选择的领域还是可解释的AI领域,都有基于其重要性的“排名”功能的愿望。然后可以将这种功能重要的排名用于:(1)减少数据集大小或(2)解释机器学习模型。但是,在文献中,这种特征排名没有以系统的,一致的方式评估。许多论文都有不同的方式来争论哪些具有重要性排名最佳的特征。本文通过提出一种新的评估方法来填补这一空白。通过使用合成数据集,可以事先知道特征重要性得分,从而可以进行更系统的评估。为了促进使用新方法的大规模实验,在Python建造了一个名为FSEVAL的基准测定框架。该框架允许并行运行实验,并在HPC系统上的计算机上分布。通过与名为“权重和偏见”的在线平台集成,可以在实时仪表板上进行交互探索图表。该软件作为开源软件发布,并在PYPI平台上以包裹发行。该研究结束时,探索了一个这样的大规模实验,以在许多方面找到参与算法的优势和劣势。
translated by 谷歌翻译
我们建议使用基于规则的技术加速系统级调试的根源程序。我们描述了该过程及其如何提供高质量的调试提示,以减少调试工作。这包括来自许多测试日志的工程功能的启发式方法,以及用于生成强大调试提示的数据分析技术。作为案例研究,我们将这些技术用于电源管理(PM)设计功能软件包C8的根源失败,并显示了它们的有效性。此外,我们提出了一种挖掘引起根源的经验和重用结果,加速未来调试活动并减少对验证专家的依赖的方法。我们认为,这些技术也对不同级别的抽象级别的其他验证活动也有益,对于复杂的硬件,软件和固件系统,包括前硅和后硅。
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译