流程的执行留下了信息系统中事件数据的痕迹。这些事件数据可以通过过程挖掘技术进行分析。对于传统的流程​​挖掘技术,必须将每个事件与一个对象(例如公司的客户)相关联。与一个对象相关的事件形成一个称为案例的事件序列。一个案例描述了通过流程进行的端到端运行。事件数据中包含的案例可用于发现过程模型,检测频繁的瓶颈或学习预测模型。但是,在现实生活中遇到的事件,例如ERP系统通常可以与多个对象关联。传统的顺序案例概念缺少这些以对象为中心的事件数据,因为这些数据显示了图形结构。一个人可能会通过使其变色将以对象为中心的事件数据迫使传统案例概念。但是,扁平化操纵数据并删除信息。因此,与传统事件日志的案例概念相似的概念对于启用以对象为中心的事件数据应用不同的过程挖掘任务是必要的。在本文中,我们介绍了以对象为中心的过程挖掘的案例概念:过程执行。这些是基于图形的案例概括,如传统过程采矿中所考虑的。此外,我们提供了提取过程执行的技术。基于这些执行,我们确定了使用图同构的属性相对于属性的等效过程行为。关于事件活动的等效过程执行是以对象为中心的变体,即传统过程挖掘中变体的概括。我们为以对象为中心的变体提供了可视化技术。贡献的可伸缩性和效率得到了广泛的评估。此外,我们提供了一个案例研究,显示了现实生活中最常见的以对象为中心的变体。
translated by 谷歌翻译
传统的过程挖掘技术将事件数据作为输入,其中每个事件与一个对象完全关联。对象表示过程的实例化。以对象为中心的事件数据包含与表达多个过程相互作用的多个对象关联的事件。由于传统的过程挖掘技术假设与一个对象相关的事件,因此这些技术不能应用于以对象为中心的事件数据。为了使用传统的过程挖掘技术,通过删除所有对象引用,以一种以对象为中心的事件数据来平坦。扁平过程是有损的,导致从扁平数据中提取的不准确的特征。此外,在变平时丢失了以对象事件数据的图形结构。在本文中,我们介绍了一个通用框架,用于从对象事件数据中提取和编码功能。我们在以对象为中心的事件数据上本地计算功能,从而导致准确的度量。此外,我们为这些功能提供了三个编码:基于表格,顺序和图形。尽管表格和顺序编码已在过程挖掘中大量使用,但基于图的编码是一种保留以对象事件数据结构的新技术。我们提供六种用例:为三个编码中的每个编码中的每一个提供可视化和预测用例。我们在预测用例中使用可解释的AI来显示以对象为中心的特征的实用性以及针对预测模型的基于顺序和基于图的编码的结构。
translated by 谷歌翻译
流程挖掘提供了各种算法来根据事件数据分析过程执行。过程发现是过程挖掘技术的最突出类别,旨在从事件日志中发现过程模型,但是,在使用现实生活数据时会导致意大利面模型。因此,已经在传统事件日志(即带有单个情况概念的事件日志)上提出了几种聚类技术,以降低过程模型的复杂性并发现案例的均匀子集。然而,在现实生活中,尤其是在企业对企业(B2B)过程的背景下,流程中涉及多个对象。最近,已经引入了以对象为中心的事件日志(OCEL)来捕获此类过程的信息,并在OCEL的顶部开发了几种过程发现技术。然而,提出的关于真实OCEL的发现技术的输出导致更具信息性但更复杂的模型。在本文中,我们提出了一种基于聚类的方法,用于群集在OCEL中类似对象,以简化所获得的过程模型。使用对实际B2B过程的案例研究,我们证明我们的方法降低了过程模型的复杂性,并生成了对象的相干子集,这些子集有助于最终用户获得对流程的见解。
translated by 谷歌翻译
业务流程的自动化和数字化导致信息系统中捕获的大量数据,这可以帮助企业更好地理解其流程,改善工作流或提供运营支持。通过对正在进行的过程进行预测,可以识别瓶颈并重新分配资源,以及在过程实例的状态(案例)中获得的见解。传统上,数据是以带有单个识别案例概念的事件日志的形式从系统中提取的,例如用于现金订单(O2C)流程的订单ID。但是,实际过程通常具有多种对象类型,例如订单,项目和软件包,因此强制使用单个案例概念的格式不会反映数据中的基本关系。引入了以对象为中心的事件日志(OCEL)格式,以正确捕获此信息。最先进的预测方法仅根据传统事件日志量身定制。该论点表明,可以使用OCEL中包含的丰富数据来增强一种利用生成对抗网络(GAN),长期记忆(LSTM)体系结构(SEQ2SEQ)的预测方法。 OCEL中的对象可以具有可用于预测下一个事件和时间戳的属性,例如对于对象类型包的优先类属性,指示速度较慢或更快地处理。在预测剩余事件的序列相似性和时间戳的平均绝对误差(MAE)的指标中,本文中的方法匹配或超过了先前的研究,具体取决于所选对象属性是否是模型的有用特征。此外,本文提供了一个Web界面,以预测用户输入中的下一个活动序列。
translated by 谷歌翻译
流程挖掘中的绩效分析旨在通过使用流程模型作为过程的形式表示业务流程的绩效见解。这些见解是在具有正式语义的模型的背景下可靠地解释的。现有的绩效分析技术假设在业务过程中存在一个案例概念(例如,医疗保健过程中的患者)。但是,实际上,不同对象可能会交互(例如,O2C过程中的顺序,项目,交付和发票)。在这种情况下,传统技术可能会产生误导性甚至对等待时间等性能指标的见解。更重要的是,通过考虑对象之间的相互作用,我们可以定义以对象为中心的性能指标,例如同步时间,汇总时间和滞后时间。在这项工作中,我们提出了一种新颖的方法来进行绩效分析,以考虑多个病例概念,通过使用以对象为中心的培养皿作为业务流程的正式表示。提出的方法正确地计算了现有的性能指标,同时支持新引入的以对象为中心的性能指标的推导。我们已经将该方法作为Web应用程序实施,并根据现实生活贷款申请流程进行了案例研究。
translated by 谷歌翻译
为了确定性能问题的原因或预测过程行为,必须具有正确和完整的事件数据至关重要。这对于具有共享资源的分布式系统尤其重要,例如,例如,一个案例可以阻止对同一台机器竞争的另一个案例,从而导致性能的帧间依赖性。然而,由于各种原因,现实系统通常只记录所有事件的子集。要了解和分析共享资源的进程的行为和性能,我们的目标是重建必须发生的情况的事件时间戳的界限,但在系统中的其他情况下未推断出现引人注目。我们通过系统地在事件日志和流程模型中系统地引入多实体概念来制定和解决问题。我们介绍了一种基于多实体事件日志的部分级模型和用于多实体进程的相应组合模型。我们将PQR-Systems定义为具有共享资源和队列的特殊类多实体进程。然后,我们研究了从一个不完整的事件日志未观察的事件和它们的时间戳推断出与PQR系统一致的时间戳。通过根据PQR模型重建未观察的资源和队列来解决问题,并使用线性程序导出其时间戳的界限。虽然在机场的行李处理系统如行李处理系统中的材料处理系统说明了问题,但该方法可以应用于录制不完整的其他设置。这些想法已在PROM中实现,并使用合成和实际事件日志进行评估。
translated by 谷歌翻译
在过程挖掘中,发现技术使从事件日志自动构建业务流程模型成为可能。但是,结果通常无法达到模型复杂性及其拟合精度之间的平衡,因此需要进行手动模型调整。该论文提出了一种方法开采的方法,该方法基于模型复杂性和适应性的组合评估为模型优化提供半自动支持。为了在两种成分之间取得平衡,提出了一种模型简化方法,该方法基本上在所需的粒度下抽象了原始模型。此外,我们介绍了一个元态的概念,该元素的周期崩溃了,该循环可以潜在地简化模型并解释模型。我们旨在使用来自医疗保健领域不同应用程序的三个数据集证明技术解决方案的功能。它们是针对COVID-19大流行期间动脉高血压和医疗保健工作人员工作流动的患者的远程监测过程。案例研究还调查了各种复杂性度量和解决方案应用方式的使用,从而提供了有关改善过程模型中改善可解释性和复杂性/适应性平衡的更好实践的见解。
translated by 谷歌翻译
业务流程偏差是指业务流程执行的子集的现象,以消极或积极的方式偏离{他们的预期或理想的结果。业务流程的偏差执行包括违反合规规则的人,或者欠冲前或超过绩效目标的执行。偏差挖掘涉及通过分析支持业务流程的系统存储的事件日志来揭示揭示异常执行的原因。在本文中,首先通过基于顺序和声明模式模式的特征和它们的组合来研究解释业务流程的偏差问题。然后,通过基于纯数据属性值和数据感知声明规则利用事件日志中的事件日志和迹线的数据属性来进一步提高说明。然后通过用于规则感应的直接和间接方法来提取表征消化的解释。使用来自多个域的实际日志,根据他们准确地区分过程的非偏差和异常执行能力以及决赛的可理解性的能力来评估一系列特征类型和不同形式的决策规则。返回给用户的结果。
translated by 谷歌翻译
过程发现是一种技术系列,有助于从其数据足迹中理解流程。然而,随着过程随着时间的变化而变化,它们的相应模型也应导致模型不足或过度陈酿的行为。我们提出了一种发现算法,该算法将声明过程从事件流中提取为动态条件响应(DCR)图。监视流以生成过程的时间表示,后来处理以生成声明模型。我们通过定量和定性评估验证了该技术。对于定量评估,我们采用了扩展的JACCARD相似性度量,以说明声明环境中的过程变化。对于定性评估,我们展示了该技术确定的变化如何对应于现有过程中的实际变化。可以在线获得测试的技术和数据。
translated by 谷歌翻译
概念漂移过程挖掘(PM)是一种挑战,因为古典方法假设进程处于稳态,即事件共享相同的进程版本。我们对这些领域的交叉点进行了系统的文献综述,从而审查了过程采矿中的概念漂移,并提出了用于漂移检测和在线流程挖掘的现有技术的分类,以实现不断发展的环境。现有的作品描绘了(i)PM仍然主要关注离线分析,并且(ii)由于缺乏公共评估协议,数据集和指标,过程中的概念漂移技术的评估是麻烦的。
translated by 谷歌翻译
业务流程模拟(BPS)是估计变更对业务流程对其绩效指标的影响的常见方法。例如,BPS允许我们估算如果我们自动化其活动之一的过程的周期时间。 BPS的起点是用仿真参数(BPS模型)注释的业务过程模型。几项研究提出了通过过程挖掘自动从事件日志发现BPS模型的方法。但是,该空间中的当前技术发现了BPS模型,该模型仅捕获由资源争夺或资源不可用而引起的等待时间。通常,业务流程中等待时间的相当一部分是由无关紧要的延误引起的,例如资源等待客户返回电话。本文提出了一种发现从输入数据中发现无关的延迟的方法,并将计时器事件注入BPS模型以捕获发现的延迟。涉及合成和现实生活日志的经验评估表明,该方法会产生BPS模型,以更好地反映该过程的时间动力学,相对于未捕获无关紧要的延迟的BPS模型。
translated by 谷歌翻译
用户交互(UI)日志是高分辨率事件日志,在信息系统中执行任务期间,用户执行的低级活动记录了低级活动。 UI日志中的每个事件都对应于用户和接口之间的单个交互,例如单击按钮或将字符串输入文本字段。 UI日志用于诸如任务挖掘或机器人过程自动化(RPA)之类的目的,但是每个研究和工具都依赖于构成用户交互的元素和属性的不同概念化和实现。缺乏标准化使得很难整合来自不同来源的UI日志,并将UI数据收集工具与下游分析或自动化解决方案相结合。为了解决这个问题,我们为与过程相关的UI日志提出了一个普遍适用的参考数据模型。基于对科学文献和行业解决方案的综述,该模型包括UI日志的核心属性,但在范围,抽象水平和案例概念方面仍然灵活。我们提供该模型的实现,以扩展事件日志的XES互换标准,并在现实生活中的RPA方案中演示其实际适用性。
translated by 谷歌翻译
以对象为中心的过程挖掘是一种新的范式,通过考虑几个案例概念,可以根据订单,项目,软件包和路由案例概念来分析订单处理过程,对基础数据进行更现实的假设。包括许多案例概念可能会导致非常复杂的模型。为了应对这种复杂性,本文介绍了一种新方法,以基于马尔可夫直接遵循的Multigraph的类似案例概念,这是许多工业和学术过程挖掘工具支持的众所周知的直接遵循图的扩展版本。该图用于计算一个相似性矩阵,用于根据阈值发现相似情况概念的簇。还定义了阈值调整算法来识别可以根据不同级别的相似性发现的不同簇的集合。因此,集群发现不仅依赖于分析师的假设。该方法是作为Python库的一部分实现并发布的,称为ProcessMining,并通过购买以付款(P2P)以对象为中心的事件日志文件进行评估。通过基于群集来平移日志,可以通过直接发现跟随数字来评估一些发现的群集。还通过计算基于足迹一致性检查的电感矿工来计算每个情况概念发现的过程模型的行为之间的相似性,可以评估已识别簇之间的相似性。
translated by 谷歌翻译
GSPAN是一种频繁的子图的流行算法。CGSPAN(基于图形的基于图形的子结构模式挖掘)是仅用于填充封闭子图的GSPAN扩展。如果没有与G.具有相同的G.CGSPAN将早期终止修剪方法添加到GSPAN修剪方法中,同时将原始GSPAN步骤保持不变。CGSPAN还检测和处理不应用早期终止的情况。据我们所知,CGSPAN是第一个公开的封闭图挖掘实施
translated by 谷歌翻译
预测过程分析已成为组织的基本援助,从而为其流程提供在线运营支持。但是,需要向流程利益相关者提供解释为什么预测给定流程执行以某种方式行事的原因。否则,他们将不太可能相信预测性监测技术,从而采用它。本文提出了一个预测分析框架,该框架还具有基于Shapley值的游戏理论的解释功能。该框架已在IBM Process采矿套件中实施,并为业务用户商业化。该框架已在现实生活事件数据上进行了测试,以评估预测的质量和相应的评估。特别是,已经执行了用户评估,以了解系统提供的解释是否可以使流程利益相关者可理解。
translated by 谷歌翻译
在过去十年中,图形内核引起了很多关注,并在结构化数据上发展成为一种快速发展的学习分支。在过去的20年中,该领域发生的相当大的研究活动导致开发数十个图形内核,每个图形内核都对焦于图形的特定结构性质。图形内核已成功地成功地在广泛的域中,从社交网络到生物信息学。本调查的目标是提供图形内核的文献的统一视图。特别是,我们概述了各种图形内核。此外,我们对公共数据集的几个内核进行了实验评估,并提供了比较研究。最后,我们讨论图形内核的关键应用,并概述了一些仍有待解决的挑战。
translated by 谷歌翻译
近年来,基于Weisfeiler-Leman算法的算法和神经架构,是一个众所周知的Graph同构问题的启发式问题,它成为具有图形和关系数据的机器学习的强大工具。在这里,我们全面概述了机器学习设置中的算法的使用,专注于监督的制度。我们讨论了理论背景,展示了如何将其用于监督的图形和节点表示学习,讨论最近的扩展,并概述算法的连接(置换 - )方面的神经结构。此外,我们概述了当前的应用和未来方向,以刺激进一步的研究。
translated by 谷歌翻译
可靠的剩余时间预测正在进行的业务流程是一个高度相关的主题。一个例子是订单交付,这是一个关键的竞争因素,例如零售是因为它是客户满意度的主要驱动力。为了及时实现及时的交付,对交付过程剩余时间的准确预测至关重要。在过程挖掘领域内,已经提出了各种各样的剩余时间预测技术。在这项工作中,我们基于随机培养皿网的剩余时间预测,该预测通常分布在k-nearthiend邻居中。 k-nearest邻居算法是在存储过去的时间以完成先前活动的时间的简单矢量上执行的。通过仅采用一部分实例,获得了更具代表性和稳定的随机培养皿网,从而导致更准确的时间预测。我们讨论了该技术及其在Python中的基本实现,并使用不同的现实世界数据集来评估我们扩展的预测能力。这些实验在结合有关预测能力方面的两种技术方面都具有明显的优势。
translated by 谷歌翻译
在这项工作中,我们提出了一种从随机已知的日志中恢复的算法,这种设置越来越普遍,随着传感器数量的增加和产生不确定数据的预测模型。建议的方法计算过程模型与随机已知的痕迹之间的符合性,并在此随机迹线中恢复最佳对齐,作为真实痕迹。本文提供了各种成本模型对痕量恢复准确性的影响的分析,并利用产品多刷子来比较替代的跟踪恢复选项。我们使用两个公开数据集进行评估的方法的平均准确性令人印象深刻,平均恢复精度得分为90-97%,显着改善了一种共同的启发式,它为每种不确定的活动选择了最可能的价值。我们认为,拟议算法从随机已知的日志中恢复正确的痕迹的有效性可能是在不确定的环境中开发可靠的决策工具的有力帮助。
translated by 谷歌翻译
Prescriptive Process Monitoring systems recommend, during the execution of a business process, interventions that, if followed, prevent a negative outcome of the process. Such interventions have to be reliable, that is, they have to guarantee the achievement of the desired outcome or performance, and they have to be flexible, that is, they have to avoid overturning the normal process execution or forcing the execution of a given activity. Most of the existing Prescriptive Process Monitoring solutions, however, while performing well in terms of recommendation reliability, provide the users with very specific (sequences of) activities that have to be executed without caring about the feasibility of these recommendations. In order to face this issue, we propose a new Outcome-Oriented Prescriptive Process Monitoring system recommending temporal relations between activities that have to be guaranteed during the process execution in order to achieve a desired outcome. This softens the mandatory execution of an activity at a given point in time, thus leaving more freedom to the user in deciding the interventions to put in place. Our approach defines these temporal relations with Linear Temporal Logic over finite traces patterns that are used as features to describe the historical process data recorded in an event log by the information systems supporting the execution of the process. Such encoded log is used to train a Machine Learning classifier to learn a mapping between the temporal patterns and the outcome of a process execution. The classifier is then queried at runtime to return as recommendations the most salient temporal patterns to be satisfied to maximize the likelihood of a certain outcome for an input ongoing process execution. The proposed system is assessed using a pool of 22 real-life event logs that have already been used as a benchmark in the Process Mining community.
translated by 谷歌翻译