我们建议使用基于规则的技术加速系统级调试的根源程序。我们描述了该过程及其如何提供高质量的调试提示,以减少调试工作。这包括来自许多测试日志的工程功能的启发式方法,以及用于生成强大调试提示的数据分析技术。作为案例研究,我们将这些技术用于电源管理(PM)设计功能软件包C8的根源失败,并显示了它们的有效性。此外,我们提出了一种挖掘引起根源的经验和重用结果,加速未来调试活动并减少对验证专家的依赖的方法。我们认为,这些技术也对不同级别的抽象级别的其他验证活动也有益,对于复杂的硬件,软件和固件系统,包括前硅和后硅。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
概念漂移过程挖掘(PM)是一种挑战,因为古典方法假设进程处于稳态,即事件共享相同的进程版本。我们对这些领域的交叉点进行了系统的文献综述,从而审查了过程采矿中的概念漂移,并提出了用于漂移检测和在线流程挖掘的现有技术的分类,以实现不断发展的环境。现有的作品描绘了(i)PM仍然主要关注离线分析,并且(ii)由于缺乏公共评估协议,数据集和指标,过程中的概念漂移技术的评估是麻烦的。
translated by 谷歌翻译
越来越多的工作已经认识到利用机器学习(ML)进步的重要性,以满足提取访问控制属性,策略挖掘,策略验证,访问决策等有效自动化的需求。在这项工作中,我们调查和总结了各种ML解决不同访问控制问题的方法。我们提出了ML模型在访问控制域中应用的新分类学。我们重点介绍当前的局限性和公开挑战,例如缺乏公共现实世界数据集,基于ML的访问控制系统的管理,了解黑盒ML模型的决策等,并列举未来的研究方向。
translated by 谷歌翻译
复杂的事件识别(CER)系统在过去二十年中变得流行,因为它们能够“立即”检测在实时事件流上的模式。然而,缺乏预测模式可能发生在例如由Cer发动机实际检测到这种发生之前的模式。我们提出了一项正式的框架,试图解决复杂事件预测(CEF)的问题。我们的框架结合了两个形式主义:a)用于编码复杂事件模式的符号自动机; b)预测后缀树,可以提供自动机构的行为的简洁概率描述。我们比较我们提出的方法,以防止最先进的方法,并在准确性和效率方面展示其优势。特别地,预测后缀树是可变的马尔可夫模型,可以通过仅记住足够的信息的过去序列来捕获流中的长期依赖性。我们的实验结果表明了能够捕获这种长期依赖性的准确性的益处。这是通过增加我们模型的顺序来实现的,以满足需要执行给定顺序的所有可能的过去序列的所有可能的过去序列的详尽枚举的全阶马尔可夫模型。我们还广泛讨论CEF解决方案如何最佳地评估其预测的质量。
translated by 谷歌翻译
背景信息:在过去几年中,机器学习(ML)一直是许多创新的核心。然而,包括在所谓的“安全关键”系统中,例如汽车或航空的系统已经被证明是非常具有挑战性的,因为ML的范式转变为ML带来完全改变传统认证方法。目的:本文旨在阐明与ML为基础的安全关键系统认证有关的挑战,以及文献中提出的解决方案,以解决它们,回答问题的问题如何证明基于机器学习的安全关键系统?'方法:我们开展2015年至2020年至2020年之间发布的研究论文的系统文献综述(SLR),涵盖了与ML系统认证有关的主题。总共确定了217篇论文涵盖了主题,被认为是ML认证的主要支柱:鲁棒性,不确定性,解释性,验证,安全强化学习和直接认证。我们分析了每个子场的主要趋势和问题,并提取了提取的论文的总结。结果:单反结果突出了社区对该主题的热情,以及在数据集和模型类型方面缺乏多样性。它还强调需要进一步发展学术界和行业之间的联系,以加深域名研究。最后,它还说明了必须在上面提到的主要支柱之间建立连接的必要性,这些主要柱主要主要研究。结论:我们强调了目前部署的努力,以实现ML基于ML的软件系统,并讨论了一些未来的研究方向。
translated by 谷歌翻译
基于机器学习(ML)的系统的制作需要在其生命周期中进行统计控制。仔细量化业务需求和识别影响业务需求的关键因素降低了项目故障的风险。业务需求的量化导致随机变量的定义,表示通过统计实验需要分析的系统关键性能指标。此外,可提供的培训和实验结果产生影响系统的设计。开发系统后,测试并不断监控,以确保其符合其业务需求。这是通过持续应用统计实验来分析和控制关键绩效指标来完成的。本书教授制作和开发基于ML的系统的艺术。它倡导“首先”方法,强调从项目生命周期开始定义统计实验的需要。它还详细讨论了如何在整个生命周期中对基于ML的系统进行统计控制。
translated by 谷歌翻译
业务流程偏差是指业务流程执行的子集的现象,以消极或积极的方式偏离{他们的预期或理想的结果。业务流程的偏差执行包括违反合规规则的人,或者欠冲前或超过绩效目标的执行。偏差挖掘涉及通过分析支持业务流程的系统存储的事件日志来揭示揭示异常执行的原因。在本文中,首先通过基于顺序和声明模式模式的特征和它们的组合来研究解释业务流程的偏差问题。然后,通过基于纯数据属性值和数据感知声明规则利用事件日志中的事件日志和迹线的数据属性来进一步提高说明。然后通过用于规则感应的直接和间接方法来提取表征消化的解释。使用来自多个域的实际日志,根据他们准确地区分过程的非偏差和异常执行能力以及决赛的可理解性的能力来评估一系列特征类型和不同形式的决策规则。返回给用户的结果。
translated by 谷歌翻译
装袋和升压是在机器学习(ml)中的两个流行的集合方法,产生许多单独的决策树。由于这些方法的固有组合特性,它们通常以预测性能更优于单决定树或其他ML模型。然而,为每个决策树生成许多决定路径,增加了模型的整体复杂性,并阻碍了其在需要值得信赖和可解释的决策的域中的域,例如金融,社会护理和保健。因此,随着决策的数量升高,袋装和升降算法(例如随机森林和自适应升压)的解释性降低。在本文中,我们提出了一种视觉分析工具,该工具旨在帮助用户通过彻底的视觉检查工作流程从这种ML模型中提取决策,包括选择一套鲁棒和不同的模型(源自不同的集合学习算法),选择重要的功能根据他们的全球贡献,决定哪些决定对于全球解释(或本地,具体案件)是必不可少的。结果是基于多个模型的协议和用户出口的探索手动决策的最终决定。最后,我们通过用例,使用场景和用户学习评估患者的适用性和有效性。
translated by 谷歌翻译
对比模式挖掘(CPM)是数据挖掘的重要且流行的子场。传统的顺序模式无法描述不同类别数据之间的对比度信息,而涉及对比概念的对比模式可以描述不同对比条件下数据集之间的显着差异。根据该领域发表的论文数量,我们发现研究人员对CPM的兴趣仍然活跃。由于CPM有许多研究问题和研究方法。该领域的新研究人员很难在短时间内了解该领域的一般状况。因此,本文的目的是为对比模式挖掘的研究方向提供最新的全面概述。首先,我们对CPM提出了深入的理解,包括评估歧视能力的基本概念,类型,采矿策略和指标。然后,我们根据CPM方法根据其特征分类为基于边界的算法,基于树的算法,基于进化模糊的系统算法,基于决策树的算法和其他算法。此外,我们列出了这些方法的经典算法,并讨论它们的优势和缺点。提出了CPM中的高级主题。最后,我们通过讨论该领域的挑战和机遇来结束调查。
translated by 谷歌翻译
我们介绍了强大的子组发现的问题,即,找到一个关于一个或多个目标属性的脱颖而出的子集的一组可解释的描述,2)是统计上的鲁棒,并且3)非冗余。许多尝试已经挖掘了局部强壮的子组或解决模式爆炸,但我们是第一个从全球建模角度同时解决这两个挑战的爆炸。首先,我们制定广泛的模型类别的子组列表,即订购的子组,可以组成的单次组和多变量目标,该目标可以由标称或数字变量组成,并且包括其定义中的传统Top-1子组发现。这种新颖的模型类允许我们使用最小描述长度(MDL)原理来形式地形化最佳强大的子组发现,在那里我们分别为标称和数字目标的最佳归一化最大可能性和贝叶斯编码而度假。其次,正如查找最佳子组列表都是NP-Hard,我们提出了SSD ++,一个贪婪的启发式,找到了很好的子组列表,并保证了根据MDL标准的最重要的子组在每次迭代中添加,这被显示为等同于贝叶斯一个样本比例,多项式或子组之间的多项式或T检验,以及数据集边际目标分布以及多假设检测罚款。我们经验上显示了54个数据集,即SSD ++优于先前的子组设置发现方法和子组列表大小。
translated by 谷歌翻译
自动日志文件分析可以尽早发现相关事件,例如系统故障。特别是,自我学习的异常检测技术在日志数据中捕获模式,随后向系统操作员报告意外的日志事件事件,而无需提前提供或手动对异常情况进行建模。最近,已经提出了越来越多的方法来利用深度学习神经网络为此目的。与传统的机器学习技术相比,这些方法证明了出色的检测性能,并同时解决了不稳定数据格式的问题。但是,有许多不同的深度学习体系结构,并且编码由神经网络分析的原始和非结构化日志数据是不平凡的。因此,我们进行了系统的文献综述,概述了部署的模型,数据预处理机制,异常检测技术和评估。该调查没有定量比较现有方法,而是旨在帮助读者了解不同模型体系结构的相关方面,并强调未来工作的开放问题。
translated by 谷歌翻译
在过程挖掘中,发现技术使从事件日志自动构建业务流程模型成为可能。但是,结果通常无法达到模型复杂性及其拟合精度之间的平衡,因此需要进行手动模型调整。该论文提出了一种方法开采的方法,该方法基于模型复杂性和适应性的组合评估为模型优化提供半自动支持。为了在两种成分之间取得平衡,提出了一种模型简化方法,该方法基本上在所需的粒度下抽象了原始模型。此外,我们介绍了一个元态的概念,该元素的周期崩溃了,该循环可以潜在地简化模型并解释模型。我们旨在使用来自医疗保健领域不同应用程序的三个数据集证明技术解决方案的功能。它们是针对COVID-19大流行期间动脉高血压和医疗保健工作人员工作流动的患者的远程监测过程。案例研究还调查了各种复杂性度量和解决方案应用方式的使用,从而提供了有关改善过程模型中改善可解释性和复杂性/适应性平衡的更好实践的见解。
translated by 谷歌翻译
预测过程分析已成为组织的基本援助,从而为其流程提供在线运营支持。但是,需要向流程利益相关者提供解释为什么预测给定流程执行以某种方式行事的原因。否则,他们将不太可能相信预测性监测技术,从而采用它。本文提出了一个预测分析框架,该框架还具有基于Shapley值的游戏理论的解释功能。该框架已在IBM Process采矿套件中实施,并为业务用户商业化。该框架已在现实生活事件数据上进行了测试,以评估预测的质量和相应的评估。特别是,已经执行了用户评估,以了解系统提供的解释是否可以使流程利益相关者可理解。
translated by 谷歌翻译
Prescriptive Process Monitoring systems recommend, during the execution of a business process, interventions that, if followed, prevent a negative outcome of the process. Such interventions have to be reliable, that is, they have to guarantee the achievement of the desired outcome or performance, and they have to be flexible, that is, they have to avoid overturning the normal process execution or forcing the execution of a given activity. Most of the existing Prescriptive Process Monitoring solutions, however, while performing well in terms of recommendation reliability, provide the users with very specific (sequences of) activities that have to be executed without caring about the feasibility of these recommendations. In order to face this issue, we propose a new Outcome-Oriented Prescriptive Process Monitoring system recommending temporal relations between activities that have to be guaranteed during the process execution in order to achieve a desired outcome. This softens the mandatory execution of an activity at a given point in time, thus leaving more freedom to the user in deciding the interventions to put in place. Our approach defines these temporal relations with Linear Temporal Logic over finite traces patterns that are used as features to describe the historical process data recorded in an event log by the information systems supporting the execution of the process. Such encoded log is used to train a Machine Learning classifier to learn a mapping between the temporal patterns and the outcome of a process execution. The classifier is then queried at runtime to return as recommendations the most salient temporal patterns to be satisfied to maximize the likelihood of a certain outcome for an input ongoing process execution. The proposed system is assessed using a pool of 22 real-life event logs that have already been used as a benchmark in the Process Mining community.
translated by 谷歌翻译
机器学习(ML)代表了当前和未来信息系统的关键技术,许多域已经利用了ML的功能。但是,网络安全中ML的部署仍处于早期阶段,揭示了研究和实践之间的显着差异。这种差异在当前的最新目的中具有其根本原因,该原因不允许识别ML在网络安全中的作用。除非广泛的受众理解其利弊,否则ML的全部潜力将永远不会释放。本文是对ML在整个网络安全领域中的作用的首次尝试 - 对任何对此主题感兴趣的潜在读者。我们强调了ML在人类驱动的检测方法方面的优势,以及ML在网络安全方面可以解决的其他任务。此外,我们阐明了影响网络安全部署实际ML部署的各种固有问题。最后,我们介绍了各种利益相关者如何为网络安全中ML的未来发展做出贡献,这对于该领域的进一步进步至关重要。我们的贡献补充了两项实际案例研究,这些案例研究描述了ML作为对网络威胁的辩护的工业应用。
translated by 谷歌翻译
Concept drift primarily refers to an online supervised learning scenario when the relation between the input data and the target variable changes over time. Assuming a general knowledge of supervised learning in this paper we characterize adaptive learning process, categorize existing strategies for handling concept drift, overview the most representative, distinct and popular techniques and algorithms, discuss evaluation methodology of adaptive algorithms, and present a set of illustrative applications. The survey covers the different facets of concept drift in an integrated way to reflect on the existing scattered state-of-the-art. Thus, it aims at providing a comprehensive introduction to the concept drift adaptation for researchers, industry analysts and practitioners.
translated by 谷歌翻译
背景:机器学习(ML)可以实现有效的自动测试生成。目的:我们表征了新兴研究,检查测试实践,研究人员目标,应用的ML技术,评估和挑战。方法:我们对97个出版物的样本进行系统文献综述。结果:ML生成系统,GUI,单位,性能和组合测试的输入或改善现有生成方法的性能。 ML还用于生成测试判决,基于属性的和预期的输出序列。经常基于神经网络和强化学习的监督学习通常是基于Q学习的 - 很普遍,并且某些出版物还采用了无监督或半监督的学习。使用传统的测试指标和与ML相关的指标(例如准确性)评估(半/非 - )监督方法,而经常使用与奖励功能相关的测试指标来评估强化学习。结论:工作到尽头表现出巨大的希望,但是在培训数据,再探术,可伸缩性,评估复杂性,所采用的ML算法以及如何应用 - 基准和可复制性方面存在公开挑战。我们的发现可以作为该领域研究人员的路线图和灵感。
translated by 谷歌翻译
In the last years many accurate decision support systems have been constructed as black boxes, that is as systems that hide their internal logic to the user. This lack of explanation constitutes both a practical and an ethical issue. The literature reports many approaches aimed at overcoming this crucial weakness sometimes at the cost of scarifying accuracy for interpretability. The applications in which black box decision systems can be used are various, and each approach is typically developed to provide a solution for a specific problem and, as a consequence, delineating explicitly or implicitly its own definition of interpretability and explanation. The aim of this paper is to provide a classification of the main problems addressed in the literature with respect to the notion of explanation and the type of black box system. Given a problem definition, a black box type, and a desired explanation this survey should help the researcher to find the proposals more useful for his own work. The proposed classification of approaches to open black box models should also be useful for putting the many research open questions in perspective.
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译