弗洛罗斯(Frolos)是一个python库,能够检测机器学习问题的漂移。它提供了用于漂移检测的经典和较新的算法的组合:受到监督和无监督,以及一些能够以半监督的方式行动的能力。我们设计了它的目的是与Scikit-Learn库轻松集成,并实现相同的应用程序编程界面。图书馆是根据一组最佳开发和持续整合实践开发的,以确保易于维护和可扩展性。源代码可在https://github.com/ifca/frouros上获得。
translated by 谷歌翻译
Concept drift primarily refers to an online supervised learning scenario when the relation between the input data and the target variable changes over time. Assuming a general knowledge of supervised learning in this paper we characterize adaptive learning process, categorize existing strategies for handling concept drift, overview the most representative, distinct and popular techniques and algorithms, discuss evaluation methodology of adaptive algorithms, and present a set of illustrative applications. The survey covers the different facets of concept drift in an integrated way to reflect on the existing scattered state-of-the-art. Thus, it aims at providing a comprehensive introduction to the concept drift adaptation for researchers, industry analysts and practitioners.
translated by 谷歌翻译
Concept drift describes unforeseeable changes in the underlying distribution of streaming data over time. Concept drift research involves the development of methodologies and techniques for drift detection, understanding and adaptation. Data analysis has revealed that machine learning in a concept drift environment will result in poor learning results if the drift is not addressed. To help researchers identify which research topics are significant and how to apply related techniques in data analysis tasks, it is necessary that a high quality, instructive review of current research developments and trends in the concept drift field is conducted. In addition, due to the rapid development of concept drift in recent years, the methodologies of learning under concept drift have become noticeably systematic, unveiling a framework which has not been mentioned in literature. This paper reviews over 130 high quality publications in concept drift related research areas, analyzes up-to-date developments in methodologies and techniques, and establishes a framework of learning under concept drift including three main components: concept drift detection, concept drift understanding, and concept drift adaptation. This paper lists and discusses 10 popular synthetic datasets and 14 publicly available benchmark datasets used for evaluating the performance of learning algorithms aiming at handling concept drift. Also, concept drift related research directions are covered and discussed. By providing state-of-the-art knowledge, this survey will directly support researchers in their understanding of research developments in the field of learning under concept drift.
translated by 谷歌翻译
scikit-learn is an increasingly popular machine learning library. Written in Python, it is designed to be simple and efficient, accessible to non-experts, and reusable in various contexts. In this paper, we present and discuss our design choices for the application programming interface (API) of the project. In particular, we describe the simple and elegant interface shared by all learning and processing units in the library and then discuss its advantages in terms of composition and reusability. The paper also comments on implementation details specific to the Python ecosystem and analyzes obstacles faced by users and developers of the library.
translated by 谷歌翻译
挖掘数据流姿势存在许多挑战,包括数据的连续和非静止性质,待处理的大量信息和限制计算资源。虽然在文献中提出了一些针对这个问题的监督解决方案,但大多数人都假定访问地面真理(以类标签的形式)是无限的,并且在更新学习系统时可以立即使用此类信息。这远非现实,因为必须考虑获取标签的基本成本。因此,需要解决流方案中实际真相要求的解决方案。在本文中,通过组合来自主动学习和自我标签的信息,提出了一种用于预算的挖水数据流的新框架。我们介绍了几种策略,可以利用智能实例选择和半监督程序,同时考虑到概念漂移的潜在存在。这种混合方法允许有效的探索和利用在现实标记预算中的流数据结构。由于我们的框架工作为包装器,因此它可以应用于不同的学习算法。实验研究,在具有各种类型的概念漂移的多样化现实数据流中进行的实验研究,证明了在处理对类标签的高度限制时拟议的策略的有用性。当一个人不能增加标签或更换低效分类器的预算时,呈现的混合方法尤其可行。我们为我们的战略提供了一套关于适用性领域的建议。
translated by 谷歌翻译
部署的机器学习模型面临着随着时间的流逝而改变数据的问题,这一现象也称为概念漂移。尽管现有的概念漂移检测方法已经显示出令人信服的结果,但它们需要真正的标签作为成功漂移检测的先决条件。尤其是在许多实际应用程序场景中,这种工作真实标签中涵盖的情况很少,而且它们的收购价格昂贵。因此,我们引入了一种用于漂移检测,不确定性漂移检测(UDD)的新算法,该算法能够检测到漂移而无需访问真正的标签。我们的方法基于深层神经网络与蒙特卡洛辍学的不确定性估计。通过将ADWIN技术应用于不确定性估计值,并检测到漂移触发预测模型的重新验证,可以检测到随时间变化的结构变化。与基于输入数据的漂移检测相反,我们的方法考虑了当前输入数据对预测模型属性的影响,而不是仅检测输入数据的变化(这可能导致不必要的重新培训)。我们表明,UDD在两个合成和十个现实世界数据集的回归和分类任务方面优于其他最先进的策略。
translated by 谷歌翻译
机器学习(ML)不仅仅是培训模型,必须考虑整个工作流程。部署一旦部署,需要观察ML模型,并不断监督和调试,以确保其有效性和稳健性在意外情况下。在ML中调试旨在识别(和地址)模型弱点而不是微不足道的背景。已经提出了几种技术来识别不同类型的模型弱点,例如分类,模型衰减,对抗攻击等偏差,但没有允许它们以协作,模块化,便携式的迭代方式工作的通用框架更重要的是,足够灵活,以允许人类和机器驱动的技术。在本文中,我们提出了一种新颖的集装箱定向图框架,以支持和加速端到端ML工作流管理,监督和调试。该框架允许在容器中定义和部署ML工作流程,跟踪它们的元数据,检查其在生产中的行为,并通过使用学习和人类提供的知识来改进模型。我们通过在框架中集成在两个混合系统中来检测数据漂移分布来展示这些功能,以检测识别远离原始分布的潜在空间的样本,询问人为干预,以及是否用滤波器重新编制模型或将其包裹出来在推理时间下取消损坏数据的噪声。我们在MNIST-C,CIFAR-10-C和FashionMnist-C数据集上测试这些系统,从人类参与的帮助下获得有希望的准确性结果。
translated by 谷歌翻译
Automated Machine Learning (AutoML) has been used successfully in settings where the learning task is assumed to be static. In many real-world scenarios, however, the data distribution will evolve over time, and it is yet to be shown whether AutoML techniques can effectively design online pipelines in dynamic environments. This study aims to automate pipeline design for online learning while continuously adapting to data drift. For this purpose, we design an adaptive Online Automated Machine Learning (OAML) system, searching the complete pipeline configuration space of online learners, including preprocessing algorithms and ensembling techniques. This system combines the inherent adaptation capabilities of online learners with the fast automated pipeline (re)optimization capabilities of AutoML. Focusing on optimization techniques that can adapt to evolving objectives, we evaluate asynchronous genetic programming and asynchronous successive halving to optimize these pipelines continually. We experiment on real and artificial data streams with varying types of concept drift to test the performance and adaptation capabilities of the proposed system. The results confirm the utility of OAML over popular online learning algorithms and underscore the benefits of continuous pipeline redesign in the presence of data drift.
translated by 谷歌翻译
流数据分类的重要问题之一是概念漂移的发生,包括分类任务的概率特征的变化。这种现象不稳定了分类模型的性能,并严重降低了其质量。需要抵消这种现象的适当策略来使分类器适应变化的概率特征。实现此类解决方案的一个重要问题是访问数据标签。它通常是昂贵的,从而最大限度地减少与该过程相关的费用,提出了基于半监督学习的学习策略,例如,采用主动学习方法,该方法指示哪些传入对象是有价值的,以便标记为提高分类器的性能。本文提出了一种基于基于分类器集合学习的非静止数据流的基于块的方法,以及考虑可以成功应用于任何数据流分类算法的有限预算的主动学习策略。已经通过使用真实和生成的数据流进行了计算机实验来评估所提出的方法。结果证实了最先进的方法的高质量。
translated by 谷歌翻译
概念漂移过程挖掘(PM)是一种挑战,因为古典方法假设进程处于稳态,即事件共享相同的进程版本。我们对这些领域的交叉点进行了系统的文献综述,从而审查了过程采矿中的概念漂移,并提出了用于漂移检测和在线流程挖掘的现有技术的分类,以实现不断发展的环境。现有的作品描绘了(i)PM仍然主要关注离线分析,并且(ii)由于缺乏公共评估协议,数据集和指标,过程中的概念漂移技术的评估是麻烦的。
translated by 谷歌翻译
如今,预测机器学习模型通常以无状态和昂贵的方式进行更新。想要建立基于机器学习的应用程序和系统的公司的两个主要未来趋势是实时推理和持续更新。不幸的是,这两种趋势都需要一个成熟的基础设施,这很难实现本地人。本文定义了一种新颖的软件服务和模型交付基础架构,称为连续学习 - 服务(CLAAS)来解决这些问题。具体而言,它包含持续的机器学习和连续的集成技术。它为数据科学家提供了模型更新和验证工具的支持,而无需进行本地解决方案,并且以高效,陈述和易于使用的方式提供了支持。最后,此CL模型服务易于封装在任何机器学习基础架构或云系统中。本文介绍了在两种现实世界中评估的CLAAS实例化的设计和实现。前者是使用core50数据集的机器人对象识别设置,而后者是命名类别,并且使用时尚域中的deepfashion-c数据集属性预测。我们的初步结果表明,无论计算在Continuum Edge-Cloud中的何处,连续学习模型服务的可用性和效率以及解决方案在解决现实世界用例中的有效性。
translated by 谷歌翻译
恶意软件是对计算机系统的主要威胁,并对网络安全构成了许多挑战。有针对性的威胁(例如勒索软件)每年造成数百万美元的损失。恶意软件感染的不断增加一直激励流行抗病毒(AV)制定专用的检测策略,其中包括精心制作的机器学习(ML)管道。但是,恶意软件开发人员不断地将样品的功能更改为绕过检测。恶意软件样品的这种恒定演变导致数据分布(即概念漂移)直接影响ML模型检测率,这是大多数文献工作中未考虑的。在这项工作中,我们评估了两个Android数据集的概念漂移对恶意软件分类器的影响:DREBIN(约130k应用程序)和Androzoo(约350K应用程序)的子集。我们使用这些数据集训练自适应随机森林(ARF)分类器以及随机梯度下降(SGD)分类器。我们还使用其Virustotal提交时间戳订购了所有数据集样品,然后使用两种算法(Word2Vec和tf-idf)从其文本属性中提取功能。然后,我们进行了实验,以比较两个特征提取器,分类器以及四个漂移检测器(DDM,EDDM,ADWIN和KSWIN),以确定真实环境的最佳方法。最后,我们比较一些减轻概念漂移的可能方法,并提出了一种新的数据流管道,该管道同时更新分类器和特征提取器。为此,我们通过(i)对9年来收集的恶意软件样本进行了纵向评估(2009- 2018年),(ii)审查概念漂移检测算法以证明其普遍性,(iii)比较不同的ML方法来减轻此问题,(iv)提出了超过文献方法的ML数据流管道。
translated by 谷歌翻译
数据流分类是机器学习领域的重要问题。由于数据的非平稳性,其基础分布会随着时间的流逝而变化(概念漂移),因此该模型需要不断适应新的数据统计信息。基于流的主动学习(AL)方法通过交互式查询人类专家以在有限的预算内为最新样本提供新的数据标签来解决此问题。现有的AL策略假设可以立即可用标签,而在现实情况下,专家需要时间提供查询标签(验证延迟),而当请求的标签到达时,它们可能不再相关。在本文中,我们研究了在AL方法上存在概念漂移的情况下,有限,时间变化和未知验证延迟的影响。我们提出了繁殖(PR),这是一种独立的延迟效用估计器,它也预测了所请求但尚不清楚的标签。此外,我们提出了一种依赖漂移的动态预算策略,该策略在检测到的漂移后使用标签预算的可变分布。彻底的实验评估,包括合成和现实世界的非平稳数据集,以及验证延迟和预算的不同设置。我们从经验上表明,所提出的方法始终优于最先进的方法。此外,我们证明,随着时间的及时预算分配,可以提高AL策略的性能,而不会增加整体标签预算。
translated by 谷歌翻译
缺少值被广泛称为文献中的\ textit {sparsity},是许多现实世界数据集的共同特征。已经提出了许多插补方法来解决这个数据不完整或稀疏性问题。但是,对于给定功能或数据集中的一组功能,数据插补方法的准确性高度取决于特征值的分布及其与其他功能的相关性。困扰机器学习(ML)解决方案行业部署(ML)解决方案的另一个问题是概念漂移检测,在缺少价值观的情况下,这变得更具挑战性。尽管已经对数据插补和概念漂移检测进行了广泛的研究,但很少有工作尝试合并研究两种现象,即在存在稀疏性的情况下,概念漂移检测。在这项工作中,我们进行了以下系统研究:(i)缺失值的不同模式,(ii)各种稀疏性的各种基于统计和ML的数据插补方法,(iii)几种概念漂移检测方法,(( iv)对各种漂移检测指标的实际分析,(v)根据基于不同指标的数据集选择最佳概念漂移检测器。我们首先将其分析在合成数据和公开可用数据集上,并最终将发现扩展到我们已部署的自动变更风险评估系统的解决方案。我们实证研究的主要发现之一是所有相关指标中任何一个概念漂移检测方法的至高无上。因此,我们采用基于多数投票的概念漂移探测器的集合来突然和逐渐概念漂移。我们的实验表明,对于所有指标,可以实现这种合奏方法的最佳或接近最佳性能。
translated by 谷歌翻译
The literature on machine learning in the context of data streams is vast and growing. However, many of the defining assumptions regarding data-stream learning tasks are too strong to hold in practice, or are even contradictory such that they cannot be met in the contexts of supervised learning. Algorithms are chosen and designed based on criteria which are often not clearly stated, for problem settings not clearly defined, tested in unrealistic settings, and/or in isolation from related approaches in the wider literature. This puts into question the potential for real-world impact of many approaches conceived in such contexts, and risks propagating a misguided research focus. We propose to tackle these issues by reformulating the fundamental definitions and settings of supervised data-stream learning with regard to contemporary considerations of concept drift and temporal dependence; and we take a fresh look at what constitutes a supervised data-stream learning task, and a reconsideration of algorithms that may be applied to tackle such tasks. Through and in reflection of this formulation and overview, helped by an informal survey of industrial players dealing with real-world data streams, we provide recommendations. Our main emphasis is that learning from data streams does not impose a single-pass or online-learning approach, or any particular learning regime; and any constraints on memory and time are not specific to streaming. Meanwhile, there exist established techniques for dealing with temporal dependence and concept drift, in other areas of the literature. For the data streams community, we thus encourage a shift in research focus, from dealing with often-artificial constraints and assumptions on the learning mode, to issues such as robustness, privacy, and interpretability which are increasingly relevant to learning in data streams in academic and industrial settings.
translated by 谷歌翻译
异常值是一个事件或观察,其被定义为不同于距群体的不规则距离的异常活动,入侵或可疑数据点。然而,异常事件的定义是主观的,取决于应用程序和域(能量,健康,无线网络等)。重要的是要尽可能仔细地检测异常事件,以避免基础设施故障,因为异常事件可能导致对基础设施的严重损坏。例如,诸如微电网的网络物理系统的攻击可以发起电压或频率不稳定性,从而损坏涉及非常昂贵的修复的智能逆变器。微电网中的不寻常活动可以是机械故障,行为在系统中发生变化,人体或仪器错误或恶意攻击。因此,由于其可变性,异常值检测(OD)是一个不断增长的研究领域。在本章中,我们讨论了使用AI技术的OD方法的进展。为此,通过多个类别引入每个OD模型的基本概念。广泛的OD方法分为六大类:基于统计,基于距离,基于密度的,基于群集的,基于学习的和合奏方法。对于每个类别,我们讨论最近最先进的方法,他们的应用领域和表演。之后,关于对未来研究方向的建议提供了关于各种技术的优缺点和挑战的简要讨论。该调查旨在指导读者更好地了解OD方法的最新进展,以便保证AI。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 2nd International Workshop on Reading Music Systems, held in Delft on the 2nd of November 2019.
translated by 谷歌翻译
在监视机器学习系统时,均匀性的两样本测试构成了现有的漂移检测构建方法的基础。它们用于测试证据表明,最近部署数据的分布与历史参考数据的基础数据不同。但是,通常,诸如时间诱导的相关性等各种因素意味着,预计最近的部署数据不会形成I.I.D.来自历史数据分布的样本。取而代之的是,我们可能希望测试允许更改的\ textit {Context}条件上的分布差异。为了促进这一点,我们从因果推理域借用机械,以开发出更通用的漂移检测框架,建立在有条件分布治疗效果的两样本测试基础上。我们建议根据最大条件平均差异对框架进行特定的实例化。然后,我们提供了一项实证研究,证明了其对实践感兴趣的各种漂移检测问题的有效性,例如以对其各自的流行率不敏感的方式检测数据基础分布的漂移。该研究还证明了对成像网尺度视力问题的适用性。
translated by 谷歌翻译
模型用于软件工程(SE)和人工智能(AI)。 SE模型可以在不同抽象层次的架构中指定架构,并从早期概念化和设计,从软件开发生命周期的各个阶段解决不同的问题,以验证,实施,测试和演化。然而,AI模型可以提供智能能力,例如预测和决策支持。例如,在机器学习(ml)中,这是目前是AI的最受欢迎的子学科,数学模型可能会在观察到的数据中学习有用的模式,并且可以成为能够进行预测。这项工作的目标是通过将在所述社区的模型聚集在一起并提出一种需要ML的智能系统的模型驱动软件开发的整体方法来创建协同作用。我们说明了软件模型如何能够以无缝方式创建和处理ML模型。主要焦点位于事物互联网(物联网)的领域,其中ML和模型驱动的SE都发挥着关键作用。在需要采取有针对性架构的网络物理系统的系统视角下,SE和ML子系统的集成设计环境将最能支持所得系统实现的优化和整体效率。特别是,我们实现了基于INTOMML的CL-Quadrat的所提出的方法,并使用来自物联网域的案例研究以及经验用户评估来验证它。它归还所提出的方法不仅是可行的,而且还可能有助于与IOT连接的智能网络物理系统(CPS)的软件开发的性能飞跃,以及增强的使用者的用户体验建议的建模解决方案。
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译