在许多真实的场景中,我们经常处理随着时间的推移顺序收集的流数据。由于环境的非静止性,流数据分布可能以不可预测的方式改变,这被称为概念漂移。为了处理概念漂移,先前的方法首先检测概念漂移的时间何时/其中,然后适应模型以适应最新数据的分布。然而,仍然存在许多情况下,环境进化的一些潜在因素是可预测的,使得可以模拟流数据的未来概念漂移趋势,而在以前的工作中没有完全探索这种情况。在本文中,我们提出了一种新型方法DDG-DA,可以有效地预测数据分布的演变并提高模型的性能。具体而言,我们首先训练预测器来估计未来的数据分布,然后利用它来生成训练样本,最后在生成的数据上培训模型。我们对三个现实世界任务进行实验(预测股票价格走势,电力负荷和太阳辐照度),并获得多种广泛使用的模型的显着改进。
translated by 谷歌翻译
Concept drift primarily refers to an online supervised learning scenario when the relation between the input data and the target variable changes over time. Assuming a general knowledge of supervised learning in this paper we characterize adaptive learning process, categorize existing strategies for handling concept drift, overview the most representative, distinct and popular techniques and algorithms, discuss evaluation methodology of adaptive algorithms, and present a set of illustrative applications. The survey covers the different facets of concept drift in an integrated way to reflect on the existing scattered state-of-the-art. Thus, it aims at providing a comprehensive introduction to the concept drift adaptation for researchers, industry analysts and practitioners.
translated by 谷歌翻译
Automated Machine Learning (AutoML) has been used successfully in settings where the learning task is assumed to be static. In many real-world scenarios, however, the data distribution will evolve over time, and it is yet to be shown whether AutoML techniques can effectively design online pipelines in dynamic environments. This study aims to automate pipeline design for online learning while continuously adapting to data drift. For this purpose, we design an adaptive Online Automated Machine Learning (OAML) system, searching the complete pipeline configuration space of online learners, including preprocessing algorithms and ensembling techniques. This system combines the inherent adaptation capabilities of online learners with the fast automated pipeline (re)optimization capabilities of AutoML. Focusing on optimization techniques that can adapt to evolving objectives, we evaluate asynchronous genetic programming and asynchronous successive halving to optimize these pipelines continually. We experiment on real and artificial data streams with varying types of concept drift to test the performance and adaptation capabilities of the proposed system. The results confirm the utility of OAML over popular online learning algorithms and underscore the benefits of continuous pipeline redesign in the presence of data drift.
translated by 谷歌翻译
操作网络通常依靠机器学习模型来进行许多任务,包括检测异常,推断应用程序性能和预测需求。然而,不幸的是,模型精度会因概念漂移而降低,从而,由于从软件升级到季节性到用户行为的变化,功能和目标预测之间的关系会发生变化。因此,缓解概念漂移是操作机器学习模型的重要组成部分,尽管它很重要,但在网络或一般的回归模型的背景下,概念漂移并未得到广泛的探索。因此,对于当前依赖机器学习模型的许多常见网络管理任务,如何检测或减轻它并不是一件好事。不幸的是,正如我们所展示的那样,通过使用新可用的数据经常重新培训模型可以充分缓解概念漂移,甚至可以进一步降低模型的准确性。在本文中,我们表征了美国主要大都市地区的大型蜂窝网络中的概念漂移。我们发现,概念漂移发生在许多重要的关键性能指标(KPI)上,独立于模型,训练集大小和时间间隔,因此需要采用实用方法来检测,解释和减轻它。为此,我们开发了特征(叶)的局部误差近似。叶检测到漂移;解释最有助于漂移的功能和时间间隔;并使用遗忘和过度采样来减轻漂移。我们使用超过四年的蜂窝KPI数据来评估叶子与行业标准的缓解方法。在美国,我们对主要的细胞提供商进行的初步测试表明,LEAF在各种KPI和模型上都是有效的。叶子始终优于周期性,并触发重新培训,同时还要降低昂贵的重新经营操作。
translated by 谷歌翻译
近年来,在线增量学习中兴趣增长。然而,这方面存在三个主要挑战。第一个主要困难是概念漂移,即流数据中的概率分布会随着数据到达而改变。第二个重大困难是灾难性的遗忘,即忘记在学习新知识之前学到的东西。我们经常忽略的最后一个是学习潜在的代表。只有良好的潜在表示可以提高模型的预测准确性。我们的研究在此观察中建立并试图克服这些困难。为此,我们提出了一种适应性在线增量学习,用于不断发展数据流(AOL)。我们使用带内存模块的自动编码器,一方面,我们获得了输入的潜在功能,另一方面,根据自动编码器的重建丢失与内存模块,我们可以成功检测存在的存在概念漂移并触发更新机制,调整模型参数及时。此外,我们划分从隐藏层的激活导出的特征,分为两个部分,用于分别提取公共和私有特征。通过这种方法,该模型可以了解新的即将到来的实例的私有功能,但不要忘记我们在过去(共享功能)中学到的内容,这减少了灾难性遗忘的发生。同时,要获取融合特征向量,我们使用自我关注机制来有效地融合提取的特征,这进一步改善了潜在的代表学习。
translated by 谷歌翻译
随着物联网(IoT),边缘计算和云计算的普及,正在开发越来越多的流分析应用程序,包括在物联网传感数据之上的实时趋势预测和对象检测。一种流行的流分析类型是基于重复的神经网络(RNN)基于深度学习模型的时间序列或序列数据预测和预测。与假设数据提前可用并且不会更改的传统分析不同,流分析涉及正在连续生成的数据,并且数据趋势/分布可能会发生变化(又称概念漂移),这将导致预测/预测准确性下降时间。另一个挑战是为流分析找到最佳的资源提供,以达到良好的总体延迟。在本文中,我们研究了如何使用称为长期记忆(LSTM)的RNN模型来最佳利用边缘和云资源,以获得更好的准确性和流式分析。我们为混合流分析提出了一个新颖的边缘云集成框架,该框架支持云上边缘和高容量训练的低潜伏期推断。为了实现灵活的部署,我们研究了部署混合学习框架的不同方法,包括以边缘为中心,以云为中心和边缘云集成。此外,我们的混合学习框架可以根据历史数据进行预训练的LSTM模型,并根据最新数据定期重新训练LSTM模型的推理结果。使用现实世界和模拟流数据集,我们的实验表明,在延迟方面,提出的Edge-Cloud部署是所有三种部署类型中最好的。为了准确性,实验表明我们的动态学习方法在所有三种概念漂移方案的所有学习方法中都表现出最好的作用。
translated by 谷歌翻译
The literature on machine learning in the context of data streams is vast and growing. However, many of the defining assumptions regarding data-stream learning tasks are too strong to hold in practice, or are even contradictory such that they cannot be met in the contexts of supervised learning. Algorithms are chosen and designed based on criteria which are often not clearly stated, for problem settings not clearly defined, tested in unrealistic settings, and/or in isolation from related approaches in the wider literature. This puts into question the potential for real-world impact of many approaches conceived in such contexts, and risks propagating a misguided research focus. We propose to tackle these issues by reformulating the fundamental definitions and settings of supervised data-stream learning with regard to contemporary considerations of concept drift and temporal dependence; and we take a fresh look at what constitutes a supervised data-stream learning task, and a reconsideration of algorithms that may be applied to tackle such tasks. Through and in reflection of this formulation and overview, helped by an informal survey of industrial players dealing with real-world data streams, we provide recommendations. Our main emphasis is that learning from data streams does not impose a single-pass or online-learning approach, or any particular learning regime; and any constraints on memory and time are not specific to streaming. Meanwhile, there exist established techniques for dealing with temporal dependence and concept drift, in other areas of the literature. For the data streams community, we thus encourage a shift in research focus, from dealing with often-artificial constraints and assumptions on the learning mode, to issues such as robustness, privacy, and interpretability which are increasingly relevant to learning in data streams in academic and industrial settings.
translated by 谷歌翻译
Concept drift describes unforeseeable changes in the underlying distribution of streaming data over time. Concept drift research involves the development of methodologies and techniques for drift detection, understanding and adaptation. Data analysis has revealed that machine learning in a concept drift environment will result in poor learning results if the drift is not addressed. To help researchers identify which research topics are significant and how to apply related techniques in data analysis tasks, it is necessary that a high quality, instructive review of current research developments and trends in the concept drift field is conducted. In addition, due to the rapid development of concept drift in recent years, the methodologies of learning under concept drift have become noticeably systematic, unveiling a framework which has not been mentioned in literature. This paper reviews over 130 high quality publications in concept drift related research areas, analyzes up-to-date developments in methodologies and techniques, and establishes a framework of learning under concept drift including three main components: concept drift detection, concept drift understanding, and concept drift adaptation. This paper lists and discusses 10 popular synthetic datasets and 14 publicly available benchmark datasets used for evaluating the performance of learning algorithms aiming at handling concept drift. Also, concept drift related research directions are covered and discussed. By providing state-of-the-art knowledge, this survey will directly support researchers in their understanding of research developments in the field of learning under concept drift.
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
我们介绍了Limes,这是一种通过非平稳流数据学习的新方法,灵感来自元学习的最新成功。主要想法不是尝试学习一个单个分类器,该分类器必须在所有发生的数据分布中都能很好地工作,也不是许多单独的分类器,而是要利用混合策略:我们学习一组模型参数任何特定的数据分布都是通过分类器适应得出的。假设有一个具有类优点偏移的多类分类设置,则可以在分析中进行适应步骤,仅在分类器的偏差术语中受到影响。我们工作的另一个贡献是外推步骤,该步骤可以根据先前的数据预测未来时间步骤的合适适应参数。结合起来,我们获得了一个轻巧的过程,可以从具有不同的类分布的流数据中学习,与训练单个模型相比,没有增加可训练的参数,几乎没有内存或计算开销。使用Twitter数据对一组示例性任务进行的实验表明,Limes的精度比替代方法更高,尤其是在最低的当今精度的相关现实世界中。
translated by 谷歌翻译
Many real-world learning scenarios face the challenge of slow concept drift, where data distributions change gradually over time. In this setting, we pose the problem of learning temporally sensitive importance weights for training data, in order to optimize predictive accuracy. We propose a class of temporal reweighting functions that can capture multiple timescales of change in the data, as well as instance-specific characteristics. We formulate a bi-level optimization criterion, and an associated meta-learning algorithm, by which these weights can be learned. In particular, our formulation trains an auxiliary network to output weights as a function of training instances, thereby compactly representing the instance weights. We validate our temporal reweighting scheme on a large real-world dataset of 39M images spread over a 9 year period. Our extensive experiments demonstrate the necessity of instance-based temporal reweighting in the dataset, and achieve significant improvements to classical batch-learning approaches. Further, our proposal easily generalizes to a streaming setting and shows significant gains compared to recent continual learning methods.
translated by 谷歌翻译
经典的机器学习算法通常假设绘制数据是i.i.d的。来自固定概率分布。最近,持续学习成为机器学习的快速增长领域,在该领域中,该假设放松,即数据分布是非平稳的,并且随着时间的推移而变化。本文通过上下文变量$ c $表示数据分布的状态。 $ c $的漂移导致数据分布漂移。上下文漂移可能会改变目标分布,输入分布或两者兼而有之。此外,分布漂移可能是突然的或逐渐的。在持续学习中,环境漂移可能会干扰学习过程并擦除以前学习的知识。因此,持续学习算法必须包括处理此类漂移的专业机制。在本文中,我们旨在识别和分类不同类型的上下文漂移和潜在的假设,以更好地表征各种持续学习的场景。此外,我们建议使用分布漂移框架来提供对连续学习领域常用的几个术语的更精确的定义。
translated by 谷歌翻译
流数据分类的重要问题之一是概念漂移的发生,包括分类任务的概率特征的变化。这种现象不稳定了分类模型的性能,并严重降低了其质量。需要抵消这种现象的适当策略来使分类器适应变化的概率特征。实现此类解决方案的一个重要问题是访问数据标签。它通常是昂贵的,从而最大限度地减少与该过程相关的费用,提出了基于半监督学习的学习策略,例如,采用主动学习方法,该方法指示哪些传入对象是有价值的,以便标记为提高分类器的性能。本文提出了一种基于基于分类器集合学习的非静止数据流的基于块的方法,以及考虑可以成功应用于任何数据流分类算法的有限预算的主动学习策略。已经通过使用真实和生成的数据流进行了计算机实验来评估所提出的方法。结果证实了最先进的方法的高质量。
translated by 谷歌翻译
现实世界中的时间序列数据集经常违反预测的标准监督学习的假设 - 它们的分布会随着时间的推移而发展,从而使传统的培训和模型选择程序均优化。在本文中,我们提出了一种新颖的方法,即自适应预测(SAF),以修改时间序列预测模型的培训,以通过此类非平稳时间序列数据提高其在预测任务上的性能。 SAF在基于“背景”的预测之前集成了自适应阶段,即在时间后退预测掩盖的输入。这是一种测试时间培训的形式,在执行预测任务之前,在测试样本上会在测试样本上创建一个自我监督的学习问题。通过这种方式,我们的方法可以有效地适应编码表示的分布,从而导致卓越的概括。 SAF可以与任何基于经典的编码器码头架构架构(例如经常性神经网络或基于注意力的体系结构)集成。关于众所周知,众所周知的非统计数据(例如医疗保健和金融)的域中的合成和现实数据集,我们证明了SAF在提高预测准确性方面具有重大好处。
translated by 谷歌翻译
部署的机器学习模型面临着随着时间的流逝而改变数据的问题,这一现象也称为概念漂移。尽管现有的概念漂移检测方法已经显示出令人信服的结果,但它们需要真正的标签作为成功漂移检测的先决条件。尤其是在许多实际应用程序场景中,这种工作真实标签中涵盖的情况很少,而且它们的收购价格昂贵。因此,我们引入了一种用于漂移检测,不确定性漂移检测(UDD)的新算法,该算法能够检测到漂移而无需访问真正的标签。我们的方法基于深层神经网络与蒙特卡洛辍学的不确定性估计。通过将ADWIN技术应用于不确定性估计值,并检测到漂移触发预测模型的重新验证,可以检测到随时间变化的结构变化。与基于输入数据的漂移检测相反,我们的方法考虑了当前输入数据对预测模型属性的影响,而不是仅检测输入数据的变化(这可能导致不必要的重新培训)。我们表明,UDD在两个合成和十个现实世界数据集的回归和分类任务方面优于其他最先进的策略。
translated by 谷歌翻译
由于非平稳性,现实世界多变量时间序列(MTS)的分布会随着时间而变化,称为分布漂移。大多数现有的MT预测模型都会极大地遭受分销漂移的影响,并随着时间的推移降低了预测性能。现有方法通过适应最新到达数据或根据未来数据得出的元知识进行自我纠正来解决分布漂移。尽管在MT的预测中取得了巨大的成功,但这些方法几乎无法捕获固有的分布变化,尤其是从分布的角度来看。因此,我们提出了一个新型的框架时间条件变化自动编码器(TCVAE),以对MTS中历史观察结果和未来数据之间的动态分布依赖性进行建模,并将依赖性作为时间条件分布推断为利用潜在变量。具体而言,新型的颞鹰注意机制代表了随后馈入馈送前网络的时间因素,以估计潜在变量的先前高斯分布。时间因素的表示进一步动态地调整了基于变压器的编码器和解码器的结构,以利用门控注意机制来变化。此外,我们引入条件连续归一化流量,以将先前的高斯转化为复杂且无形式的分布,以促进对时间条件分布的灵活推断。在六个现实世界MTS数据集上进行的广泛实验表明,与最先进的MTS预测基线相比,TCVAE的出色鲁棒性和有效性。我们进一步说明了TCVAE通过多方面的案例研究和现实情况下的可视化来说明TCVAE的适用性。
translated by 谷歌翻译
来自数据流的在线异常检测对于许多应用程序的安全性至关重要,但是由于来自IoT设备和基于云的基础架构的复杂且不断发展的数据流而面临严重的挑战。不幸的是,现有方法对这些挑战太短。在线异常检测方法承担着处理复杂性的负担,而离线深度异常检测方法则遭受了不断发展的数据分布的影响。本文介绍了一个在线深度异常检测的框架ARCU,可以与任何基于自动编码器的深度异常检测方法实例化。它使用两种新颖的技术使用自适应模型合并方法来处理复杂而不断发展的数据流:概念驱动的推理和漂移感知模型池更新;前者检测到最适合复杂性的模型组合的异常,后者会动态调整模型池以适合不断发展的数据流。在具有高维和概念拖延的十个数据集的全面实验中,Arcus提高了基于最先进的自动编码器的流媒体变体的异常检测准确性,并提高了最新的方法和最新的方法。 ART流动异常检测方法的分别为22%和37%。
translated by 谷歌翻译
数十年来,计算机系统持有大量个人数据。一方面,这种数据丰度允许在人工智能(AI),尤其是机器学习(ML)模型中突破。另一方面,它可能威胁用户的隐私并削弱人类与人工智能之间的信任。最近的法规要求,可以从一般情况下从计算机系统中删除有关用户的私人信息,特别是根据要求从ML模型中删除(例如,“被遗忘的权利”)。虽然从后端数据库中删除数据应该很简单,但在AI上下文中,它不够,因为ML模型经常“记住”旧数据。现有的对抗攻击证明,我们可以从训练有素的模型中学习私人会员或培训数据的属性。这种现象要求采用新的范式,即机器学习,以使ML模型忘记了特定的数据。事实证明,由于缺乏共同的框架和资源,最近在机器上学习的工作无法完全解决问题。在本调查文件中,我们试图在其定义,场景,机制和应用中对机器进行彻底的研究。具体而言,作为最先进的研究的类别集合,我们希望为那些寻求机器未学习的入门及其各种表述,设计要求,删除请求,算法和用途的人提供广泛的参考。 ML申请。此外,我们希望概述范式中的关键发现和趋势,并突出显示尚未看到机器无法使用的新研究领域,但仍可以受益匪浅。我们希望这项调查为ML研究人员以及寻求创新隐私技术的研究人员提供宝贵的参考。我们的资源是在https://github.com/tamlhp/awesome-machine-unlearning上。
translated by 谷歌翻译
最近,深度神经网络在时间序列的预测中越来越受欢迎。他们成功的主要原因是他们有效捕获多个相关时间序列的复杂时间动态的能力。这些深度预测者的优势才开始在有足够数量的数据的情况下开始出现。这对实践中的典型预测问题提出了挑战,在实践中,每个时间序列的时间序列或观察值有限,或者两者兼而有之。为了应对这些数据稀缺问题,我们提出了一个新颖的域适应框架,域适应预报员(DAF)。 DAF利用具有丰富数据样本(源)的相关领域的统计强度,以通过有限的数据(目标)提高感兴趣域的性能。特别是,我们使用基于注意力的共享模块,该模块与跨域跨域和私人模块的域歧视器一起使用。我们同时诱导域不变的潜在特征(查询和密钥)和重新培训特定特征(值),以使源和目标域上的预报员的联合训练。一个主要的见解是,我们对齐密钥的设计使目标域即使具有不同的特征也可以利用源时间序列。对各个领域的广泛实验表明,我们提出的方法在合成和现实世界数据集上优于最先进的基准,而消融研究验证了我们的设计选择的有效性。
translated by 谷歌翻译
深度学习模型已在解决财务时间序列分析问题,推翻常规机器学习和统计方法方面已成为主导。大多数情况下,由于市场条件固有的差异,经过培训的一个市场或安全性的模型不能直接应用于另一个市场或安全性。此外,随着市场随着时间的推移的发展,有必要在提供新数据时更新现有模型或培训新模型。这种情况是大多数财务预测应用程序固有的,自然会提出以下研究问题:如何有效地将预训练的模型适应新的数据集,同时保留旧数据的性能,尤其是当旧数据无法访问时?在本文中,我们提出了一种方法,可以有效保留在一组证券上预先培训的神经网络中可用的知识,并将其调整以实现新的证券。在我们的方法中,通过保持现有连接的固定来维护预先训练的神经网络中编码的先验知识,并且通过一组增强连接对新证券进行调整,并使用新数据对新证券进行了调整。辅助连接被限制为低级。这不仅使我们能够快速针对新任务进行优化,而且还可以降低部署阶段的存储和运行时间复杂性。我们的方法的效率在使用大规模限制订单数据集的股票中价运动预测问题中得到了经验验证。实验结果表明,我们的方法增强了预测性能,并减少了网络参数的总数。
translated by 谷歌翻译