卷积神经网络在分类方面表现出了显着的结果,但在即时学习新事物方面挣扎。我们提出了一种新颖的彩排方法,其中深度神经网络正在不断学习新的看不见的对象类别,而无需保存任何先前序列的数据。我们的方法称为召回,因为网络通过在培训新类别之前计算旧类别的逻辑来回忆类别。然后在培训期间使用这些,以避免更改旧类别。对于每个新序列,都会添加一个新的头部以适应新类别。为了减轻遗忘,我们提出了一种正规化策略,在该策略中我们用回归替换分类。此外,对于已知类别,我们提出了一个玛哈拉氏症损失,其中包括差异,以说明已知类别和未知类别之间的密度变化。最后,我们提供了一个用于持续学习的新颖数据集,尤其是适用于移动机器人(Hows-CL-25)上的对象识别的数据集,其中包括25个家庭对象类别的150,795个合成图像。我们的方法回忆起优于Core50和ICIFAR-100上的艺术现状,并在HOWS-CL-25上取得了最佳性能。
translated by 谷歌翻译
Continual Learning (CL) is a field dedicated to devise algorithms able to achieve lifelong learning. Overcoming the knowledge disruption of previously acquired concepts, a drawback affecting deep learning models and that goes by the name of catastrophic forgetting, is a hard challenge. Currently, deep learning methods can attain impressive results when the data modeled does not undergo a considerable distributional shift in subsequent learning sessions, but whenever we expose such systems to this incremental setting, performance drop very quickly. Overcoming this limitation is fundamental as it would allow us to build truly intelligent systems showing stability and plasticity. Secondly, it would allow us to overcome the onerous limitation of retraining these architectures from scratch with the new updated data. In this thesis, we tackle the problem from multiple directions. In a first study, we show that in rehearsal-based techniques (systems that use memory buffer), the quantity of data stored in the rehearsal buffer is a more important factor over the quality of the data. Secondly, we propose one of the early works of incremental learning on ViTs architectures, comparing functional, weight and attention regularization approaches and propose effective novel a novel asymmetric loss. At the end we conclude with a study on pretraining and how it affects the performance in Continual Learning, raising some questions about the effective progression of the field. We then conclude with some future directions and closing remarks.
translated by 谷歌翻译
人类智慧的主食是以不断的方式获取知识的能力。在Stark对比度下,深网络忘记灾难性,而且为此原因,类增量连续学习促进方法的子字段逐步学习一系列任务,将顺序获得的知识混合成综合预测。这项工作旨在评估和克服我们以前提案黑暗体验重播(Der)的陷阱,这是一种简单有效的方法,将排练和知识蒸馏结合在一起。灵感来自于我们的思想不断重写过去的回忆和对未来的期望,我们赋予了我的能力,即我的能力来修改其重播记忆,以欢迎有关过去数据II的新信息II)为学习尚未公开的课程铺平了道路。我们表明,这些策略的应用导致了显着的改进;实际上,得到的方法 - 被称为扩展-DAR(X-DER) - 优于标准基准(如CiFar-100和MiniimAgeNet)的技术状态,并且这里引入了一个新颖的。为了更好地了解,我们进一步提供了广泛的消融研究,以证实并扩展了我们以前研究的结果(例如,在持续学习设置中知识蒸馏和漂流最小值的价值)。
translated by 谷歌翻译
We motivate Energy-Based Models (EBMs) as a promising model class for continual learning problems. Instead of tackling continual learning via the use of external memory, growing models, or regularization, EBMs change the underlying training objective to cause less interference with previously learned information. Our proposed version of EBMs for continual learning is simple, efficient, and outperforms baseline methods by a large margin on several benchmarks. Moreover, our proposed contrastive divergence-based training objective can be combined with other continual learning methods, resulting in substantial boosts in their performance. We further show that EBMs are adaptable to a more general continual learning setting where the data distribution changes without the notion of explicitly delineated tasks. These observations point towards EBMs as a useful building block for future continual learning methods.
translated by 谷歌翻译
持续学习(CL)旨在制定模仿人类能力顺序学习新任务的能力,同时能够保留从过去经验获得的知识。在本文中,我们介绍了内存约束在线连续学习(MC-OCL)的新问题,这对存储器开销对可能算法可以用于避免灾难性遗忘的记忆开销。最多,如果不是全部,之前的CL方法违反了这些约束,我们向MC-OCL提出了一种算法解决方案:批量蒸馏(BLD),基于正则化的CL方法,有效地平衡了稳定性和可塑性,以便学习数据流,同时保留通过蒸馏解决旧任务的能力。我们在三个公开的基准测试中进行了广泛的实验评估,经验证明我们的方法成功地解决了MC-OCL问题,并实现了需要更高内存开销的先前蒸馏方法的可比准确性。
translated by 谷歌翻译
物联网系统中的微型机器学习(Tinyml)利用MCU作为数据处理的边缘设备。但是,传统的Tinyml方法只能执行推理,仅限于静态环境或类。真实情况通常在动态环境中起作用,从而将原始神经模型不再合适的上下文漂移。因此,预训练的模型降低了其一生中的准确性和可靠性,因为记录的数据缓慢变为过时或出现新模式。连续学习策略通过对参数进行运行时进行微调维护模型。本文比较了两个实际应用中的四种最新算法:i)基于加速度计数据的手势识别和ii)图像分类。我们的结果证实了这些系统的可靠性以及将它们部署到微小的MCUS中的可行性,相对于无约束计算平台的原始模型的精确度下降了几个百分点。
translated by 谷歌翻译
在不忘记以前的任务的情况下不断获得新知识的能力仍然是计算机视觉系统的具有挑战性问题。标准的持续学习基准专注于在离线设置中从静态IID图像学习。在这里,我们研究了一个更具挑战性和现实的在线持续学习问题,称为在线流学习。像人类一样,一些AI代理必须从连续的不重复数据流逐步学习。我们提出了一种新颖的模型,假设驱动的增强存储器网络(HAMN),其有效地使用“假设”的增强内存矩阵来巩固先前的知识,并重播重建的图像特征以避免灾难性的遗忘。与像素级和生成的重播方法相比,Hamn的优点是两倍。首先,基于假设的知识合并避免了图像像素空间中的冗余信息,并使内存使用更有效。其次,增强记忆中的假设可以重新用于学习新任务,提高泛化和转移学习能力。鉴于视频流缺乏在线增量类学习数据集,我们介绍并调整两个额外的视频数据集,Toybox和Ilab,用于在线流学习。我们还在Core50和在线CIFAR100数据集上评估我们的方法。我们的方法显着优于所有最先进的方法,同时提供更有效的内存使用情况。所有源代码和数据都在https://github.com/kreimanlab/augmem公开使用
translated by 谷歌翻译
我们提出了一种有效的正则化战略(CW-TALAR),用于解决持续的学习问题。它使用由在由所有任务共享的底层神经网络的目标层上定义的两个概率分布之间的校准术语,该概率分布在由所有任务共享的底层神经网络的目标层,以及用于建模输出数据表示的克拉米 - WOLD发生器的简单架构。我们的策略在学习新任务时保留了目标层分发,但不需要记住以前的任务的数据集。我们执行涉及几个常见监督框架的实验,该框架证明了CW-TALAR方法的竞争力与一些现有的现有最先进的持续学习模型相比。
translated by 谷歌翻译
Neural networks are prone to catastrophic forgetting when trained incrementally on different tasks. Popular incremental learning methods mitigate such forgetting by retaining a subset of previously seen samples and replaying them during the training on subsequent tasks. However, this is not always possible, e.g., due to data protection regulations. In such restricted scenarios, one can employ generative models to replay either artificial images or hidden features to a classifier. In this work, we propose Genifer (GENeratIve FEature-driven image Replay), where a generative model is trained to replay images that must induce the same hidden features as real samples when they are passed through the classifier. Our technique therefore incorporates the benefits of both image and feature replay, i.e.: (1) unlike conventional image replay, our generative model explicitly learns the distribution of features that are relevant for classification; (2) in contrast to feature replay, our entire classifier remains trainable; and (3) we can leverage image-space augmentations, which increase distillation performance while also mitigating overfitting during the training of the generative model. We show that Genifer substantially outperforms the previous state of the art for various settings on the CIFAR-100 and CUB-200 datasets.
translated by 谷歌翻译
Despite significant advances, the performance of state-of-the-art continual learning approaches hinges on the unrealistic scenario of fully labeled data. In this paper, we tackle this challenge and propose an approach for continual semi-supervised learning -- a setting where not all the data samples are labeled. An underlying issue in this scenario is the model forgetting representations of unlabeled data and overfitting the labeled ones. We leverage the power of nearest-neighbor classifiers to non-linearly partition the feature space and learn a strong representation for the current task, as well as distill relevant information from previous tasks. We perform a thorough experimental evaluation and show that our method outperforms all the existing approaches by large margins, setting a strong state of the art on the continual semi-supervised learning paradigm. For example, on CIFAR100 we surpass several others even when using at least 30 times less supervision (0.8% vs. 25% of annotations).
translated by 谷歌翻译
Artificial neural networks thrive in solving the classification problem for a particular rigid task, acquiring knowledge through generalized learning behaviour from a distinct training phase. The resulting network resembles a static entity of knowledge, with endeavours to extend this knowledge without targeting the original task resulting in a catastrophic forgetting. Continual learning shifts this paradigm towards networks that can continually accumulate knowledge over different tasks without the need to retrain from scratch. We focus on task incremental classification, where tasks arrive sequentially and are delineated by clear boundaries. Our main contributions concern (1) a taxonomy and extensive overview of the state-of-the-art; (2) a novel framework to continually determine the stability-plasticity trade-off of the continual learner; (3) a comprehensive experimental comparison of 11 state-of-the-art continual learning methods and 4 baselines. We empirically scrutinize method strengths and weaknesses on three benchmarks, considering Tiny Imagenet and large-scale unbalanced iNaturalist and a sequence of recognition datasets. We study the influence of model capacity, weight decay and dropout regularization, and the order in which the tasks are presented, and qualitatively compare methods in terms of required memory, computation time and storage.
translated by 谷歌翻译
人类的持续学习(CL)能力与稳定性与可塑性困境密切相关,描述了人类如何实现持续的学习能力和保存的学习信息。自发育以来,CL的概念始终存在于人工智能(AI)中。本文提出了对CL的全面审查。与之前的评论不同,主要关注CL中的灾难性遗忘现象,本文根据稳定性与可塑性机制的宏观视角来调查CL。类似于生物对应物,“智能”AI代理商应该是I)记住以前学到的信息(信息回流); ii)不断推断新信息(信息浏览:); iii)转移有用的信息(信息转移),以实现高级CL。根据分类学,评估度量,算法,应用以及一些打开问题。我们的主要贡献涉及I)从人工综合情报层面重新检查CL; ii)在CL主题提供详细和广泛的概述; iii)提出一些关于CL潜在发展的新颖思路。
translated by 谷歌翻译
当神经网络失去先前从不同分布的样本(即新任务)培训一组样本时,发生灾难性遗忘(CF)。现有方法在减轻CF方面取得了显着的结果,尤其是在称为任务增量学习的情况下。但是,这种情况是不现实的,并且已经完成了有限的工作以在更现实的情况下取得良好的结果。在本文中,我们提出了一种称为Centroid匹配的新型正则化方法,该方法受到元学习方法的启发,通过在神经网络产生的功能空间中操作来打击CF,在需要较小的记忆足迹的同时,取得了良好的结果。具体而言,该方法使用神经网络产生的特征向量直接对样品进行了分类,通过将这些向量与代表当前任务中的类或所有任务的质心匹配,直到该点。质心匹配速度比竞争基线更快,并且可以通过在过去的任务结束时保留模型产生的嵌入式空间之间的距离,并且可以利用它有效地减轻CF,而当前生产的距离则可以实现高精度的方法在所有任务上,在轻松场景上操作时,或不使用外部内存,或者将小型内存用于更现实的记忆。广泛的实验表明,匹配的质心在多个数据集和方案上取得了准确的提高。
translated by 谷歌翻译
持续学习旨在快速,不断地从一系列任务中学习当前的任务。与其他类型的方法相比,基于经验重播的方法表现出了极大的优势来克服灾难性的遗忘。该方法的一个常见局限性是上一个任务和当前任务之间的数据不平衡,这将进一步加剧遗忘。此外,如何在这种情况下有效解决稳定性困境也是一个紧迫的问题。在本文中,我们通过提出一个通过多尺度知识蒸馏和数据扩展(MMKDDA)提出一个名为Meta学习更新的新框架来克服这些挑战。具体而言,我们应用多尺度知识蒸馏来掌握不同特征级别的远程和短期空间关系的演变,以减轻数据不平衡问题。此外,我们的方法在在线持续训练程序中混合了来自情节记忆和当前任务的样品,从而减轻了由于概率分布的变化而减轻了侧面影响。此外,我们通过元学习更新来优化我们的模型,该更新诉诸于前面所看到的任务数量,这有助于保持稳定性和可塑性之间的更好平衡。最后,我们对四个基准数据集的实验评估显示了提出的MMKDDA框架对其他流行基线的有效性,并且还进行了消融研究,以进一步分析每个组件在我们的框架中的作用。
translated by 谷歌翻译
深入学习在物体识别任务中取得了显着的成功,通过像想象成像的大规模数据集的可用性。然而,在没有重放旧数据的情况下逐步学习时,深度学习系统遭受灾难性的遗忘。对于真实世界的应用,机器人还需要逐步学习新对象。此外,由于机器人提供有限的人类援助,他们必须只能从几个例子中学习。但是,非常少量的对象识别数据集和基准测试以测试机器人视觉的增量学习能力。此外,没有专门为几个例子提供用于增量对象学习的数据集或基准。为了填补这个差距,我们呈现了一个新的DataSet称为F-Siol-310(几次增量对象学习),该数据集专门捕获用于测试机器人视觉的少量增量对象学习能力。我们还提供了在F-SIOL-310上的8个增量学习算法的基准和评估,以备将来的比较。我们的结果表明,机器人视觉的几次射击增量对象学习问题远未解决。
translated by 谷歌翻译
持续深度学习的领域是一个新兴领域,已经取得了很多进步。但是,同时仅根据图像分类的任务进行了大多数方法,这在智能车辆领域无关。直到最近才提出了班级开展语义分割的方法。但是,所有这些方法都是基于某种形式的知识蒸馏。目前,尚未对基于重播的方法进行调查,这些方法通常在连续的环境中用于对象识别。同时,尽管无监督的语义分割的域适应性获得了很多吸引力,但在持续环境中有关域内收入学习的调查并未得到充分研究。因此,我们工作的目的是评估和调整已建立的解决方案,以连续对象识别语义分割任务,并为连续语义分割的任务提供基线方法和评估协议。首先,我们介绍了类和域内的分割的评估协议,并分析了选定的方法。我们表明,语义分割变化的任务的性质在减轻与图像分类相比最有效的方法中最有效。特别是,在课堂学习中,学习知识蒸馏被证明是至关重要的工具,而在域内,学习重播方法是最有效的方法。
translated by 谷歌翻译
持续的学习是遭受灾难性的遗忘,这是一个早期学识渊博的概念被遗忘的现象,以牺牲更新的样本。在这项工作中,我们挑战持续学习不可避免地与灾难性忘记相关的假设,通过展示一系列令人惊讶的是在不断学习时令人惊讶地没有灾难性的遗忘遗忘。我们提供了证据表明,这些重建类型任务表现出正向转移,并且单视网型重建随着时间的推移提高了学习和新型类别的性能。通过查看顺序学习任务的产出分配转移,我们提供了对知识转移能力的新颖分析。最后,我们表明这些任务的稳健性导致具有用于连续分类的代理代表学习任务的可能性。可以在https://github.com/rehg-lab/lrorec中找到与本文发布的CodeBase,DataSet和预训练模型。
translated by 谷歌翻译
我们引入了一个新的培训范式,该范围对神经网络参数空间进行间隔约束以控制遗忘。当代持续学习(CL)方法从一系列数据流有效地培训神经网络,同时减少灾难性遗忘的负面影响,但它们不能提供任何确保的确保网络性能不会随着时间的流逝而无法控制地恶化。在这项工作中,我们展示了如何通过将模型的持续学习作为其参数空间的持续收缩来遗忘。为此,我们提出了Hypertrectangle训练,这是一种新的训练方法,其中每个任务都由参数空间中的超矩形表示,完全包含在先前任务的超矩形中。这种配方将NP-HARD CL问题降低到多项式时间,同时提供了完全防止遗忘的弹性。我们通过开发Intercontinet(间隔持续学习)算法来验证我们的主张,该算法利用间隔算术来有效地将参数区域建模为高矩形。通过实验结果,我们表明我们的方法在不连续的学习设置中表现良好,而无需存储以前的任务中的数据。
translated by 谷歌翻译
恶意软件(恶意软件)分类为持续学习(CL)制度提供了独特的挑战,这是由于每天收到的新样本的数量以及恶意软件的发展以利用新漏洞。在典型的一天中,防病毒供应商将获得数十万个独特的软件,包括恶意和良性,并且在恶意软件分类器的一生中,有超过十亿个样品很容易积累。鉴于问题的规模,使用持续学习技术的顺序培训可以在减少培训和存储开销方面提供可观的好处。但是,迄今为止,还没有对CL应用于恶意软件分类任务的探索。在本文中,我们研究了11种应用于三个恶意软件任务的CL技术,涵盖了常见的增量学习方案,包括任务,类和域增量学习(IL)。具体而言,使用两个现实的大规模恶意软件数据集,我们评估了CL方法在二进制恶意软件分类(domain-il)和多类恶意软件家庭分类(Task-IL和类IL)任务上的性能。令我们惊讶的是,在几乎所有情况下,持续的学习方法显着不足以使训练数据的幼稚关节重播 - 在某些情况下,将精度降低了70个百分点以上。与关节重播相比,有选择性重播20%的存储数据的一种简单方法可以实现更好的性能,占训练时间的50%。最后,我们讨论了CL技术表现出乎意料差的潜在原因,希望它激发进一步研究在恶意软件分类域中更有效的技术。
translated by 谷歌翻译
我们研究深度神经网络中不同的输出层如何学习并忘记在持续的学习环境中。以下三个因素可能会影响输出层中的灾难性忘记:(1)权重修改,(2)干扰和(3)投影漂移。在本文中,我们的目标是提供更多关于如何改变输出层可以解决(1)和(2)的洞察。在几个连续学习情景中提出并评估了这些问题的一些潜在解决方案。我们表明,最佳执行类型的输出层取决于数据分布漂移和/或可用数据量。特别地,在某些情况下,在某些情况下,标准线性层将失败,结果改变参数化是足够的,以便实现显着更好的性能,从而引入持续学习算法,而是使用标准SGD训练模型。我们的分析和结果在连续学习场景中输出层动态的阐明,并表明了一种选择给定场景的最佳输出层的方法。
translated by 谷歌翻译