恶意软件(恶意软件)分类为持续学习(CL)制度提供了独特的挑战,这是由于每天收到的新样本的数量以及恶意软件的发展以利用新漏洞。在典型的一天中,防病毒供应商将获得数十万个独特的软件,包括恶意和良性,并且在恶意软件分类器的一生中,有超过十亿个样品很容易积累。鉴于问题的规模,使用持续学习技术的顺序培训可以在减少培训和存储开销方面提供可观的好处。但是,迄今为止,还没有对CL应用于恶意软件分类任务的探索。在本文中,我们研究了11种应用于三个恶意软件任务的CL技术,涵盖了常见的增量学习方案,包括任务,类和域增量学习(IL)。具体而言,使用两个现实的大规模恶意软件数据集,我们评估了CL方法在二进制恶意软件分类(domain-il)和多类恶意软件家庭分类(Task-IL和类IL)任务上的性能。令我们惊讶的是,在几乎所有情况下,持续的学习方法显着不足以使训练数据的幼稚关节重播 - 在某些情况下,将精度降低了70个百分点以上。与关节重播相比,有选择性重播20%的存储数据的一种简单方法可以实现更好的性能,占训练时间的50%。最后,我们讨论了CL技术表现出乎意料差的潜在原因,希望它激发进一步研究在恶意软件分类域中更有效的技术。
translated by 谷歌翻译
Artificial neural networks thrive in solving the classification problem for a particular rigid task, acquiring knowledge through generalized learning behaviour from a distinct training phase. The resulting network resembles a static entity of knowledge, with endeavours to extend this knowledge without targeting the original task resulting in a catastrophic forgetting. Continual learning shifts this paradigm towards networks that can continually accumulate knowledge over different tasks without the need to retrain from scratch. We focus on task incremental classification, where tasks arrive sequentially and are delineated by clear boundaries. Our main contributions concern (1) a taxonomy and extensive overview of the state-of-the-art; (2) a novel framework to continually determine the stability-plasticity trade-off of the continual learner; (3) a comprehensive experimental comparison of 11 state-of-the-art continual learning methods and 4 baselines. We empirically scrutinize method strengths and weaknesses on three benchmarks, considering Tiny Imagenet and large-scale unbalanced iNaturalist and a sequence of recognition datasets. We study the influence of model capacity, weight decay and dropout regularization, and the order in which the tasks are presented, and qualitatively compare methods in terms of required memory, computation time and storage.
translated by 谷歌翻译
We motivate Energy-Based Models (EBMs) as a promising model class for continual learning problems. Instead of tackling continual learning via the use of external memory, growing models, or regularization, EBMs change the underlying training objective to cause less interference with previously learned information. Our proposed version of EBMs for continual learning is simple, efficient, and outperforms baseline methods by a large margin on several benchmarks. Moreover, our proposed contrastive divergence-based training objective can be combined with other continual learning methods, resulting in substantial boosts in their performance. We further show that EBMs are adaptable to a more general continual learning setting where the data distribution changes without the notion of explicitly delineated tasks. These observations point towards EBMs as a useful building block for future continual learning methods.
translated by 谷歌翻译
Continual Learning (CL) is a field dedicated to devise algorithms able to achieve lifelong learning. Overcoming the knowledge disruption of previously acquired concepts, a drawback affecting deep learning models and that goes by the name of catastrophic forgetting, is a hard challenge. Currently, deep learning methods can attain impressive results when the data modeled does not undergo a considerable distributional shift in subsequent learning sessions, but whenever we expose such systems to this incremental setting, performance drop very quickly. Overcoming this limitation is fundamental as it would allow us to build truly intelligent systems showing stability and plasticity. Secondly, it would allow us to overcome the onerous limitation of retraining these architectures from scratch with the new updated data. In this thesis, we tackle the problem from multiple directions. In a first study, we show that in rehearsal-based techniques (systems that use memory buffer), the quantity of data stored in the rehearsal buffer is a more important factor over the quality of the data. Secondly, we propose one of the early works of incremental learning on ViTs architectures, comparing functional, weight and attention regularization approaches and propose effective novel a novel asymmetric loss. At the end we conclude with a study on pretraining and how it affects the performance in Continual Learning, raising some questions about the effective progression of the field. We then conclude with some future directions and closing remarks.
translated by 谷歌翻译
人类的持续学习(CL)能力与稳定性与可塑性困境密切相关,描述了人类如何实现持续的学习能力和保存的学习信息。自发育以来,CL的概念始终存在于人工智能(AI)中。本文提出了对CL的全面审查。与之前的评论不同,主要关注CL中的灾难性遗忘现象,本文根据稳定性与可塑性机制的宏观视角来调查CL。类似于生物对应物,“智能”AI代理商应该是I)记住以前学到的信息(信息回流); ii)不断推断新信息(信息浏览:); iii)转移有用的信息(信息转移),以实现高级CL。根据分类学,评估度量,算法,应用以及一些打开问题。我们的主要贡献涉及I)从人工综合情报层面重新检查CL; ii)在CL主题提供详细和广泛的概述; iii)提出一些关于CL潜在发展的新颖思路。
translated by 谷歌翻译
持续学习(CL)旨在开发单一模型适应越来越多的任务的技术,从而潜在地利用跨任务的学习以资源有效的方式。 CL系统的主要挑战是灾难性的遗忘,在学习新任务时忘记了早期的任务。为了解决此问题,基于重播的CL方法在遇到遇到任务中选择的小缓冲区中维护和重复培训。我们提出梯度Coreset重放(GCR),一种新颖的重播缓冲区选择和使用仔细设计的优化标准的更新策略。具体而言,我们选择并维护一个“Coreset”,其与迄今为止关于当前模型参数的所有数据的梯度紧密近似,并讨论其有效应用于持续学习设置所需的关键策略。在学习的离线持续学习环境中,我们在最先进的最先进的最先进的持续学习环境中表现出显着的收益(2%-4%)。我们的调查结果还有效地转移到在线/流媒体CL设置,从而显示现有方法的5%。最后,我们展示了持续学习的监督对比损失的价值,当与我们的子集选择策略相结合时,累计增益高达5%。
translated by 谷歌翻译
持续的学习方法通​​过试图解决灾难性遗忘来帮助深度神经网络模型适应和逐步学习。但是,无论这些现有方法是否传统上应用于基于图像的任务,都具有与移动或嵌入式传感系统生成的顺序时间序列数据相同的疗效仍然是一个未解决的问题。为了解决这一空白,我们进行了第一项全面的经验研究,该研究量化了三个主要的持续学习方案的性能(即,在三个移动和嵌入式感应应用程序中的六个数据集中的三个主要的持续学习方案(即正规化,重播和重播)的性能。不同的学习复杂性。更具体地说,我们在Edge设备上实现了端到端连续学习框架。然后,我们研究了不同持续学习方法的性能,存储,计算成本和记忆足迹之间的普遍性,权衡。我们的发现表明,以示例性计划(例如ICARL)重播,即使在复杂的场景中,甚至在复杂的场景中都具有最佳的性能权衡,以牺牲一些存储空间(少数MB)来训练示例(1%至5%)。我们还首次证明,以有限的记忆预算进行连续学习,可行和实用。特别是,两种类型的移动设备和嵌入式设备的延迟表明,可以接受递增的学习时间(几秒钟-4分钟)和培训时间(1-75分钟),可以接受,因为嵌入式嵌入式时可能会在设备上进行培训设备正在充电,从而确保完整的数据隐私。最后,我们为希望将不断学习范式应用于移动传感任务的从业者提供了一些准则。
translated by 谷歌翻译
一组复杂的机制促进了大脑中的持续学习(CL)。这包括用于整合信息的多个内存系统的相互作用,如互补学习系统(CLS)理论和突触巩固,以保护获得的知识免受擦除。因此,我们提出了一种通用CL方法,该方法在突触巩固和双重记忆体验重播(Synergy)之间产生协同作用。我们的方法保持语义记忆,该记忆积累并巩固了整个任务中的信息,并与情节内存进行交互以有效重播。它通过跟踪训练轨迹期间参数的重要性并将其固定在语义内存中的巩固参数中,进一步采用了突触巩固。据我们所知,我们的研究是第一个与突触合并一起使用双重记忆体验重播的,该合并适用于一般CL,网络在培训或推理过程中不利用任务边界或任务标签。我们对各种具有挑战性的CL情景和特征分析的评估表明,将突触巩固和CLS理论纳入启用DNN中的有效CL的功效。
translated by 谷歌翻译
深层神经网络由于灾难性忘记了以前学习的任务而难以不断学习多个顺序任务。基于排练的方法将以前的任务样本明确存储在缓冲区中,并将其与当前的任务样本交​​织在一起,这被证明是缓解遗忘的最有效的方法。但是,由于其性能与缓冲区的大小相称,因此在低缓冲机制和更长的任务序列下,经验重播(ER)表现不佳。软目标预测的一致性可以帮助ER保存与先前任务有关的信息,因为软目标捕获了数据的丰富相似性结构。因此,我们研究了在各种持续学习方案下,一致性正则化在ER框架中的作用。我们还建议将一致性正规化作为一个自制的借口任务,从而使使用各种自我监督的学习方法作为正规化者。同时增强了对自然腐败的模型校准和鲁棒性,但规范预测的一致性会导致在所有持续学习场景中遗忘。在不同的正规化家族中,我们发现更严格的一致性约束可以更好地保留先前的任务信息。
translated by 谷歌翻译
持续学习旨在快速,不断地从一系列任务中学习当前的任务。与其他类型的方法相比,基于经验重播的方法表现出了极大的优势来克服灾难性的遗忘。该方法的一个常见局限性是上一个任务和当前任务之间的数据不平衡,这将进一步加剧遗忘。此外,如何在这种情况下有效解决稳定性困境也是一个紧迫的问题。在本文中,我们通过提出一个通过多尺度知识蒸馏和数据扩展(MMKDDA)提出一个名为Meta学习更新的新框架来克服这些挑战。具体而言,我们应用多尺度知识蒸馏来掌握不同特征级别的远程和短期空间关系的演变,以减轻数据不平衡问题。此外,我们的方法在在线持续训练程序中混合了来自情节记忆和当前任务的样品,从而减轻了由于概率分布的变化而减轻了侧面影响。此外,我们通过元学习更新来优化我们的模型,该更新诉诸于前面所看到的任务数量,这有助于保持稳定性和可塑性之间的更好平衡。最后,我们对四个基准数据集的实验评估显示了提出的MMKDDA框架对其他流行基线的有效性,并且还进行了消融研究,以进一步分析每个组件在我们的框架中的作用。
translated by 谷歌翻译
古典机器学习者仅设计用于解决一项任务,而无需采用新的新兴任务或课程,而这种能力在现实世界中更实用和人类。为了解决这种缺点,阐述了持续的机器学习者,以表彰使用域和班级的任务流,不同的任务之间的转变。在本文中,我们提出了一种基于一个基于对比的连续学习方法,其能够处理多个持续学习场景。具体地,我们通过特征传播和对比表示学习来对准当前和先前的表示空间来弥合不同任务之间的域移位。为了进一步减轻特征表示的类别的班次,利用了监督的对比损失以使与不同类别的相同类的示例嵌入。广泛的实验结果表明,与一组尖端连续学习方法相比,六个连续学习基准中提出的方法的出色性能。
translated by 谷歌翻译
Lack of performance when it comes to continual learning over non-stationary distributions of data remains a major challenge in scaling neural network learning to more human realistic settings. In this work we propose a new conceptualization of the continual learning problem in terms of a temporally symmetric trade-off between transfer and interference that can be optimized by enforcing gradient alignment across examples. We then propose a new algorithm, Meta-Experience Replay (MER), that directly exploits this view by combining experience replay with optimization based meta-learning. This method learns parameters that make interference based on future gradients less likely and transfer based on future gradients more likely. 1 We conduct experiments across continual lifelong supervised learning benchmarks and non-stationary reinforcement learning environments demonstrating that our approach consistently outperforms recently proposed baselines for continual learning. Our experiments show that the gap between the performance of MER and baseline algorithms grows both as the environment gets more non-stationary and as the fraction of the total experiences stored gets smaller.
translated by 谷歌翻译
人类智慧的主食是以不断的方式获取知识的能力。在Stark对比度下,深网络忘记灾难性,而且为此原因,类增量连续学习促进方法的子字段逐步学习一系列任务,将顺序获得的知识混合成综合预测。这项工作旨在评估和克服我们以前提案黑暗体验重播(Der)的陷阱,这是一种简单有效的方法,将排练和知识蒸馏结合在一起。灵感来自于我们的思想不断重写过去的回忆和对未来的期望,我们赋予了我的能力,即我的能力来修改其重播记忆,以欢迎有关过去数据II的新信息II)为学习尚未公开的课程铺平了道路。我们表明,这些策略的应用导致了显着的改进;实际上,得到的方法 - 被称为扩展-DAR(X-DER) - 优于标准基准(如CiFar-100和MiniimAgeNet)的技术状态,并且这里引入了一个新颖的。为了更好地了解,我们进一步提供了广泛的消融研究,以证实并扩展了我们以前研究的结果(例如,在持续学习设置中知识蒸馏和漂流最小值的价值)。
translated by 谷歌翻译
Despite significant advances, the performance of state-of-the-art continual learning approaches hinges on the unrealistic scenario of fully labeled data. In this paper, we tackle this challenge and propose an approach for continual semi-supervised learning -- a setting where not all the data samples are labeled. An underlying issue in this scenario is the model forgetting representations of unlabeled data and overfitting the labeled ones. We leverage the power of nearest-neighbor classifiers to non-linearly partition the feature space and learn a strong representation for the current task, as well as distill relevant information from previous tasks. We perform a thorough experimental evaluation and show that our method outperforms all the existing approaches by large margins, setting a strong state of the art on the continual semi-supervised learning paradigm. For example, on CIFAR100 we surpass several others even when using at least 30 times less supervision (0.8% vs. 25% of annotations).
translated by 谷歌翻译
对非平稳数据流的持续学习(CL)仍然是深层神经网络(DNN)的长期挑战之一,因为它们容易出现灾难性的遗忘。 CL模型可以从自我监督的预训练中受益,因为它可以学习更具概括性的任务不可能的功能。但是,随着任务序列的长度的增加,自我监督的预训练的影响会减少。此外,域前训练数据分布和任务分布之间的域转移降低了学习表示的普遍性。为了解决这些局限性,我们建议任务不可知代表合并(TARC),这是CL的两阶段培训范式,它交织了任务 - 诺斯局和特定于任务的学习,从而自欺欺人的培训,然后为每个任务进行监督学习。为了进一步限制在自我监督阶段的偏差,我们在监督阶段采用了任务不可屈服的辅助损失。我们表明,我们的培训范式可以轻松地添加到基于内存或正则化的方法中,并在更具挑战性的CL设置中提供一致的性能增长。我们进一步表明,它导致更健壮和校准的模型。
translated by 谷歌翻译
持续学习的目标(CL)是随着时间的推移学习不同的任务。与CL相关的主要Desiderata是在旧任务上保持绩效,利用后者来改善未来任务的学习,并在培训过程中引入最小的开销(例如,不需要增长的模型或再培训)。我们建议通过固定密度的稀疏神经网络来解决这些避难所的神经启发性塑性适应(NISPA)体系结构。 NISPA形成了稳定的途径,可以从较旧的任务中保存知识。此外,NISPA使用连接重新设计来创建新的塑料路径,以重用有关新任务的现有知识。我们对EMNIST,FashionMnist,CIFAR10和CIFAR100数据集的广泛评估表明,NISPA的表现明显胜过代表性的最先进的持续学习基线,并且与盆地相比,它的可学习参数最多少了十倍。我们还认为稀疏是持续学习的重要组成部分。 NISPA代码可在https://github.com/burakgurbuz97/nispa上获得。
translated by 谷歌翻译
近年来,在数字病理应用中,在研究和临床环境中越来越普遍的部署这些模型的部署证明了在数字病理应用中的深度学习模型的开发方面取得了巨大进步。尽管此类模型在解决DP应用程序中的基本计算任务方面表现出了前所未有的表现,但在适应转移学习的看不见数据时,它们会遭受灾难性的遗忘。随着对深度学习模型的需求越来越多地处理不断变化的数据分布,包括不断发展的患者人群和新的诊断测定法,持续的学习模型减轻了模型忘记的遗忘,需要在基于DP的分析中引入。但是,据我们所知,没有针对DP特定应用的此类模型的系统研究。在这里,我们提出了DP设置中的CL方案,其中的组织病理学图像数据来自不同来源/分布,其知识已集成到单个模型中,而无需从头开始训练所有数据。然后,我们建立了一个用于结直肠癌H&E分类的增强数据集,以模拟图像外观的变化,并在拟议的CL方案中评估了CL模型性能。我们利用乳腺肿瘤H&E数据集以及结直肠癌来评估不同肿瘤类型的CL。此外,我们在注释和计算资源的限制下在在线几弹性设置中评估了CL方法。我们揭示了DP应用中CL的有希望的结果,这可能为这些方法在临床实践中的应用铺平了道路。
translated by 谷歌翻译
在线持续学习是一个充满挑战的学习方案,模型必须从非平稳的数据流中学习,其中每个样本只能看到一次。主要的挑战是在避免灾难性遗忘的同时逐步学习,即在从新数据中学习时忘记先前获得的知识的问题。在这种情况下,一种流行的解决方案是使用较小的内存来保留旧数据并随着时间的推移进行排练。不幸的是,由于内存尺寸有限,随着时间的推移,内存的质量会恶化。在本文中,我们提出了OLCGM,这是一种基于新型重放的持续学习策略,该策略使用知识冷凝技术连续压缩记忆并更好地利用其有限的尺寸。样品冷凝步骤压缩了旧样品,而不是像其他重播策略那样将其删除。结果,实验表明,每当与数据的复杂性相比,每当记忆预算受到限制,OLCGM都会提高与最先进的重播策略相比的最终准确性。
translated by 谷歌翻译
机器学习的一个显着缺点是模型能够更快地解决新问题,而不会忘记获得的知识。为了更好地理解这个问题,已经出现了持续的学习来系统地调查学习协议,其中模型顺序地观察由一系列任务产生的样本。首先,我们提出了一种促进学习和遗忘之间进行权衡的最优性原则。我们从有界合理性的信息化学制定中获得了这一原则,并显示了与其他连续学习方法的联系。其次,基于这一原则,我们提出了一种神经网络层,用于持续学习,称为变分的专家(移动),缓解遗忘,同时使知识有益转移到新任务。我们对MNIST和CIFAR10数据集的变型的实验表明,与最先进的方法相比,移动层的竞争性能。
translated by 谷歌翻译
Attempts to train a comprehensive artificial intelligence capable of solving multiple tasks have been impeded by a chronic problem called catastrophic forgetting.Although simply replaying all previous data alleviates the problem, it requires large memory and even worse, often infeasible in real world applications where the access to past data is limited. Inspired by the generative nature of the hippocampus as a short-term memory system in primate brain, we propose the Deep Generative Replay, a novel framework with a cooperative dual model architecture consisting of a deep generative model ("generator") and a task solving model ("solver"). With only these two models, training data for previous tasks can easily be sampled and interleaved with those for a new task. We test our methods in several sequential learning settings involving image classification tasks.
translated by 谷歌翻译