人类可以不断学习新知识。但是,在学习新任务后,机器学习模型在以前的任务上的性能急剧下降。认知科学指出,类似知识的竞争是遗忘的重要原因。在本文中,我们根据大脑的元学习和关联机制设计了一个用于终身学习的范式。它从两个方面解决了问题:提取知识和记忆知识。首先,我们通过背景攻击破坏样本的背景分布,从而增强了模型以提取每个任务的关键特征。其次,根据增量知识和基础知识之间的相似性,我们设计了增量知识的自适应融合,这有助于模型将能力分配到不同困难的知识。理论上分析了所提出的学习范式可以使不同任务的模型收敛到相同的最优值。提出的方法已在MNIST,CIFAR100,CUB200和ImagEnet100数据集上进行了验证。
translated by 谷歌翻译
当随着时间的推移学习任务时,人工神经网络遭受称为灾难性遗忘(CF)的问题。当在训练网络的训练过程中覆盖网络的权重,导致忘记旧信息的新任务时,会发生这种情况。为了解决这个问题,我们提出了META可重复使用的知识或标记,这是一种新的方法,可以在学习新任务时促进重量可重用性而不是覆盖。具体来说,标记在任务之间保留一组共享权重。我们将这些共享权重设定为共同的知识库(KB),不仅用于学习新任务,而且还富有以丰富的新知识,因为模型了解新任务。标记背后的关键组件是两倍。一方面,冶金学习方法提供了逐步丰富KB的关键机制,并在任务之间促进重量可重用性。另一方面,一组培训掩模提供了选择性地从KB相关权重中选择的关键机制来解决每个任务。通过使用Mark,我们实现了最普遍的基准,在几个流行的基准中实现了最新的基准,在20分拆性MiniimAgenet数据集上超过了平均精度的最佳性能方法,同时使用55%的数量来实现几乎零遗忘参数。此外,消融研究提供了证据,实际上,标记正在学习每个任务选择性地使用的可重复使用的知识。
translated by 谷歌翻译
持续学习旨在快速,不断地从一系列任务中学习当前的任务。与其他类型的方法相比,基于经验重播的方法表现出了极大的优势来克服灾难性的遗忘。该方法的一个常见局限性是上一个任务和当前任务之间的数据不平衡,这将进一步加剧遗忘。此外,如何在这种情况下有效解决稳定性困境也是一个紧迫的问题。在本文中,我们通过提出一个通过多尺度知识蒸馏和数据扩展(MMKDDA)提出一个名为Meta学习更新的新框架来克服这些挑战。具体而言,我们应用多尺度知识蒸馏来掌握不同特征级别的远程和短期空间关系的演变,以减轻数据不平衡问题。此外,我们的方法在在线持续训练程序中混合了来自情节记忆和当前任务的样品,从而减轻了由于概率分布的变化而减轻了侧面影响。此外,我们通过元学习更新来优化我们的模型,该更新诉诸于前面所看到的任务数量,这有助于保持稳定性和可塑性之间的更好平衡。最后,我们对四个基准数据集的实验评估显示了提出的MMKDDA框架对其他流行基线的有效性,并且还进行了消融研究,以进一步分析每个组件在我们的框架中的作用。
translated by 谷歌翻译
通过回顾他们之前看到的类似未腐败的图像,人类的注意力可以直观地适应图像的损坏区域。这种观察结果激发了我们通过考虑清洁的对应物来提高对抗性图像的注意。为了实现这一目标,我们将联想的对抗性学习(aal)介绍进入对抗的学习,以指导选择性攻击。我们为引人注目和攻击(扰动)之间的内在关系作为提高其互动的耦合优化问题。这导致注意反向触发算法,可以有效提高注意力的对抗鲁棒性。我们的方法是通用的,可用于通过简单选择不同的核来解决各种任务,以便为特定攻击选择其他区域的关联注意。实验结果表明,选择性攻击提高了模型的性能。我们表明,与基线相比,我们的方法提高了8.32%对想象成的识别准确性。它还将Pascalvoc的物体检测图提高了2.02%,并在MiniimAgenet上的几次学习识别准确性为1.63%。
translated by 谷歌翻译
增量任务学习(ITL)是一个持续学习的类别,试图培训单个网络以进行多个任务(一个接一个),其中每个任务的培训数据仅在培训该任务期间可用。当神经网络接受较新的任务培训时,往往会忘记旧任务。该特性通常被称为灾难性遗忘。为了解决此问题,ITL方法使用情节内存,参数正则化,掩盖和修剪或可扩展的网络结构。在本文中,我们提出了一个基于低级别分解的新的增量任务学习框架。特别是,我们表示每一层的网络权重作为几个等级1矩阵的线性组合。为了更新新任务的网络,我们学习一个排名1(或低级别)矩阵,并将其添加到每一层的权重。我们还引入了一个其他选择器向量,该向量将不同的权重分配给对先前任务的低级矩阵。我们表明,就准确性和遗忘而言,我们的方法的表现比当前的最新方法更好。与基于情节的内存和基于面具的方法相比,我们的方法还提供了更好的内存效率。我们的代码将在https://github.com/csiplab/task-increment-rank-update.git上找到。
translated by 谷歌翻译
基于正规化的方法有利于缓解类渐进式学习中的灾难性遗忘问题。由于缺乏旧任务图像,如果分类器在新图像上产生类似的输出,它们通常会假设旧知识得到很好的保存。在本文中,我们发现他们的效果很大程度上取决于旧课程的性质:它们在彼此之间容易区分的课程上工作,但可能在更细粒度的群体上失败,例如,男孩和女孩。在SPIRIT中,此类方法将新数据项目投入到完全连接层中的权重向量中跨越的特征空间,对应于旧类。由此产生的预测在细粒度的旧课程上是相似的,因此,新分类器将逐步失去这些课程的歧视能力。为了解决这个问题,我们提出了一种无记忆生成的重播策略,通过直接从旧分类器生成代表性的旧图像并结合新的分类器培训的新数据来保留细粒度的旧阶级特征。为了解决所产生的样本的均化问题,我们还提出了一种分集体损失,使得产生的样品之间的Kullback Leibler(KL)发散。我们的方法最好是通过先前的基于正规化的方法补充,证明是为了易于区分的旧课程有效。我们验证了上述关于CUB-200-2011,CALTECH-101,CIFAR-100和微小想象的设计和见解,并表明我们的策略优于现有的无记忆方法,并具有清晰的保证金。代码可在https://github.com/xmengxin/mfgr获得
translated by 谷歌翻译
当以连续的方式学习新任务时,深层神经网络倾向于忘记他们以前学到的任务,这种现象称为灾难性遗忘。班级增量学习方法旨在通过记忆以前学到的任务的一些示例,并从中蒸馏出知识来解决此问题。但是,现有的方法努力平衡跨课程的性能,因为它们通常将模型过于最新任务。在我们的工作中,我们建议通过引入一种实现级别平衡性能的逐步学习(TKIL)的新型方法来解决这些挑战。该方法保留了各个类别的表示形式,并平衡了每个类别的准确性,因此可以更好地达到总体准确性和差异。 TKIL方法基于神经切线核(NTK),该神经网络将神经网络作为无限宽度极限的内核函数的收敛行为。在tkil中,特征层之间的梯度被视为这些层的表示之间的距离,可以定义为切线切线损失(GTK损耗),因此将其与平均重量一起最小化。这允许TKIL自动识别任务并在推理过程中快速适应它。具有各种增量学习设置的CIFAR-100和Imagenet数据集的实验表明,这些策略允许TKIL优于现有的最新方法。
translated by 谷歌翻译
新课程经常出现在我们不断变化的世界中,例如社交媒体中的新兴主题和电子商务中的新产品。模型应识别新的类,同时保持对旧类的可区分性。在严重的情况下,只有有限的新颖实例可以逐步更新模型。在不忘记旧课程的情况下识别几个新课程的任务称为少数类的课程学习(FSCIL)。在这项工作中,我们通过学习多相增量任务(limit)提出了一个基于元学习的FSCIL的新范式,该任务从基本数据集中综合了伪造的FSCIL任务。假任务的数据格式与“真实”的增量任务一致,我们可以通过元学习构建可概括的特征空间。此外,限制还基于变压器构建了一个校准模块,该模块将旧类分类器和新类原型校准为相同的比例,并填补语义间隙。校准模块还可以自适应地将具有设置对集合函数的特定于实例的嵌入方式化。限制有效地适应新课程,同时拒绝忘记旧课程。在三个基准数据集(CIFAR100,Miniimagenet和Cub200)和大规模数据集上进行的实验,即Imagenet ILSVRC2012验证以实现最新性能。
translated by 谷歌翻译
持续学习旨在通过以在线学习方式利用过去获得的知识,同时能够在所有以前的任务上表现良好,从而学习一系列任务,这对人工智能(AI)系统至关重要,因此持续学习与传统学习模式相比,更适合大多数现实和复杂的应用方案。但是,当前的模型通常在每个任务上的类标签上学习一个通用表示基础,并选择有效的策略来避免灾难性的遗忘。我们假设,仅从获得的知识中选择相关且有用的零件比利用整个知识更有效。基于这一事实,在本文中,我们提出了一个新框架,名为“选择相关的在线持续学习知识(SRKOCL),该框架结合了一种额外的有效频道注意机制,以选择每个任务的特定相关知识。我们的模型还结合了经验重播和知识蒸馏,以避免灾难性的遗忘。最后,在不同的基准上进行了广泛的实验,竞争性实验结果表明,我们提出的SRKOCL是针对最先进的承诺方法。
translated by 谷歌翻译
The dynamic expansion architecture is becoming popular in class incremental learning, mainly due to its advantages in alleviating catastrophic forgetting. However, task confusion is not well assessed within this framework, e.g., the discrepancy between classes of different tasks is not well learned (i.e., inter-task confusion, ITC), and certain priority is still given to the latest class batch (i.e., old-new confusion, ONC). We empirically validate the side effects of the two types of confusion. Meanwhile, a novel solution called Task Correlated Incremental Learning (TCIL) is proposed to encourage discriminative and fair feature utilization across tasks. TCIL performs a multi-level knowledge distillation to propagate knowledge learned from old tasks to the new one. It establishes information flow paths at both feature and logit levels, enabling the learning to be aware of old classes. Besides, attention mechanism and classifier re-scoring are applied to generate more fair classification scores. We conduct extensive experiments on CIFAR100 and ImageNet100 datasets. The results demonstrate that TCIL consistently achieves state-of-the-art accuracy. It mitigates both ITC and ONC, while showing advantages in battle with catastrophic forgetting even no rehearsal memory is reserved.
translated by 谷歌翻译
Although deep learning approaches have stood out in recent years due to their state-of-the-art results, they continue to suffer from catastrophic forgetting, a dramatic decrease in overall performance when training with new classes added incrementally. This is due to current neural network architectures requiring the entire dataset, consisting of all the samples from the old as well as the new classes, to update the model-a requirement that becomes easily unsustainable as the number of classes grows. We address this issue with our approach to learn deep neural networks incrementally, using new data and only a small exemplar set corresponding to samples from the old classes. This is based on a loss composed of a distillation measure to retain the knowledge acquired from the old classes, and a cross-entropy loss to learn the new classes. Our incremental training is achieved while keeping the entire framework end-to-end, i.e., learning the data representation and the classifier jointly, unlike recent methods with no such guarantees. We evaluate our method extensively on the CIFAR-100 and Im-ageNet (ILSVRC 2012) image classification datasets, and show state-of-the-art performance.
translated by 谷歌翻译
当代理在终身学习设置中遇到连续的新任务流时,它利用了从早期任务中获得的知识来帮助更好地学习新任务。在这种情况下,确定有效的知识表示成为一个具有挑战性的问题。大多数研究工作都建议将过去任务中的一部分示例存储在重播缓冲区中,将一组参数集成给每个任务,或通过引入正则化项来对参数进行过多的更新。尽管现有方法采用了一般任务无关的随机梯度下降更新规则,但我们提出了一个任务吸引的优化器,可根据任务之间的相关性调整学习率。我们通过累积针对每个任务的梯度来利用参数在更新过程中采取的方向。这些基于任务的累积梯度充当了在整个流中维护和更新的知识库。我们从经验上表明,我们提出的自适应学习率不仅说明了灾难性的遗忘,而且还允许积极的向后转移。我们还表明,在具有大量任务的复杂数据集中,我们的方法比终身学习中的几种最先进的方法更好。
translated by 谷歌翻译
大多数元学习方法都假设存在于可用于基本知识的情节元学习的一组非常大的标记数据。这与更现实的持续学习范例形成对比,其中数据以包含不相交类的任务的形式逐步到达。在本文中,我们考虑了这个增量元学习(IML)的这个问题,其中类在离散任务中逐步呈现。我们提出了一种方法,我们调用了IML,我们称之为eCISODIC重播蒸馏(ERD),该方法将来自当前任务的类混合到当前任务中,当研究剧集时,来自先前任务的类别示例。然后将这些剧集用于知识蒸馏以最大限度地减少灾难性的遗忘。四个数据集的实验表明ERD超越了最先进的。特别是,在一次挑战的单次次数较挑战,长任务序列增量元学习场景中,我们将IML和联合训练与当前状态的3.5%/ 10.1%/ 13.4%之间的差距降低我们在Diered-ImageNet / Mini-ImageNet / CIFAR100上分别为2.6%/ 2.9%/ 5.0%。
translated by 谷歌翻译
Lifelong learning has attracted much attention, but existing works still struggle to fight catastrophic forgetting and accumulate knowledge over long stretches of incremental learning. In this work, we propose PODNet, a model inspired by representation learning. By carefully balancing the compromise between remembering the old classes and learning new ones, PODNet fights catastrophic forgetting, even over very long runs of small incremental tasks -a setting so far unexplored by current works. PODNet innovates on existing art with an efficient spatialbased distillation-loss applied throughout the model and a representation comprising multiple proxy vectors for each class. We validate those innovations thoroughly, comparing PODNet with three state-of-the-art models on three datasets: CIFAR100, ImageNet100, and ImageNet1000. Our results showcase a significant advantage of PODNet over existing art, with accuracy gains of 12.10, 6.51, and 2.85 percentage points, respectively. 5
translated by 谷歌翻译
很少有课堂学习(FSCIL)着重于设计学习算法,这些学习算法可以不断地从几个样本中学习一系列新任务,而不会忘记旧任务。困难是,从新任务中进行一系列有限数据的培训会导致严重的过度拟合问题,并导致众所周知的灾难性遗忘问题。现有研究主要利用图像信息,例如存储以前任务的图像知识或限制分类器更新。但是,他们忽略了分析课堂标签的信息丰富且较少的嘈杂文本信息。在这项工作中,我们建议通过采用内存提示来利用标签文本信息。内存提示可以依次学习新数据,同时存储先前的知识。此外,为了优化内存提示而不破坏存储的知识,我们提出了基于刺激的训练策略。它根据图像嵌入刺激(即嵌入元素的分布)来优化内存提示。实验表明,我们提出的方法的表现优于所有先前的最新方法,从而大大减轻了灾难性的遗忘和过度拟合问题。
translated by 谷歌翻译
Generally, regularization-based continual learning models limit access to the previous task data to imitate the real-world setting which has memory and privacy issues. However, this introduces a problem in these models by not being able to track the performance on each task. In other words, current continual learning methods are vulnerable to attacks done on the previous task. We demonstrate the vulnerability of regularization-based continual learning methods by presenting simple task-specific training time adversarial attack that can be used in the learning process of a new task. Training data generated by the proposed attack causes performance degradation on a specific task targeted by the attacker. Experiment results justify the vulnerability proposed in this paper and demonstrate the importance of developing continual learning models that are robust to adversarial attack.
translated by 谷歌翻译
深度学习模型在逐步学习新任务时遭受灾难性遗忘。已经提出了增量学习,以保留旧课程的知识,同时学习识别新课程。一种典型的方法是使用一些示例来避免忘记旧知识。在这种情况下,旧类和新课之间的数据失衡是导致模型性能下降的关键问题。由于数据不平衡,已经设计了几种策略来纠正新类别的偏见。但是,他们在很大程度上依赖于新旧阶层之间偏见关系的假设。因此,它们不适合复杂的现实世界应用。在这项研究中,我们提出了一种假设不足的方法,即多粒性重新平衡(MGRB),以解决此问题。重新平衡方法用于减轻数据不平衡的影响;但是,我们从经验上发现,他们将拟合新的课程。为此,我们进一步设计了一个新颖的多晶正式化项,该项使模型还可以考虑除了重新平衡数据之外的类别的相关性。类层次结构首先是通过将语义或视觉上类似类分组来构建的。然后,多粒性正则化将单热标签向量转换为连续的标签分布,这反映了基于构造的类层次结构的目标类别和其他类之间的关系。因此,该模型可以学习类间的关系信息,这有助于增强新旧课程的学习。公共数据集和现实世界中的故障诊断数据集的实验结果验证了所提出的方法的有效性。
translated by 谷歌翻译
人类的持续学习(CL)能力与稳定性与可塑性困境密切相关,描述了人类如何实现持续的学习能力和保存的学习信息。自发育以来,CL的概念始终存在于人工智能(AI)中。本文提出了对CL的全面审查。与之前的评论不同,主要关注CL中的灾难性遗忘现象,本文根据稳定性与可塑性机制的宏观视角来调查CL。类似于生物对应物,“智能”AI代理商应该是I)记住以前学到的信息(信息回流); ii)不断推断新信息(信息浏览:); iii)转移有用的信息(信息转移),以实现高级CL。根据分类学,评估度量,算法,应用以及一些打开问题。我们的主要贡献涉及I)从人工综合情报层面重新检查CL; ii)在CL主题提供详细和广泛的概述; iii)提出一些关于CL潜在发展的新颖思路。
translated by 谷歌翻译
持续学习(CL)依次学习像人类这样的新任务,其目标是实现更好的稳定性(S,记住过去的任务)和可塑性(P,适应新任务)。由于过去的培训数据不可用,因此探索培训示例中S和P的影响差异很有价值,这可能会改善对更好的SP的学习模式。受影响函数的启发(如果),我们首先研究了示例通过添加扰动来示例体重和计算影响推导的影响。为了避免在神经网络中Hessian逆的存储和计算负担,我们提出了一种简单而有效的METASP算法,以模拟IF计算中的两个关键步骤,并获得S-和P-Aware示例的影响。此外,我们建议通过解决双目标优化问题来融合两种示例影响,并获得对SP Pareto最优性的融合影响。融合影响可用于控制模型的更新并优化排练的存储。经验结果表明,我们的算法在任务和类别基准CL数据集上都显着优于最先进的方法。
translated by 谷歌翻译
受到正规彩票假说(RLTH)的启发,该假说假设在密集网络中存在平稳(非二进制)子网,以实现密集网络的竞争性能,我们提出了几个播放类增量学习(FSCIL)方法。 to as \ emph {soft-subnetworks(softnet)}。我们的目标是逐步学习一系列会议,每个会议在每个课程中只包含一些培训实例,同时保留了先前学到的知识。软网络在基本训练会议上共同学习模型权重和自适应非二进制软面具,每个面具由主要和次要子网组成;前者的目的是最大程度地减少训练期间的灾难性遗忘,而后者的目的是避免在每个新培训课程中过度拟合一些样本。我们提供了全面的经验验证,表明我们的软网络通过超越基准数据集的最先进基准的性能来有效地解决了几个弹药的学习问题。
translated by 谷歌翻译