持续学习是一种学习范式,可以通过资源限制顺序学习任务,其中关键挑战是稳定性的难题,即同时具有稳定性来防止灾难性忘记旧任务和可很好地学习新任务的稳定性是不安的。 。在本文中,我们提出了一种新的持续学习方法,即先进的空空间(ADN),以平衡稳定性和可塑性,而无需存储以前任务的任何旧数据。具体而言,为了获得更好的稳定性,ADN会利用低级近似来获得新的空空间,并将梯度投射到空空间上,以防止干扰过去的任务。为了控制无效空间的产生,我们引入了不均匀的约束强度,以进一步减少遗忘。此外,我们提出了一种简单但有效的方法,即任务内蒸馏,以提高当前任务的性能。最后,从理论上讲,无效空间分别在塑性和稳定性中起关键作用。实验结果表明,与最先进的持续学习方法相比,所提出的方法可以实现更好的性能。
translated by 谷歌翻译
增量任务学习(ITL)是一个持续学习的类别,试图培训单个网络以进行多个任务(一个接一个),其中每个任务的培训数据仅在培训该任务期间可用。当神经网络接受较新的任务培训时,往往会忘记旧任务。该特性通常被称为灾难性遗忘。为了解决此问题,ITL方法使用情节内存,参数正则化,掩盖和修剪或可扩展的网络结构。在本文中,我们提出了一个基于低级别分解的新的增量任务学习框架。特别是,我们表示每一层的网络权重作为几个等级1矩阵的线性组合。为了更新新任务的网络,我们学习一个排名1(或低级别)矩阵,并将其添加到每一层的权重。我们还引入了一个其他选择器向量,该向量将不同的权重分配给对先前任务的低级矩阵。我们表明,就准确性和遗忘而言,我们的方法的表现比当前的最新方法更好。与基于情节的内存和基于面具的方法相比,我们的方法还提供了更好的内存效率。我们的代码将在https://github.com/csiplab/task-increment-rank-update.git上找到。
translated by 谷歌翻译
持续学习旨在快速,不断地从一系列任务中学习当前的任务。与其他类型的方法相比,基于经验重播的方法表现出了极大的优势来克服灾难性的遗忘。该方法的一个常见局限性是上一个任务和当前任务之间的数据不平衡,这将进一步加剧遗忘。此外,如何在这种情况下有效解决稳定性困境也是一个紧迫的问题。在本文中,我们通过提出一个通过多尺度知识蒸馏和数据扩展(MMKDDA)提出一个名为Meta学习更新的新框架来克服这些挑战。具体而言,我们应用多尺度知识蒸馏来掌握不同特征级别的远程和短期空间关系的演变,以减轻数据不平衡问题。此外,我们的方法在在线持续训练程序中混合了来自情节记忆和当前任务的样品,从而减轻了由于概率分布的变化而减轻了侧面影响。此外,我们通过元学习更新来优化我们的模型,该更新诉诸于前面所看到的任务数量,这有助于保持稳定性和可塑性之间的更好平衡。最后,我们对四个基准数据集的实验评估显示了提出的MMKDDA框架对其他流行基线的有效性,并且还进行了消融研究,以进一步分析每个组件在我们的框架中的作用。
translated by 谷歌翻译
持续学习旨在通过以在线学习方式利用过去获得的知识,同时能够在所有以前的任务上表现良好,从而学习一系列任务,这对人工智能(AI)系统至关重要,因此持续学习与传统学习模式相比,更适合大多数现实和复杂的应用方案。但是,当前的模型通常在每个任务上的类标签上学习一个通用表示基础,并选择有效的策略来避免灾难性的遗忘。我们假设,仅从获得的知识中选择相关且有用的零件比利用整个知识更有效。基于这一事实,在本文中,我们提出了一个新框架,名为“选择相关的在线持续学习知识(SRKOCL),该框架结合了一种额外的有效频道注意机制,以选择每个任务的特定相关知识。我们的模型还结合了经验重播和知识蒸馏,以避免灾难性的遗忘。最后,在不同的基准上进行了广泛的实验,竞争性实验结果表明,我们提出的SRKOCL是针对最先进的承诺方法。
translated by 谷歌翻译
神经网络(NNS)的能力在顺序地学习和记住多项任务是由于其灾难性遗忘(CF)问题而在实现一般人工智能方面面临艰难的挑战。幸运的是,最新的OWM正交权重修改)和其他几种连续学习(CL)方法表明了一些有希望的克服CF问题的方法。但是,现有的CL方法都没有探讨以下三个关键问题,以便有效地克服CF问题:即,它有助于在其顺序任务学习期间对NN的有效权重修改有所了解?当新学习任务的数据分布与先前学习的任务相对应的更改时,是否应该采用统一/特定的权重修改策略?对于给定的CL方法,可学习任务的上限是什么? ect。为了实现这一点,在本文中,我们首先揭示了新的学习任务的权重梯度的事实是由新任务的输入空间和先前学习任务的重量空间顺序确定。在这种观察和递归最小二乘法的情况下,我们通过增强型OWM提出了一种新的高效和有效的连续学习方法EOWM。我们理论上和明确地赋予了我们的EOWM的学习任务的上限。在基准测试上进行的广泛实验表明,我们的EOWM是有效性,优于所有最先进的CL基线。
translated by 谷歌翻译
从一系列任务中学习一生对于人为一般情报的代理至关重要。这要求代理商不断学习和记住没有干扰的新知识。本文首先展示了使用神经网络的终身学习的基本问题,命名为Anterograde忘记,即保留和转移记忆可能会抑制新知识的学习。这归因于,由于它不断记住历史知识,因此神经网络的学习能力将减少,并且可能发生概念混淆的事实,因为它转移到当前任务的无关旧知识。这项工作提出了一个名为循环内存网络(CMN)的一般框架,以解决终身学习神经网络中的伪造遗忘。 CMN由两个单独的存储器网络组成,用于存储短期和长期存储器以避免容量收缩。传输单元被设计为连接这两个存储器网络,使得从长期存储器网络的知识转移到短期内存网络以减轻概念混淆,并且开发了存储器整合机制以将短期知识集成到其中知识累积的长期记忆网络。实验结果表明,CMN可以有效地解决了在几个与任务相关的,任务冲突,类增量和跨域基准测试中忘记的伪造遗忘。
translated by 谷歌翻译
深度神经网络(DNN)最近在计算机视觉和几个相关领域取得了巨大成功。尽管如此,目前的神经结构仍然遭受灾难性干扰(A.K.A.忘记),这阻碍了DNN不断学习。虽然已经提出了几种最先进的方法来缓解遗忘,但这些现有解决方案是高度僵化的(正则化)或时间/内存要求(作为重播)。在文献中提出了一种基于动态网络的中等方法,并在文献中提出了在任务记忆和计算足迹之间提供合理的平衡。在本文中,我们基于一种基于新颖的无遗忘神经块(FFNB)来设计用于持续学习的动态网络架构。使用新的程序实现新任务的FFNB功能,该程序可以通过在前一个任务的空空间中约束底层参数,而训练分类器参数等同于Fisher判别分析。后者提供了一种有效的增量过程,这也是贝叶斯视角的最佳。使用增量的“端到端”微调进一步增强了训练有素的功能和分类器。在不同具有挑战性的分类问题上进行的大量实验,表明了该方法的高效性。
translated by 谷歌翻译
从非平稳的输入数据流进行连续/终身学习是智力的基石。尽管在各种应用中表现出色,但深度神经网络仍容易在学习新信息时忘记他们以前学习的信息。这种现象称为“灾难性遗忘”,深深地植根于稳定性困境。近年来,克服深层神经网络中的灾难性遗忘已成为一个积极的研究领域。特别是,基于梯度投射的方法最近在克服灾难性遗忘时表现出了出色的表现。本文提出了基于稀疏性和异质辍学的两种受生物学启发的机制,这些机制在长期的任务上显着提高了持续学习者的表现。我们提出的方法建立在梯度投影内存(GPM)框架上。我们利用神经网络的每一层中的K-获奖者激活来为每个任务执行层次稀疏激活,以及任务间的异质辍学,鼓励网络在不同任务之间使用非重叠的激活模式。此外,我们引入了两个新的基准,用于在分配转移下连续学习,即连续的瑞士卷和Imagenet Superdog-40。最后,我们对我们提出的方法进行了深入的分析,并证明了各种基准持续学习问题的显着性能。
translated by 谷歌翻译
持续学习(CL)旨在制定模仿人类能力顺序学习新任务的能力,同时能够保留从过去经验获得的知识。在本文中,我们介绍了内存约束在线连续学习(MC-OCL)的新问题,这对存储器开销对可能算法可以用于避免灾难性遗忘的记忆开销。最多,如果不是全部,之前的CL方法违反了这些约束,我们向MC-OCL提出了一种算法解决方案:批量蒸馏(BLD),基于正则化的CL方法,有效地平衡了稳定性和可塑性,以便学习数据流,同时保留通过蒸馏解决旧任务的能力。我们在三个公开的基准测试中进行了广泛的实验评估,经验证明我们的方法成功地解决了MC-OCL问题,并实现了需要更高内存开销的先前蒸馏方法的可比准确性。
translated by 谷歌翻译
持续学习(CL)旨在开发单一模型适应越来越多的任务的技术,从而潜在地利用跨任务的学习以资源有效的方式。 CL系统的主要挑战是灾难性的遗忘,在学习新任务时忘记了早期的任务。为了解决此问题,基于重播的CL方法在遇到遇到任务中选择的小缓冲区中维护和重复培训。我们提出梯度Coreset重放(GCR),一种新颖的重播缓冲区选择和使用仔细设计的优化标准的更新策略。具体而言,我们选择并维护一个“Coreset”,其与迄今为止关于当前模型参数的所有数据的梯度紧密近似,并讨论其有效应用于持续学习设置所需的关键策略。在学习的离线持续学习环境中,我们在最先进的最先进的最先进的持续学习环境中表现出显着的收益(2%-4%)。我们的调查结果还有效地转移到在线/流媒体CL设置,从而显示现有方法的5%。最后,我们展示了持续学习的监督对比损失的价值,当与我们的子集选择策略相结合时,累计增益高达5%。
translated by 谷歌翻译
我们引入了一个新的培训范式,该范围对神经网络参数空间进行间隔约束以控制遗忘。当代持续学习(CL)方法从一系列数据流有效地培训神经网络,同时减少灾难性遗忘的负面影响,但它们不能提供任何确保的确保网络性能不会随着时间的流逝而无法控制地恶化。在这项工作中,我们展示了如何通过将模型的持续学习作为其参数空间的持续收缩来遗忘。为此,我们提出了Hypertrectangle训练,这是一种新的训练方法,其中每个任务都由参数空间中的超矩形表示,完全包含在先前任务的超矩形中。这种配方将NP-HARD CL问题降低到多项式时间,同时提供了完全防止遗忘的弹性。我们通过开发Intercontinet(间隔持续学习)算法来验证我们的主张,该算法利用间隔算术来有效地将参数区域建模为高矩形。通过实验结果,我们表明我们的方法在不连续的学习设置中表现良好,而无需存储以前的任务中的数据。
translated by 谷歌翻译
最近的自我监督学习方法能够学习高质量的图像表示,并通过监督方法关闭差距。但是,这些方法无法逐步获取新的知识 - 事实上,它们实际上主要仅用为具有IID数据的预训练阶段。在这项工作中,我们在没有额外的记忆或重放的情况下调查持续学习制度的自我监督方法。为防止忘记以前的知识,我们提出了功能正规化的使用。我们将表明,朴素的功能正则化,也称为特征蒸馏,导致可塑性的低可塑性,因此严重限制了连续的学习性能。为了解决这个问题,我们提出了预测的功能正则化,其中一个单独的投影网络确保新学习的特征空间保留了先前的特征空间的信息,同时允许学习新功能。这使我们可以防止在保持学习者的可塑性时忘记。针对应用于自我监督的其他增量学习方法的评估表明我们的方法在不同场景和多个数据集中获得竞争性能。
translated by 谷歌翻译
Learning from changing tasks and sequential experience without forgetting the obtained knowledge is a challenging problem for artificial neural networks. In this work, we focus on two challenging problems in the paradigm of Continual Learning (CL) without involving any old data: (i) the accumulation of catastrophic forgetting caused by the gradually fading knowledge space from which the model learns the previous knowledge; (ii) the uncontrolled tug-of-war dynamics to balance the stability and plasticity during the learning of new tasks. In order to tackle these problems, we present Progressive Learning without Forgetting (PLwF) and a credit assignment regime in the optimizer. PLwF densely introduces model functions from previous tasks to construct a knowledge space such that it contains the most reliable knowledge on each task and the distribution information of different tasks, while credit assignment controls the tug-of-war dynamics by removing gradient conflict through projection. Extensive ablative experiments demonstrate the effectiveness of PLwF and credit assignment. In comparison with other CL methods, we report notably better results even without relying on any raw data.
translated by 谷歌翻译
Continual Learning is considered a key step toward next-generation Artificial Intelligence. Among various methods, replay-based approaches that maintain and replay a small episodic memory of previous samples are one of the most successful strategies against catastrophic forgetting. However, since forgetting is inevitable given bounded memory and unbounded tasks, how to forget is a problem continual learning must address. Therefore, beyond simply avoiding catastrophic forgetting, an under-explored issue is how to reasonably forget while ensuring the merits of human memory, including 1. storage efficiency, 2. generalizability, and 3. some interpretability. To achieve these simultaneously, our paper proposes a new saliency-augmented memory completion framework for continual learning, inspired by recent discoveries in memory completion separation in cognitive neuroscience. Specifically, we innovatively propose to store the part of the image most important to the tasks in episodic memory by saliency map extraction and memory encoding. When learning new tasks, previous data from memory are inpainted by an adaptive data generation module, which is inspired by how humans complete episodic memory. The module's parameters are shared across all tasks and it can be jointly trained with a continual learning classifier as bilevel optimization. Extensive experiments on several continual learning and image classification benchmarks demonstrate the proposed method's effectiveness and efficiency.
translated by 谷歌翻译
持续学习研究的主要重点领域是通过设计新算法对分布变化更强大的新算法来减轻神经网络中的“灾难性遗忘”问题。尽管持续学习文献的最新进展令人鼓舞,但我们对神经网络的特性有助于灾难性遗忘的理解仍然有限。为了解决这个问题,我们不关注持续的学习算法,而是在这项工作中专注于模型本身,并研究神经网络体系结构对灾难性遗忘的“宽度”的影响,并表明宽度在遗忘遗产方面具有出人意料的显着影响。为了解释这种效果,我们从各个角度研究网络的学习动力学,例如梯度正交性,稀疏性和懒惰的培训制度。我们提供了与不同架构和持续学习基准之间的经验结果一致的潜在解释。
translated by 谷歌翻译
持续学习背后的主流范例一直在使模型参数调整到非静止数据分布,灾难性遗忘是中央挑战。典型方法在测试时间依赖排练缓冲区或已知的任务标识,以检索学到的知识和地址遗忘,而这项工作呈现了一个新的范例,用于持续学习,旨在训练更加简洁的内存系统而不在测试时间访问任务标识。我们的方法学会动态提示(L2P)预先训练的模型,以在不同的任务转换下顺序地学习任务。在我们提出的框架中,提示是小型可学习参数,这些参数在内存空间中保持。目标是优化提示,以指示模型预测并明确地管理任务不变和任务特定知识,同时保持模型可塑性。我们在流行的图像分类基准下进行全面的实验,具有不同挑战的持续学习环境,其中L2P始终如一地优于现有最先进的方法。令人惊讶的是,即使没有排练缓冲区,L2P即使没有排练缓冲,L2P也能实现竞争力的结果,并直接适用于具有挑战性的任务不可行的持续学习。源代码在https://github.com/google-Research/l2p中获得。
translated by 谷歌翻译
凭借持续学习的能力,人类可以在整个生命周期中不断获得知识。但是,一般而言,计算系统不能顺序学习任务。对深神经网络(DNN)的长期挑战称为灾难性遗忘。已经提出了多种解决方案来克服这一限制。本文对内存重播方法进行了深入的评估,从而探讨了选择重播数据时各种采样策略的效率,性能和可扩展性。所有实验均在各个域下的多个数据集上进行。最后,提供了为各种数据分布选择重播方法的实用解决方案。
translated by 谷歌翻译
基于正规化的方法有利于缓解类渐进式学习中的灾难性遗忘问题。由于缺乏旧任务图像,如果分类器在新图像上产生类似的输出,它们通常会假设旧知识得到很好的保存。在本文中,我们发现他们的效果很大程度上取决于旧课程的性质:它们在彼此之间容易区分的课程上工作,但可能在更细粒度的群体上失败,例如,男孩和女孩。在SPIRIT中,此类方法将新数据项目投入到完全连接层中的权重向量中跨越的特征空间,对应于旧类。由此产生的预测在细粒度的旧课程上是相似的,因此,新分类器将逐步失去这些课程的歧视能力。为了解决这个问题,我们提出了一种无记忆生成的重播策略,通过直接从旧分类器生成代表性的旧图像并结合新的分类器培训的新数据来保留细粒度的旧阶级特征。为了解决所产生的样本的均化问题,我们还提出了一种分集体损失,使得产生的样品之间的Kullback Leibler(KL)发散。我们的方法最好是通过先前的基于正规化的方法补充,证明是为了易于区分的旧课程有效。我们验证了上述关于CUB-200-2011,CALTECH-101,CIFAR-100和微小想象的设计和见解,并表明我们的策略优于现有的无记忆方法,并具有清晰的保证金。代码可在https://github.com/xmengxin/mfgr获得
translated by 谷歌翻译
由于其非参数化干扰和灾难性遗忘的非参数化能力,核心连续学习\ Cite {derakhshani2021kernel}最近被成为一个强大的持续学习者。不幸的是,它的成功是以牺牲一个明确的内存为代价来存储来自过去任务的样本,这妨碍了具有大量任务的连续学习设置的可扩展性。在本文中,我们介绍了生成的内核持续学习,探讨了生成模型与内核之间的协同作用以进行持续学习。生成模型能够生产用于内核学习的代表性样本,其消除了在内核持续学习中对内存的依赖性。此外,由于我们仅在生成模型上重播,我们避免了与在整个模型上需要重播的先前的方法相比,在计算上更有效的情况下避免任务干扰。我们进一步引入了监督的对比正规化,使我们的模型能够为更好的基于内核的分类性能产生更具辨别性样本。我们对三种广泛使用的连续学习基准进行了广泛的实验,展示了我们贡献的能力和益处。最值得注意的是,在具有挑战性的SplitCifar100基准测试中,只需一个简单的线性内核,我们获得了与内核连续学习的相同的准确性,对于内存的十分之一,或者对于相同的内存预算的10.1%的精度增益。
translated by 谷歌翻译
持续学习需要与一系列任务的逐步兼容性。但是,模型体系结构的设计仍然是一个悬而未决的问题:一般而言,以一组共享的参数学习所有任务都受到任务之间的严重干扰;使用专用参数子空间学习每个任务时,受到可扩展性的限制。在这项工作中,我们从理论上分析了在不断学习中学习可塑性和记忆稳定性的概括错误,这可以在任务分布之间的(1)差异,(2)损失景观和(3)参数的覆盖率之间的差异。空间。然后,受到强大的生物学学习系统的启发,该系统通过多个平行的隔室处理顺序体验,我们建议将小型持续学习者(COSCL)的合作作为持续学习的一般策略。具体而言,我们介绍了一个架构,具有固定数量的较窄子网络,以并联学习所有增量任务,这可以自然地通过改善上限的三个组件来减少两个错误。为了增强这一优势,我们鼓励通过惩罚其功能表示的预测差异来合作这些子网络。有了固定的参数预算,COSCL可以将各种代表性的持续学习方法提高较大的利润率(例如,CIFAR-100-SC最高10.64%,CIFAR-100-RS为9.33%,CUB-200-100-100-100-100-100-100-100-100-100-100-100-100-100- 2011年和6.72%的小象征)并实现了新的最新性能。
translated by 谷歌翻译