由于推断,数据表示和重建属性,变异自动编码器(VAE)已成功地用于连续学习分类任务。但是,它们具有与持续学习过程中学到的类和数据库相对应的规格生成图像的能力(CL)尚不清楚,而灾难性遗忘仍然是一个重大挑战。在本文中,我们首先通过开发一个将CL作为动态最佳传输问题制定的新理论框架来分析VAE的遗忘行为。该框架证明了与数据可能性相似的范围,而无需任务信息,并解释了在培训过程中如何丢失先验知识。然后,我们提出了一种新颖的记忆缓冲方法,即在线合作记忆(OCM)框架,该框架由短期内存(STM)组成,该框架不断存储最近的样本以为模型提供未来的信息,以及长期记忆( LTM)旨在保留各种样本。拟议的OCM根据信息多样性选择标准将某些样本从STM转移到LTM,而无需任何监督信号。然后将OCM框架与动态VAE扩展混合网络结合使用,以进一步增强其性能。
translated by 谷歌翻译
在学习几个连续任务时,变形自身偏析器(VAES)遭受退化性能。这是由灾难性的遗忘引起的。为了解决知识损失,VAES正在使用生成重放(GR)机制或扩展网络架构(ENA)。在本文中,我们通过导出负面边际日志可能性的上限来研究VAE的遗忘行为。这个理论分析为VAE在终身学习期间忘记了先前学识渊博的知识提供了新的洞察。分析表示在ena框架下考虑模型混合物时实现的最佳性能,其中没有限制组件的数量。然而,基于ENA的方法可能需要过多的参数。这使我们提出了一种新颖的动态扩展图模型(DEGM)。根据与每个新数据库相关联的新颖性,DEGM扩展其架构,与从前任务中的网络已经学习的信息相比。 DEGM培训优化了知识结构,表征了与过去和最近学识的任务相对应的联合概率表现。我们展示DEGM保证了每个任务的最佳性能,同时还可以最小化所需的参数数量。补充材料(SM)和源代码在https://github.com/dtuzi123/expansion -graph-model中提供。
translated by 谷歌翻译
最近,持续学习(CL)引起了巨大的兴趣,因为它使深度学习模型能够获取新知识,而无需忘记以前学习的信息。但是,大多数现有作品都需要了解任务身份和边界,这在实际情况下是不现实的。在本文中,我们在CL中解决了一个更具挑战性和更现实的环境,即无任务的持续学习(TFCL),其中模型在没有明确任务信息的非平稳数据流上培训。为了解决TFCL,我们引入了一个进化的混合模型,其网络体系结构动态扩展以适应数据分布移动。我们通过评估使用Hilbert Schmidt独立标准(HSIC)评估存储在每个混合模型组件中的知识与当前存储器缓冲区的知识之间的概率距离来实现此扩展机制。我们进一步介绍了两种简单的辍学机制,以选择性地删除存储的示例,以避免记忆超载,同时保留内存多样性。经验结果表明,所提出的方法可实现出色的性能。
translated by 谷歌翻译
变形AutoEncoder(VAE)是无监督学习的深度生成模型,允许将观察编码为有意义的潜在空间。当任务按顺序到达时,VAE易于灾难性忘记,并且只有当前的数据可用。我们解决了这个持续学习vaes的问题。众所周知,在非持续设置中,在潜空间上的先前分配的选择对于VAE至关重要。我们认为它也有助于避免灾难性的遗忘。我们将在每个任务之前学习聚合后部的近似值。该近似是参数化作为在可训练的伪输入中评估的编码器诱导的分布的添加剂混合物。我们使用贪婪的升压方法,并使用熵正则化来学习组件。此方法鼓励组件多样性,这是必不可少的,因为我们的目标是与最少的组件存储最少的组件。基于学习的先验,我们介绍了持续学习VAE的端到端方法,并为常用的基准(MNIST,时尚Mnist,Notmnist)和Celeba数据集提供实证研究。对于每个数据集,所提出的方法避免以全自动方式遗漏灾难性忘记。
translated by 谷歌翻译
Online Class Incremental learning (CIL) is a challenging setting in Continual Learning (CL), wherein data of new tasks arrive in incoming streams and online learning models need to handle incoming data streams without revisiting previous ones. Existing works used a single centroid adapted with incoming data streams to characterize a class. This approach possibly exposes limitations when the incoming data stream of a class is naturally multimodal. To address this issue, in this work, we first propose an online mixture model learning approach based on nice properties of the mature optimal transport theory (OT-MM). Specifically, the centroids and covariance matrices of the mixture model are adapted incrementally according to incoming data streams. The advantages are two-fold: (i) we can characterize more accurately complex data streams and (ii) by using centroids for each class produced by OT-MM, we can estimate the similarity of an unseen example to each class more reasonably when doing inference. Moreover, to combat the catastrophic forgetting in the CIL scenario, we further propose Dynamic Preservation. Particularly, after performing the dynamic preservation technique across data streams, the latent representations of the classes in the old and new tasks become more condensed themselves and more separate from each other. Together with a contraction feature extractor, this technique facilitates the model in mitigating the catastrophic forgetting. The experimental results on real-world datasets show that our proposed method can significantly outperform the current state-of-the-art baselines.
translated by 谷歌翻译
Continual Learning (CL) is a field dedicated to devise algorithms able to achieve lifelong learning. Overcoming the knowledge disruption of previously acquired concepts, a drawback affecting deep learning models and that goes by the name of catastrophic forgetting, is a hard challenge. Currently, deep learning methods can attain impressive results when the data modeled does not undergo a considerable distributional shift in subsequent learning sessions, but whenever we expose such systems to this incremental setting, performance drop very quickly. Overcoming this limitation is fundamental as it would allow us to build truly intelligent systems showing stability and plasticity. Secondly, it would allow us to overcome the onerous limitation of retraining these architectures from scratch with the new updated data. In this thesis, we tackle the problem from multiple directions. In a first study, we show that in rehearsal-based techniques (systems that use memory buffer), the quantity of data stored in the rehearsal buffer is a more important factor over the quality of the data. Secondly, we propose one of the early works of incremental learning on ViTs architectures, comparing functional, weight and attention regularization approaches and propose effective novel a novel asymmetric loss. At the end we conclude with a study on pretraining and how it affects the performance in Continual Learning, raising some questions about the effective progression of the field. We then conclude with some future directions and closing remarks.
translated by 谷歌翻译
Artificial neural networks thrive in solving the classification problem for a particular rigid task, acquiring knowledge through generalized learning behaviour from a distinct training phase. The resulting network resembles a static entity of knowledge, with endeavours to extend this knowledge without targeting the original task resulting in a catastrophic forgetting. Continual learning shifts this paradigm towards networks that can continually accumulate knowledge over different tasks without the need to retrain from scratch. We focus on task incremental classification, where tasks arrive sequentially and are delineated by clear boundaries. Our main contributions concern (1) a taxonomy and extensive overview of the state-of-the-art; (2) a novel framework to continually determine the stability-plasticity trade-off of the continual learner; (3) a comprehensive experimental comparison of 11 state-of-the-art continual learning methods and 4 baselines. We empirically scrutinize method strengths and weaknesses on three benchmarks, considering Tiny Imagenet and large-scale unbalanced iNaturalist and a sequence of recognition datasets. We study the influence of model capacity, weight decay and dropout regularization, and the order in which the tasks are presented, and qualitatively compare methods in terms of required memory, computation time and storage.
translated by 谷歌翻译
当许多松散相关的未标记数据可用并且稀缺标记的数据时,机器智能的范式从纯粹的监督学习转变为更实用的情况。大多数现有算法都假定基础任务分布是固定的。在这里,我们考虑了随着时间的推移,该任务分布中的一个更现实和具有挑战性的环境会不断发展。我们将这个问题称为半监督的元学习,并具有不断发展的任务分布,缩写为集合。在这种更现实的环境中出现了两个关键挑战:(i)在存在大量未标记的分发(OOD)数据的情况下,如何使用未标记的数据; (ii)如何防止由于任务分配转移而导致先前学习的任务分布的灾难性遗忘。我们提出了一种强大的知识和知识保留的半监督元学习方法(秩序),以应对这两个主要挑战。具体而言,我们的订单引入了一种新型的共同信息正则化,以使用未标记的OOD数据鲁棒化模型,并采用最佳的运输正规化来记住以前在特征空间中学习的知识。此外,我们在一个非常具有挑战性的数据集上测试我们的方法:大规模非平稳的半监督任务分布的集合,该任务分布由(至少)72K任务组成。通过广泛的实验,我们证明了拟议的订单减轻了忘记不断发展的任务分布,并且对OOD数据比相关的强基础更强大。
translated by 谷歌翻译
示例性类增量学习需要分类模型来逐步学习新的类知识,而无需保留任何旧样本。最近,基于并行单级分类器(POC)的框架,它为每个类别独立地列举单级分类器(OCC),引起了广泛的关注,因为它可以自然避免灾难性的遗忘。然而,由于其不同OOC的独立培训策略,POC遭受了弱歧视性和可比性。为满足这一挑战,我们提出了一个新的框架,命名为判别和可比单级分类器,用于增量学习(Discoil)。 Discoil遵循POC的基本原理,但它采用变分自动编码器(VAE)而不是其他良好的一流的单级分类器(例如,深度SVDD),因为训练VAE不仅可以识别属于输入样本的概率一个班级,但也会生成课程的伪样本,以协助学习新任务。通过这种优势,与旧级别的VAE相比,Discoil列举了一个新的VAE,这迫使新级VAE为新级样本重建,但对于旧级伪样本更糟糕,从而提高了可比性。此外,Discoil引入了铰链重建损失以确保辨别性。我们在MNIST,CIFAR10和TINY-ImageNet中广泛评估我们的方法。实验结果表明,Discoil实现了最先进的性能。
translated by 谷歌翻译
由于其非参数化干扰和灾难性遗忘的非参数化能力,核心连续学习\ Cite {derakhshani2021kernel}最近被成为一个强大的持续学习者。不幸的是,它的成功是以牺牲一个明确的内存为代价来存储来自过去任务的样本,这妨碍了具有大量任务的连续学习设置的可扩展性。在本文中,我们介绍了生成的内核持续学习,探讨了生成模型与内核之间的协同作用以进行持续学习。生成模型能够生产用于内核学习的代表性样本,其消除了在内核持续学习中对内存的依赖性。此外,由于我们仅在生成模型上重播,我们避免了与在整个模型上需要重播的先前的方法相比,在计算上更有效的情况下避免任务干扰。我们进一步引入了监督的对比正规化,使我们的模型能够为更好的基于内核的分类性能产生更具辨别性样本。我们对三种广泛使用的连续学习基准进行了广泛的实验,展示了我们贡献的能力和益处。最值得注意的是,在具有挑战性的SplitCifar100基准测试中,只需一个简单的线性内核,我们获得了与内核连续学习的相同的准确性,对于内存的十分之一,或者对于相同的内存预算的10.1%的精度增益。
translated by 谷歌翻译
在没有监督信号的情况下学习简洁的数据表示是机器学习的基本挑战。实现此目标的一种突出方法是基于可能性的模型,例如变异自动编码器(VAE),以基于元元素来学习潜在表示,这是对下游任务有益的一般前提(例如,disentanglement)。但是,这种方法通常偏离原始的可能性体系结构,以应用引入的元优势,从而导致他们的培训不良变化。在本文中,我们提出了一种新颖的表示学习方法,Gromov-Wasserstein自动编码器(GWAE),该方法与潜在和数据分布直接匹配。 GWAE模型不是基于可能性的目标,而是通过最小化Gromov-Wasserstein(GW)度量的训练优化。 GW度量测量了在无与伦比的空间上支持的分布之间的面向结构的差异,例如具有不同的维度。通过限制可训练的先验的家庭,我们可以介绍元主题来控制下游任务的潜在表示。与现有基于VAE的方法的经验比较表明,GWAE模型可以通过更改先前的家族而无需进一步修改GW目标来基于元家庭学习表示。
translated by 谷歌翻译
在各种机器学习问题中,包括转移,多任务,连续和元学习在内,衡量不同任务之间的相似性至关重要。最新的测量任务相似性的方法依赖于体系结构:1)依靠预训练的模型,或2)在任务上进行培训网络,并将正向转移用作任务相似性的代理。在本文中,我们利用了最佳运输理论,并定义了一个新颖的任务嵌入监督分类,该分类是模型的,无训练的,并且能够处理(部分)脱节标签集。简而言之,给定带有地面标签的数据集,我们通过多维缩放和串联数据集样品进行嵌入标签,并具有相应的标签嵌入。然后,我们将两个数据集之间的距离定义为其更新样品之间的2-Wasserstein距离。最后,我们利用2-wasserstein嵌入框架将任务嵌入到矢量空间中,在该空间中,嵌入点之间的欧几里得距离近似于任务之间提出的2-wasserstein距离。我们表明,与最佳传输数据集距离(OTDD)等相关方法相比,所提出的嵌入导致任务的比较显着更快。此外,我们通过各种数值实验证明了我们提出的嵌入的有效性,并显示了我们所提出的距离与任务之间的前进和向后转移之间的统计学意义相关性。
translated by 谷歌翻译
恶意软件(恶意软件)分类为持续学习(CL)制度提供了独特的挑战,这是由于每天收到的新样本的数量以及恶意软件的发展以利用新漏洞。在典型的一天中,防病毒供应商将获得数十万个独特的软件,包括恶意和良性,并且在恶意软件分类器的一生中,有超过十亿个样品很容易积累。鉴于问题的规模,使用持续学习技术的顺序培训可以在减少培训和存储开销方面提供可观的好处。但是,迄今为止,还没有对CL应用于恶意软件分类任务的探索。在本文中,我们研究了11种应用于三个恶意软件任务的CL技术,涵盖了常见的增量学习方案,包括任务,类和域增量学习(IL)。具体而言,使用两个现实的大规模恶意软件数据集,我们评估了CL方法在二进制恶意软件分类(domain-il)和多类恶意软件家庭分类(Task-IL和类IL)任务上的性能。令我们惊讶的是,在几乎所有情况下,持续的学习方法显着不足以使训练数据的幼稚关节重播 - 在某些情况下,将精度降低了70个百分点以上。与关节重播相比,有选择性重播20%的存储数据的一种简单方法可以实现更好的性能,占训练时间的50%。最后,我们讨论了CL技术表现出乎意料差的潜在原因,希望它激发进一步研究在恶意软件分类域中更有效的技术。
translated by 谷歌翻译
近年来,由于其对复杂分布进行建模的能力,深层生成模型引起了越来越多的兴趣。在这些模型中,变异自动编码器已被证明是计算有效的,并且在多个领域中产生了令人印象深刻的结果。在这一突破之后,为了改善原始出版物而进行了广泛的研究,从而导致各种不同的VAE模型响应不同的任务。在本文中,我们介绍了Pythae,这是一个多功能的开源Python库,既可以提供统一的实现和专用框架,允许直接,可重现且可靠地使用生成自动编码器模型。然后,我们建议使用此库来执行案例研究基准测试标准,在其中我们介绍并比较了19个生成自动编码器模型,代表了下游任务的一些主要改进,例如图像重建,生成,分类,聚类,聚类和插值。可以在https://github.com/clementchadebec/benchmark_vae上找到开源库。
translated by 谷歌翻译
人类在整个生命周期中不断学习,通过积累多样化的知识并为未来的任务进行微调。当出现类似目标时,神经网络会遭受灾难性忘记,在学习过程中跨顺序任务跨好任务的数据分布是否不固定。解决此类持续学习(CL)问题的有效方法是使用超网络为目标网络生成任务依赖权重。但是,现有基于超网的方法的持续学习性能受到整个层之间权重的独立性的假设,以维持参数效率。为了解决这一限制,我们提出了一种新颖的方法,该方法使用依赖关系保留超网络来为目标网络生成权重,同时还保持参数效率。我们建议使用基于复发的神经网络(RNN)的超网络,该网络可以有效地生成层权重,同时允许在它们的依赖关系中。此外,我们为基于RNN的超网络提出了新颖的正则化和网络增长技术,以进一步提高持续的学习绩效。为了证明所提出的方法的有效性,我们对几个图像分类持续学习任务和设置进行了实验。我们发现,基于RNN HyperNetworks的建议方法在所有这些CL设置和任务中都优于基准。
translated by 谷歌翻译
最近的研究表明,先进的前锋在深度生成模型中发挥着重要作用。作为基于示例的基于示例的VAE的变体,示例性VAE已经实现了令人印象深刻的结果。然而,由于模型设计的性质,基于示例的模型通常需要大量的数据来参与训练,这导致巨大的计算复杂性。为了解决这个问题,我们提出了贝叶斯伪移动的样份vae(bype-vae),一种基于Bayesian伪动脉的先前vae的新变种。该提出的先后在小规模的伪电阻上而不是整个数据集进行调节,以降低计算成本并避免过度拟合。同时,在VAE训练期间,通过随机优化算法获得最佳伪验证,旨在最大限度地基于伪移动的基于伪组件的Kullback-Leibler发散,并且基于整个数据集。实验结果表明,Bype-VAE可以在密度估计,代表学习和生成数据增强的任务中实现最先进的VAES对最先进的VAES的竞争改进。特别是,在基本的VAE架构上,Bype-VAE比示例性VAE快3倍,同时几乎保持性能。代码可用于\ url {https:/github.com/aiqz/bype-vae}。
translated by 谷歌翻译
持续学习旨在快速,不断地从一系列任务中学习当前的任务。与其他类型的方法相比,基于经验重播的方法表现出了极大的优势来克服灾难性的遗忘。该方法的一个常见局限性是上一个任务和当前任务之间的数据不平衡,这将进一步加剧遗忘。此外,如何在这种情况下有效解决稳定性困境也是一个紧迫的问题。在本文中,我们通过提出一个通过多尺度知识蒸馏和数据扩展(MMKDDA)提出一个名为Meta学习更新的新框架来克服这些挑战。具体而言,我们应用多尺度知识蒸馏来掌握不同特征级别的远程和短期空间关系的演变,以减轻数据不平衡问题。此外,我们的方法在在线持续训练程序中混合了来自情节记忆和当前任务的样品,从而减轻了由于概率分布的变化而减轻了侧面影响。此外,我们通过元学习更新来优化我们的模型,该更新诉诸于前面所看到的任务数量,这有助于保持稳定性和可塑性之间的更好平衡。最后,我们对四个基准数据集的实验评估显示了提出的MMKDDA框架对其他流行基线的有效性,并且还进行了消融研究,以进一步分析每个组件在我们的框架中的作用。
translated by 谷歌翻译
Continual Learning is considered a key step toward next-generation Artificial Intelligence. Among various methods, replay-based approaches that maintain and replay a small episodic memory of previous samples are one of the most successful strategies against catastrophic forgetting. However, since forgetting is inevitable given bounded memory and unbounded tasks, how to forget is a problem continual learning must address. Therefore, beyond simply avoiding catastrophic forgetting, an under-explored issue is how to reasonably forget while ensuring the merits of human memory, including 1. storage efficiency, 2. generalizability, and 3. some interpretability. To achieve these simultaneously, our paper proposes a new saliency-augmented memory completion framework for continual learning, inspired by recent discoveries in memory completion separation in cognitive neuroscience. Specifically, we innovatively propose to store the part of the image most important to the tasks in episodic memory by saliency map extraction and memory encoding. When learning new tasks, previous data from memory are inpainted by an adaptive data generation module, which is inspired by how humans complete episodic memory. The module's parameters are shared across all tasks and it can be jointly trained with a continual learning classifier as bilevel optimization. Extensive experiments on several continual learning and image classification benchmarks demonstrate the proposed method's effectiveness and efficiency.
translated by 谷歌翻译
现代深度学习需要大规模广泛标记的数据集进行培训。少量学习旨在通过有效地从少数标记的例子中学习来缓解这个问题。在先前提出的少量视觉分类器中,假设对分类器决定的特征歧管具有不相关的特征尺寸和均匀特征方差。在这项工作中,我们专注于通过提出以低标签制度运行的差异敏感的模型来解决这一假设引起的限制。第一种方法简单的CNAP,采用基于分层正规的Mahalanobis距离基于距离的分类器,与现有神经自适应特征提取器的状态相结合,以在元数据集,迷你成像和分层图像基准基准上实现强大性能。我们进一步将这种方法扩展到转换学习设置,提出转导压盖。这种转换方法将软k-means参数细化过程与两步任务编码器相结合,以实现使用未标记数据的改进的测试时间分类精度。转导CNAP在元数据集上实现了最先进的性能。最后,我们探讨了我们的方法(简单和转换)的使用“开箱即用”持续和积极的学习。大规模基准的广泛实验表明了这一点的鲁棒性和多功能性,相对说话,简单的模型。所有培训的模型检查点和相应的源代码都已公开可用。
translated by 谷歌翻译
无数据知识蒸馏(KD)允许从训练有素的神经网络(教师)到更紧凑的一个(学生)的知识转移在没有原始训练数据。现有的作品使用验证集来监视学生通过实际数据的准确性,并在整个过程中报告最高性能。但是,验证数据可能无法在蒸馏时间可用,使得记录实现峰值精度的学生快照即可。因此,实际的无数据KD方法应该是坚固的,理想情况下,在蒸馏过程中理想地提供单调增加的学生准确性。这是具有挑战性的,因为学生因合成数据的分布转移而经历了知识劣化。克服这个问题的直接方法是定期存储和排练生成的样本,这增加了内存占据措施并创造了隐私问题。我们建议用生成网络模拟先前观察到的合成样品的分布。特别地,我们设计了具有训练目标的变形式自动化器(VAE),其定制以最佳地学习合成数据表示。学生被生成的伪重播技术排练,其中样品由VAE产生。因此,可以防止知识劣化而不存储任何样本。在图像分类基准测试中的实验表明,我们的方法优化了蒸馏模型精度的预期值,同时消除了采样存储方法产生的大型内存开销。
translated by 谷歌翻译