In this paper, we introduce a novel variation of model-agnostic meta-learning, where an extra multiplicative parameter is introduced in the inner-loop adaptation. Our variation creates a shortcut in the parameter space for the inner-loop adaptation and increases model expressivity in a highly controllable manner. We show both theoretically and numerically that our variation alleviates the problem of conflicting gradients and improves training dynamics. We conduct experiments on 3 distinctive problems, including a toy classification problem for threshold comparison, a regression problem for wavelet transform, and a classification problem on MNIST. We also discuss ways to generalize our method to a broader class of problems.
translated by 谷歌翻译
我们介绍了SubGD,这是一种新颖的几声学习方法,基于最近的发现,即随机梯度下降更新往往生活在低维参数子空间中。在实验和理论分析中,我们表明模型局限于合适的预定义子空间,可以很好地推广用于几次学习。合适的子空间符合给定任务的三个标准:IT(a)允许通过梯度流量减少训练误差,(b)导致模型良好的模型,并且(c)可以通过随机梯度下降来识别。 SUBGD从不同任务的更新说明的自动相关矩阵的特征组合中标识了这些子空间。明确的是,我们可以识别出低维合适的子空间,用于对动态系统的几次学习,而动态系统具有不同的属性,这些属性由分析系统描述的一个或几个参数描述。这种系统在科学和工程领域的现实应用程序中无处不在。我们在实验中证实了SubGD在三个不同的动态系统问题设置上的优势,在样本效率和性能方面,均超过了流行的几次学习方法。
translated by 谷歌翻译
共享初始化参数的元学习已显示在解决少量学习任务方面非常有效。然而,将框架扩展到许多射击场景,这可能进一步提高其实用性,这一切相对忽略了由于内梯度步长的长链中的元学习的技术困难。在本文中,我们首先表明允许元学习者采取更多的内梯度步骤更好地捕获异构和大规模任务分布的结构,从而导致获得更好的初始化点。此外,为了增加元更新的频率,即使是过度长的内部优化轨迹,我们建议估计关于初始化参数的改变的任务特定参数的所需移位。通过这样做,我们可以随意增加元更新的频率,从而大大提高了元级收敛以及学习初始化的质量。我们验证了我们在异构的大规模任务集中验证了方法,并表明该算法在泛型性能和收敛方面以及多任务学习和微调基线方面主要优于先前的一阶元学习方法。 。
translated by 谷歌翻译
几乎没有学习方法的目的是训练模型,这些模型可以根据少量数据轻松适应以前看不见的任务。最受欢迎,最优雅的少学习方法之一是模型敏捷的元学习(MAML)。这种方法背后的主要思想是学习元模型的一般权重,该权重进一步适应了少数梯度步骤中的特定问题。但是,该模型的主要限制在于以下事实:更新过程是通过基于梯度的优化实现的。因此,MAML不能总是在一个甚至几个梯度迭代中将权重修改为基本水平。另一方面,使用许多梯度步骤会导致一个复杂且耗时的优化程序,这很难在实践中训练,并且可能导致过度拟合。在本文中,我们提出了HyperMAML,这是MAML的新型概括,其中更新过程的训练也是模型的一部分。也就是说,在HyperMAML中,我们没有使用梯度下降来更新权重,而是为此目的使用可训练的超级净机。因此,在此框架中,该模型可以生成重大更新,其范围不限于固定数量的梯度步骤。实验表明,超型MAML始终胜过MAML,并且在许多标准的几次学习基准测试基准中与其他最先进的技术相当。
translated by 谷歌翻译
We propose an algorithm for meta-learning that is model-agnostic, in the sense that it is compatible with any model trained with gradient descent and applicable to a variety of different learning problems, including classification, regression, and reinforcement learning. The goal of meta-learning is to train a model on a variety of learning tasks, such that it can solve new learning tasks using only a small number of training samples. In our approach, the parameters of the model are explicitly trained such that a small number of gradient steps with a small amount of training data from a new task will produce good generalization performance on that task. In effect, our method trains the model to be easy to fine-tune. We demonstrate that this approach leads to state-of-the-art performance on two fewshot image classification benchmarks, produces good results on few-shot regression, and accelerates fine-tuning for policy gradient reinforcement learning with neural network policies.
translated by 谷歌翻译
受到预处理的概念的启发,我们提出了一种新的方法,以提高基于梯度的元学习方法的适应速度,而不会产生额外的参数。我们证明,将优化问题重新验证到非线性最小二乘配方,提供了一种原则性的方法,可以根据条件编号和本地的概念来主动执行$ \ textIt {wittercitioned} $参数空间,用于元学习模型曲率。我们的全面评估表明,所提出的方法大大优于其不受限制的对应物,尤其是在初始适应步骤中,同时在几个几次分类任务上取得了可比或更好的总体结果 - 创造了动态选择推断时间的适应性步骤数量的可能性。
translated by 谷歌翻译
模型不合时宜的元学习(MAML)可以说是当今最流行的元学习算法之一。然而,它在几次分类上的性能远远远远远远远远远远远远远远落在许多致力于该问题的算法。在本文中,我们指出了如何训练MAML以进行几次分类的几个关键方面。首先,我们发现MAML在其内部循环更新中需要大量的梯度步骤,这与其常见的用法相矛盾。其次,我们发现MAML对元测试过程中的类标签分配敏感。具体而言,MAML Meta-Trains $ n$道分类器的初始化。这些$ n $方式,在元测试期间,然后具有“ $ n!$”的“ $ n!$”排列,并与$ n $新颖的课程配对。我们发现这些排列会导致巨大的准确性差异,从而使MAML不稳定。第三,我们研究了几种使MAML置换不变的方法,其中元训练单个向量以初始化分类头中的所有$ n $重量矢量的初始化。在Miniimagenet和Tieredimagenet等基准数据集上,我们命名Unicorn-MAML的方法在不牺牲MAML的简单性的情况下以与许多最近的几杆分类算法相同甚至优于许多近期的几个次数分类算法。
translated by 谷歌翻译
模型不合时宜的元学习(MAML)是最成功的元学习技术之一。它使用梯度下降来学习各种任务之间的共同点,从而使模型能够学习其自身参数的元定义,以使用少量标记的培训数据快速适应新任务。几次学习的关键挑战是任务不确定性。尽管可以从具有大量任务的元学习中获得强大的先验,但是由于训练数据集的数量通常太小,因此无法保证新任务的精确模型。在这项研究中,首先,在选择初始化参数的过程中,为特定于任务的学习者提出了新方法,以适应性地学习选择最小化新任务损失的初始化参数。然后,我们建议对元损失部分的两种改进的方法:方法1通过比较元损失差异来生成权重,以提高几个类别时的准确性,而方法2引入了每个任务的同质不确定性,以根据多个损失,以基于多个损失。原始的梯度下降是一种增强新型类别的概括能力的方式,同时确保了准确性的提高。与以前的基于梯度的元学习方法相比,我们的模型在回归任务和少量分类中的性能更好,并提高了模型的鲁棒性,对元测试集中的学习率和查询集。
translated by 谷歌翻译
元学习方法旨在构建能够快速适应低数据制度的新任务的学习算法。这种算法的主要基准之一是几次学习问题。在本文中,我们调查了在培训期间采用多任务方法的标准元学习管道的修改。该提出的方法同时利用来自常见损​​失函数中的几个元训练任务的信息。每个任务在损耗功能中的影响由相应的重量控制。正确优化这些权重可能对整个模型的训练产生很大影响,并且可能会提高测试时间任务的质量。在这项工作中,我们提出并调查了使用同时扰动随机近似(SPSA)方法的方法的使用方法,用于元列车任务权重优化。我们还将提出的算法与基于梯度的方法进行了比较,发现随机近似表明了测试时间最大的质量增强。提出的多任务修改可以应用于使用元学习管道的几乎所有方法。在本文中,我们研究了这种修改对CiFar-FS,FC100,TieredimAgenet和MiniimAgenet几秒钟学习基准的原型网络和模型 - 不可知的元学习算法。在这些实验期间,多任务修改已经证明了对原始方法的改进。所提出的SPSA跟踪算法显示了对最先进的元学习方法具有竞争力的最大精度提升。我们的代码可在线获取。
translated by 谷歌翻译
最近对基于细粒的基于草图的图像检索(FG-SBIR)的重点已转向将模型概括为新类别,而没有任何培训数据。但是,在现实世界中,经过训练的FG-SBIR模型通常应用于新类别和不同的人类素描器,即不同的绘图样式。尽管这使概括问题复杂化,但幸运的是,通常可以使用一些示例,从而使模型适应新的类别/样式。在本文中,我们提供了一种新颖的视角 - 我们没有要求使用概括的模型,而是提倡快速适应的模型,在测试过程中只有很少的样本(以几种方式)。为了解决这个新问题,我们介绍了一种基于几个关键修改的基于新型的模型 - 静态元学习(MAML)框架:(1)作为基于边缘的对比度损失的检索任务,我们简化了内部循环中的MAML训练使其更稳定和易于处理。 (2)我们的对比度损失的边距也通过其余模型进行了元学习。 (3)在外循环中引入了另外三个正规化损失,以使元学习的FG-SBIR模型对类别/样式适应更有效。在公共数据集上进行的广泛实验表明,基于概括和基于零射的方法的增益很大,还有一些强大的射击基线。
translated by 谷歌翻译
神经网络需要大量的注释数据才能学习。元学习算法提出了一种将训练样本数量减少到少数的方法。最突出的基于优化的元学习算法之一是模型敏捷的元学习(MAML)。但是,适应MAML新任务的关键过程非常慢。在这项工作中,我们提出了对MAML元学习算法的改进。我们介绍了lambda模式,通过这些模式,我们限制了在适应阶段在网络中更新的重量。这使得可以跳过某些梯度计算。选择最快的图案给定允许的质量降解阈值参数。在某些情况下,通过仔细的模式选择可以提高质量。进行的实验表明,通过Lambda适应模式选择,可以在以下区域显着改善MAML方法:适应时间已减少3倍,而精度损失最小;一步适应的准确性已大大提高。
translated by 谷歌翻译
由于在具有不同资源预算的各种平台上的模型部署方便,因此具有自适应位的深度神经网络量化已引起了人们的关注。在本文中,我们提出了一种元学习方法来实现这一目标。具体而言,我们提出了MEBQAT,这是一种简单而有效的自适应量化意识训练(QAT)的方法,在该方法中,通过重新定义元学习任务以合并位宽,将元学习与QAT有效合并。部署在平台上后,MEBQAT允许将(Meta-)训练的模型量化为任何候选位宽,然后有助于进行推理,而无需过多准确地量化。此外,通过一些学习方案,MEBQAT还可以通过添加常规优化或基于公制的元学习来使模型以及任何看不见的目标类调整模型。我们设计了MEBQAT的变体,以支持(1)(1)位置自适应量化方案和(2)新的几次学习方案,在该方案中,量化位低和目标类都是共同调整的。我们通过实验证明了它们在多个QAT方案中的有效性。通过将它们的性能与(Bitwidth-dedicatied)QAT,现有的Bitwidth自适应QAT和Vanilla Meta-Learning进行比较,我们发现将Bitwidths合并到元学习任务中可以达到更高的鲁棒性。
translated by 谷歌翻译
学识渊博的优化器 - 经过训练可以充当优化器的神经网络 - 有可能大大加速机器学习模型的培训。但是,即使以巨大的计算费用进行了数千个任务进行元训练,Blackbox学会的优化者在应用于任务的稳定性和概括方面也经常在其元训练集中使用。在本文中,我们使用动力学系统中的工具来研究优化算法的电感偏差和稳定性,并将所得的见解应用于设计黑框优化器的电感偏置。我们的调查始于嘈杂的二次模型,在该模型中,根据训练动力学的特征值,我们表征了优化稳定的条件。然后,我们将简单的修改引入了学到的优化器的体系结构和元训练过程,从而改善了稳定性,并改善了优化器的电感偏置。我们将最终学习的优化器应用于各种神经网络训练任务,在优化性能和元训练速度方面,它的表现优于当前的最新技术优化器(在匹配的优化器计算上的开销),并且能够实现对任务的概括与受元训练的任务大不相同。
translated by 谷歌翻译
A core capability of intelligent systems is the ability to quickly learn new tasks by drawing on prior experience. Gradient (or optimization) based meta-learning has recently emerged as an effective approach for few-shot learning. In this formulation, meta-parameters are learned in the outer loop, while task-specific models are learned in the inner-loop, by using only a small amount of data from the current task. A key challenge in scaling these approaches is the need to differentiate through the inner loop learning process, which can impose considerable computational and memory burdens. By drawing upon implicit differentiation, we develop the implicit MAML algorithm, which depends only on the solution to the inner level optimization and not the path taken by the inner loop optimizer. This effectively decouples the meta-gradient computation from the choice of inner loop optimizer. As a result, our approach is agnostic to the choice of inner loop optimizer and can gracefully handle many gradient steps without vanishing gradients or memory constraints. Theoretically, we prove that implicit MAML can compute accurate meta-gradients with a memory footprint no more than that which is required to compute a single inner loop gradient and at no overall increase in the total computational cost. Experimentally, we show that these benefits of implicit MAML translate into empirical gains on few-shot image recognition benchmarks.
translated by 谷歌翻译
A central capability of intelligent systems is the ability to continuously build upon previous experiences to speed up and enhance learning of new tasks. Two distinct research paradigms have studied this question. Meta-learning views this problem as learning a prior over model parameters that is amenable for fast adaptation on a new task, but typically assumes the tasks are available together as a batch. In contrast, online (regret based) learning considers a setting where tasks are revealed one after the other, but conventionally trains a single model without task-specific adaptation. This work introduces an online meta-learning setting, which merges ideas from both paradigms to better capture the spirit and practice of continual lifelong learning. We propose the follow the meta leader (FTML) algorithm which extends the MAML algorithm to this setting. Theoretically, this work provides an O(log T ) regret guarantee with one additional higher order smoothness assumption (in comparison to the standard online setting). Our experimental evaluation on three different largescale problems suggest that the proposed algorithm significantly outperforms alternatives based on traditional online learning approaches.
translated by 谷歌翻译
对抗性扰动对于证明深度学习模型的鲁棒性至关重要。通用的对抗扰动(UAP)可以同时攻击多个图像,因此提供了更统一的威胁模型,从而避免了图像攻击算法。但是,当从不同的图像源绘制图像时(例如,具有不同的图像分辨率)时,现有的UAP生成器不发达。在图像来源的真实普遍性方面,我们将UAP生成的新颖看法是一个定制的几个实例,它利用双杆优化和学习优化的(L2O)技术(L2O)技术,以提高攻击成功率(ASR)(ASR) )。我们首先考虑流行模型不可知的元学习(MAML)框架,以将UAP生成器元素进行。但是,我们看到MAML框架并未直接提供跨图像源的通用攻击,从而要求我们将其与L2O的另一个元学习框架集成在一起。元学习UAP发电机(i)的最终方案的性能(ASR高50%)比预计梯度下降等基线的方案(II)比香草L2O和MAML框架的性能更好(37%)(当适用),(iii)能够同时处理不同受害者模型和图像数据源的UAP生成。
translated by 谷歌翻译
基于优化的元学习旨在学习初始化,以便在一些梯度更新中可以学习新的看不见的任务。模型不可知的元学习(MAML)是一种包括两个优化回路的基准算法。内部循环致力于学习一项新任务,并且外循环导致元定义。但是,Anil(几乎没有内部环)算法表明,功能重用是MAML快速学习的替代方法。因此,元定义阶段使MAML用于特征重用,并消除了快速学习的需求。与Anil相反,我们假设可能需要在元测试期间学习新功能。从非相似分布中进行的一项新的看不见的任务将需要快速学习,并重用现有功能。在本文中,我们调用神经网络的宽度深度二元性,其中,我们通过添加额外的计算单元(ACU)来增加网络的宽度。 ACUS可以在元测试任务中学习新的原子特征,而相关的增加宽度有助于转发通行证中的信息传播。新学习的功能与最后一层的现有功能相结合,用于元学习。实验结果表明,我们提出的MAC方法的表现优于现有的非相似任务分布的Anil算法,约为13%(5次任务设置)
translated by 谷歌翻译
Training models that generalize to new domains at test time is a problem of fundamental importance in machine learning. In this work, we encode this notion of domain generalization using a novel regularization function. We pose the problem of finding such a regularization function in a Learning to Learn (or) metalearning framework. The objective of domain generalization is explicitly modeled by learning a regularizer that makes the model trained on one domain to perform well on another domain. Experimental validations on computer vision and natural language datasets indicate that our method can learn regularizers that achieve good cross-domain generalization.
translated by 谷歌翻译
近年来,元学习领域令人兴奋地兴起。在现有的元学习方法中,通常从公共数据集收集培训元模型的学习任务,这带来了具有大量培训数据获得足够数量的元学习任务的难度。在本文中,我们提出了一种基于随机产生的元学习任务的元学习方法,以基于大数据获得用于分类学习的参数损失。损失由深度神经网络表示,称为META损耗网络(MLN)。要培训MLN,我们通过随机生成培训数据,验证数据和相应的地面图线性分类器来构建大量分类学习任务。我们的方法有两个优点。首先,可以容易地获得具有大量训练数据的足够的元学习任务。其次,给出了地面真理分类器,因此可以测量学习分类器和地面实模之间的差异,以更精确地反映MLN的性能而不是验证精度。基于这种差异,我们应用进化策略算法找出最佳MLN。结果MLN不仅导致对生成的线性分类器学习任务进行测试的令人满意的学习效果,而且在生成的非线性分类器学习任务和各种公共分类任务中也表现得非常好。我们的MLN稳定超过跨熵(CE)和均方误差(MSE),以测试精度和泛化能力。这些结果说明了使用生成的学习任务实现令人满意的元学习效果的可能性。
translated by 谷歌翻译
Backpropagation is widely used to train artificial neural networks, but its relationship to synaptic plasticity in the brain is unknown. Some biological models of backpropagation rely on feedback projections that are symmetric with feedforward connections, but experiments do not corroborate the existence of such symmetric backward connectivity. Random feedback alignment offers an alternative model in which errors are propagated backward through fixed, random backward connections. This approach successfully trains shallow models, but learns slowly and does not perform well with deeper models or online learning. In this study, we develop a novel meta-plasticity approach to discover interpretable, biologically plausible plasticity rules that improve online learning performance with fixed random feedback connections. The resulting plasticity rules show improved online training of deep models in the low data regime. Our results highlight the potential of meta-plasticity to discover effective, interpretable learning rules satisfying biological constraints.
translated by 谷歌翻译