许多现实世界的任务表现出丰富的结构,在州空间的不同部分或时间上重复。在这项工作中,我们研究了利用这种重复结构加速和规范学习的可能性。我们从KL正规化的预期奖励目标开始,该目标引入了一个额外的组件,即默认策略。我们不是依赖于固定的默认策略,而是从数据中学习它。但至关重要的是,我们限制默认策略接收的信息量,迫使其学习可重用行为,以帮助策略更快地学习。我们正式化了这一策略,并讨论了与信息瓶颈方法和变分EM算法的联系。我们在离散和连续作用域中提供实证结果,并证明,对于某些任务,在策略旁边学习默认策略可以显着加快和改善学习。
translated by 谷歌翻译
我们介绍了一种基于功能空间上的近似贝叶斯推理而不是深度神经网络参数的有监督连续学习的新方法。我们使用通过将神经网络的最后一层的权重视为随机和高斯分布而获得的高斯过程。用于连续学习的功能正则化自然地通过以顺序方式应用变分稀疏GP推理方法来遇到新任务。在该过程的每个步骤中,构造当前任务的概要,其包括(i)诱导输入和(ii)在这些输入处的函数值的后验分布。本摘要通过出现在变分下界中的Kullback-Leiblerregularisation术语来定期学习未来任务,并减少灾难性遗忘的影响。我们充分发展了方法理论,并证明了它在分类数据集中的有效性,如Split-MNIST,Permuted-MNIST和Omniglot。
translated by 谷歌翻译
神经过程(NPs)(Garnelo等2018a; b)通过学习来回归以将观察到的输入 - 输出对的上下文集映射到分布式回归函数。每个函数都根据上下文对输出的分布进行建模。 NP具有有效拟合数据的优势,具有上下文输入 - 输出对数量的线性复杂度,并且可以学习一大类条件分布;它们学习以仲裁集的上下文集为条件的预测分布。尽管如此,我们还是表明NPs存在一个基本的缺点,即在观察到的数据条件的输入上给出了不准确的预测。我们通过将注意力集中到NP来解决这个问题,允许每个输入位置参与预测的相关上下文点。我们证明,这极大地提高了预测的准确性,显着加快了训练速度,并扩展了可以建模的功能范围。
translated by 谷歌翻译
持续学习是在保护旧知识的同时学习新任务或知识的问题,并且理想地从旧体验中推广以更快地学习新任务。随机梯度下降训练的神经网络在连续训练具有不同数据分布的新任务时经常降级旧任务。这种被称为灾难性遗忘的现象被认为是学习非固定数据或新任务序列的主要障碍,并且阻止网络不断积累知识和技能。我们在强化学习的背景下研究这个问题,在一个代理暴露于序列中的任务的位置。与大多数其他工作不同,我们没有为任务边界模型提供明确的指示,这是学习代理暴露出连续经验的最普遍情况。虽然最近提出了各种抵消灾难性遗忘的方法,但我们探索了一种直截了当,一般而且看似被忽视的解决方案 - 使用经验重放缓冲过去的事件 - 结合政策上和政策外的学习,利用行为克隆。我们表明,这种策略仍然可以快速学习新任务,但可以大大减少Atari和DMLab域中的灾难性遗忘,甚至可以匹配需要任务同等性的方法的性能。当缓冲存储受到约束时,我们确认随机丢弃数据的简单机制允许有限大小的缓冲区最常用以及无条件缓冲区。
translated by 谷歌翻译
神经网络(NN)是参数化函数,可以通过梯度下降来调整以近似标记的高精度数据集合。另一方面,高斯过程(GP)是定义可能函数的分布的概率模型,并且通过概率推理的规则根据数据进行更新。 GP是概率性的,数据有效的和灵活的,但是它们也是计算密集型的,因此它们的适用性受到限制。我们介绍了一类神经潜变量模型,我们称之为神经过程(NPs),结合了两个世界中最好的。与GP类似,NP定义了函数的分布,能够适应新的观察,并且可以估计其预测中的不确定性。与NN一样,NP在培训评估期间具有计算效率,但也学会使其先验适应数据。我们展示了NP在一系列学习任务中的表现,包括回归和优化,并与文献中的相关模型进行比较和对比。
translated by 谷歌翻译
我们为连续学习领域引入了一个概念上简单且可扩展的框架,其中任务是按顺序学习的。我们的方法在参数数量上是恒定的,旨在保持以前遇到的任务的性能,同时加速后续问题的学习进度。这是通过训练具有两个组件的网络来实现的:能够解决先前遇到的问题的知识库,其连接到用于有效地学习当前任务的活动列。在学习新任务后,活动列被提炼到知识库中,注意保护以前获得的任何技能。这种主动学习(进展)循环然后进行整合(压缩)不需要架构增长,不需要访问或存储先前的数据或其他任何特定的参数。我们展示了手写字母顺序分类以及双向强化学习领域的进展和压缩方法:Atari游戏和3D迷宫导航。
translated by 谷歌翻译
Reading comprehension (RC)---in contrast to information retrieval---requiresintegrating information and reasoning about events, entities, and theirrelations across a full document. Question answering is conventionally used toassess RC ability, in both artificial agents and children learning to read.However, existing RC datasets and tasks are dominated by questions that can besolved by selecting answers using superficial information (e.g., local contextsimilarity or global term frequency); they thus fail to test for the essentialintegrative aspect of RC. To encourage progress on deeper comprehension oflanguage, we present a new dataset and set of tasks in which the reader mustanswer questions about stories by reading entire books or movie scripts. Thesetasks are designed so that successfully answering their questions requiresunderstanding the underlying narrative rather than relying on shallow patternmatching or salience. We show that although humans solve the tasks easily,standard RC models struggle on the tasks presented here. We provide an analysisof the dataset and the challenges it presents.
translated by 谷歌翻译
视觉运动估计是自主导航中不可或缺的一个充分研究的挑战。最近的工作集中在解决多动态估计,这在高度动态的环境中尤其具有挑战性。这样的环境不仅包括多个复杂的运动,而且还倾向于表现出明显的遮挡。多目标跟踪的先前工作侧重于保持对象轨道的完整性,但通常依赖于特定的基于外观的描述符或受约束的运动模型。这些方法在特定应用中非常有效,但不能推广到完全的多运动估计问题。本文通过采用物理创建的运动先验,将多运动视觉测距(MVO)管道扩展到通过遮挡(包括摄像机运动)进行多个运动估计。这允许管道连续地估计场景中每个运动的完整轨迹并且识别何时暂时遮挡的运动变得不被遮挡。根据OxfordMultimotion数据集的实际数据评估管道的估算性能。
translated by 谷歌翻译
由于深度网络和大型数据集,已知类别对象的视点估计得到了显着改善,但泛化的已知类别仍然非常具有挑战性。为了提高未知类别的表现,我们引入了类别级别的镜头观点估计问题。我们设计了一个新的框架来成功地为新类别训练视点网络,只有很少的例子(10个或更少)。我们将问题表述为学习估计特定类别的3D扫描形状,相关深度估计和语义2D关键点之一。我们应用元学习来学习我们网络的权重,这些权重是特定于特定类别的微观微调。此外,我们设计了一个灵活的暹罗网络,在元学习过程中最大化信息共享。通过对ObjectNet3D和Pascal3D + benchmark数据集的大量实验,我们证明我们的框架,我们称之为MetaView,明显优于微调状态。 -art模型与fewexamples,我们的方法的具体架构创新是实现良好性能的关键。
translated by 谷歌翻译
我们研究了在多智能体系统中形成共识的有效性,其中既有基于直接证据的信念更新,也有代理之间的信任组合。特别是,我们考虑这样一种情况,即代理人数的增加是在最好的问题上进行合作的,其目的是就一组状态中最好的(或者说是真实的)状态达成共识,每个状态都有不同的质量。价值(或证据水平)。代理人的信念通过质量函数在Dempster-Shafer理论中表示,我们为这个多智能体共识形成问题揭示了四个众所周知的信念组合算子的宏观层次特性:Dempster规则,Yager规则,Dubois&Prade的算子和平均算子。考虑了算子的收敛性质,并针对不同的证据率和噪声水平进行了模拟实验。结果表明,直接证据的更新和代理之间的信念组合的结合导致对最佳状态的更好的共识,仅凭证据更新。我们还发现,在这个框架中,操作员对噪声具有鲁棒性。从广义上讲,Dubois&Prade的运算符可以更好地收敛到最佳状态。最后,我们考虑到针对最佳n问题的Dempster-Shafer方法对大量状态的影响。
translated by 谷歌翻译