我们提出短暂价值调整(EVA):一种允许深度执行学习代理快速适应重播缓冲经验的方法。 EVA通过对来自当前状态附近的重放缓冲区的经验元组进行规划而得到的值函数的估计来改变由神经网络预测的值。 EVA结合了许多近期的想法,将类似情节记忆的结构组合成强化学习代理:基于插槽的存储,基于内容的检索和基于内存的规划。我们展示了EVA在演示任务和Atari游戏中的表现。
translated by 谷歌翻译
元学习代理擅长从开放式任务分配中快速学习新任务;然而,一旦下文开始,他们就会忘记他们对每项任务的了解。当任务重新出现时 - 就像在自然环境中那样 - 学习代理必须再次探索而不是立即利用以前发现的解决方案。我们提出了一种形式化,用于生成开放式但重复的环境,然后开发一种元学习架构来解决这些环境。这种架构将标准的LSTM工作记忆与可微分的神经情景记忆融合在一起。我们利用这种情节LSTM在五个学习环境中探索具有重复发生任务的代理的能力,包括强盗导航和随机序列决策问题。
translated by 谷歌翻译
我们表明,辍学训练最好被理解为同时对一系列条件模型进行MAP估计,这些条件模型的目标本身较低的原始辍学目标。这一发现使我们能够在训练后从这个家族中挑选出任何模型,从而大大改善正规化 - 重型语言建模。该族包括计算采样辍学掩模上的幂均值的模型,以及具有比完全随机辍学目标更紧密和更高下界的较不随机的子变量。我们认为,由于确定性不变量的界限等于其目标,并且在这些模型中最高,因此它作为MC平均的良好近似的主要观点是误导性的。相反,确定性丢失是真实目标的最佳可用近似值。
translated by 谷歌翻译
We introduce NoisyNet, a deep reinforcement learning agent with parametricnoise added to its weights, and show that the induced stochasticity of theagent's policy can be used to aid efficient exploration. The parameters of thenoise are learned with gradient descent along with the remaining networkweights. NoisyNet is straightforward to implement and adds little computationaloverhead. We find that replacing the conventional exploration heuristics forA3C, DQN and dueling agents (entropy reward and $\epsilon$-greedy respectively)with NoisyNet yields substantially higher scores for a wide range of Atarigames, in some cases advancing the agent from sub to super-human performance.
translated by 谷歌翻译
深度神经网络(NN)是强大的黑盒预测器,在广泛的任务中最近取得了令人印象深刻的性能。在NN中预测不确定性是一个具有挑战性且尚未解决的问题。学习权重分布的贝叶斯神经网络目前是估计预测不确定性的最新技术;然而,与标准(非贝叶斯)NN相比,这些需要对训练过程进行重大修改并且计算成本高。我们提出了贝叶斯NN的替代方案,其易于实现,易于并行化,需要非常少的超参数调整,并产生高质量预测不确定性估计。通过一系列关于分类和回归基准的实验,我们证明了我们的方法产生了经过良好校准的不确定性估计,这些估计与近似贝叶斯NN一样好或更好。为了评估数据集移位的稳健性,我们评估了已知和未知分布的测试实例的预测不确定性,并表明我们的方法能够在分布式实例中表达更高的不确定性。我们通过评估ImageNet上的预测不确定性估计来证明我们方法的可扩展性。
translated by 谷歌翻译
从一些例子中学习仍然是机器学习中的一个关键挑战。尽管最近在视觉和语言等重要领域取得了进展,但标准的监督深度学习范式并没有为从小数据中快速学习新概念提供令人满意的解决方案。在这项工作中,我们采用基于深度神经特征的度量学习和最近通过外部记忆增强神经网络的方法来提出想法。我们的框架构建了一个网络,该网络将一个小的标记支持集和一个unlabelledexample映射到其标签,从而无需进行微调以适应新的类型。然后,我们定义了关于视觉(使用Omniglot,ImageNet)和语言任务的一次性学习问题。与竞争方法相比,我们的算法将Omniglot上的一次性精度从87.6%提高到93.2%,从88.0%提高到93.8%。我们还通过在Penn Treebank上引入一次性任务来证明同一模型在语言建模上的有用性。
translated by 谷歌翻译
在复杂环境中进行有效的探索仍然是加强学习的主要挑战。我们提出了自举DQN,这是一种简单的算法,可以通过使用随机值函数以计算和统计有效的方式进行测试。与诸如epsilon-greedyexploration之类的抖动策略不同,自举DQN执行时间延长(或深度)探索;这可以导致学习成倍增长。我们在复杂的随机MDP和大规模的ArcadeLearning环境中展示了这些优势。 Bootstrapped DQN大大改善了大多数Atari游戏的学习时间和性能。
translated by 谷歌翻译
我们引入了一种新的,高效的,有原则的和反向传播兼容的算法,用于学习神经网络权重的概率分布,由Backprop称为贝叶斯。它通过最小化压缩成本来规范权重,称为变化自由能或边际可能性的预期下限。我们表明,这种原则性的规范化产生了与MNIST分类中的辍学相当的性能。然后,我们演示了如何利用权重中学到的不确定性来改进非线性回归问题的推广,并且如何将这种权重不确定性用于推动强化学习中的探索 - 开发 - 交易。
translated by 谷歌翻译
We introduce a deep, generative autoencoder capable of learning hierarchiesof distributed representations from data. Successive deep stochastic hiddenlayers are equipped with autoregressive connections, which enable the model tobe sampled from quickly and exactly via ancestral sampling. We derive anefficient approximate parameter estimation method based on the minimumdescription length (MDL) principle, which can be seen as maximising avariational lower bound on the log-likelihood, with a feedforward neuralnetwork implementing approximate inference. We demonstrate state-of-the-artgenerative performance on a number of classic data sets: several UCI data sets,MNIST and Atari 2600 games.
translated by 谷歌翻译
群集是数据分析和机器学习的基本任务之一。在许多情况下,相同数据集的不同聚类变得相关。例如,针对相同群集任务的不同算法可能会返回截然不同的解决方案。我们感兴趣的是一个集群必须转换成另一个集群的应用程序;例如,当需要从旧解决方案逐渐过渡到新解决方案时。在本文中,我们设计了基于线性规划和网络理论构建这种转换的方法。我们使用所谓的聚类差异图来模拟所需的转换,并提供将图分解为完成转换的基本移动的序列的方法。这些移动相当于底层分区多边形的边缘方向或电路。因此,除了用于测量聚类之间距离的概念上新的度量之外,我们还提供了这些分区多面体的电路直径的新界限。
translated by 谷歌翻译