我们提出短暂价值调整(EVA):一种允许深度执行学习代理快速适应重播缓冲经验的方法。 EVA通过对来自当前状态附近的重放缓冲区的经验元组进行规划而得到的值函数的估计来改变由神经网络预测的值。 EVA结合了许多近期的想法,将类似情节记忆的结构组合成强化学习代理:基于插槽的存储,基于内容的检索和基于内存的规划。我们展示了EVA在演示任务和Atari游戏中的表现。
translated by 谷歌翻译
鲍德温效应的范围最近受到两位人士的质疑,他们仔细研究了辛顿和诺兰的开创性工作。到目前为止,没有证明其在经验挑战性任务中的必要性。在这里,我们通过塑造高度参数和深度学习算法的初始参数,表明Baldwin效应能够演化出射击监督和强化学习机制。此外,它可以作为最近的机器学习算法在同一组问题上基因上适应强大的学习偏差。称为MAML“ModelAgnostic元学习”,它使用二阶梯度而不是进化来学习一组参考参数(初始权重),这些参数可以允许快速适应从分布中采样的任务。虽然在简单的情况下MAML比Baldwin效应更有效,但Baldwin效应更为通用,因为它不需要将梯度反向传播到参考参数或超参数,并且允许在内环中有效地允许任意数量的梯度更新。 Baldwin效应学习强大的学习依赖性,而不是纯粹基因学习,以独立于学习的方式适应固定行为。
translated by 谷歌翻译
在基于模型的强化学习中,可以利用环境的生成和时间模型来提高代理性能,或者通过在训练期间调整代理的表示,或者通过使用作为显式规划机制的一部分。然而,由于难以在较大的,可能部分观察的和3D环境中训练这些模型,它们在实践中的应用受限于简单的环境。在这项工作中,我们引入了这种挑战性环境的新型动作条件生成模型。该模型具有非参数空间记忆系统,其中我们存储学习的,解开的环境表示。低维空间更新使用状态空间模型计算,该模型利用关于移动代理的先前动态的知识和高维度视觉观察用VariationalAuto-Encoder建模。结果是一个可扩展的架构,能够在一系列部分观察到的2D和3D环境中执行数百个时间步长的相干预测。
translated by 谷歌翻译
深度神经网络(NN)是强大的黑盒预测器,在广泛的任务中最近取得了令人印象深刻的性能。在NN中预测不确定性是一个具有挑战性且尚未解决的问题。学习权重分布的贝叶斯神经网络目前是估计预测不确定性的最新技术;然而,与标准(非贝叶斯)NN相比,这些需要对训练过程进行重大修改并且计算成本高。我们提出了贝叶斯NN的替代方案,其易于实现,易于并行化,需要非常少的超参数调整,并产生高质量预测不确定性估计。通过一系列关于分类和回归基准的实验,我们证明了我们的方法产生了经过良好校准的不确定性估计,这些估计与近似贝叶斯NN一样好或更好。为了评估数据集移位的稳健性,我们评估了已知和未知分布的测试实例的预测不确定性,并表明我们的方法能够在分布式实例中表达更高的不确定性。我们通过评估ImageNet上的预测不确定性估计来证明我们方法的可扩展性。
translated by 谷歌翻译
在复杂环境中进行有效的探索仍然是加强学习的主要挑战。我们提出了自举DQN,这是一种简单的算法,可以通过使用随机值函数以计算和统计有效的方式进行测试。与诸如epsilon-greedyexploration之类的抖动策略不同,自举DQN执行时间延长(或深度)探索;这可以导致学习成倍增长。我们在复杂的随机MDP和大规模的ArcadeLearning环境中展示了这些优势。 Bootstrapped DQN大大改善了大多数Atari游戏的学习时间和性能。
translated by 谷歌翻译
我们将深度Q学习成功的思想适应于连续行动领域。我们提出了一个演员评论家,无模型算法基于确定性政策梯度,可以在连续作用空间上运作。使用相同的学习算法,网络架构和超参数,我们的算法可以有力地解决20多个模拟物理任务,包括经典问题,如推车摆动,灵巧操作,腿式运动和汽车驾驶。我们的算法能够找到性能与计划算法所发现的竞争对手的策略,这些策略可以完全访问域及其衍生物的动态。我们进一步证明,对于许多任务,算法可以直接从端到端学习策略:原始像素输入。
translated by 谷歌翻译
在这项研究中,我们提出了仿射变分自动编码器(AVAE),变体自动编码器(VAE)的变量,旨在通过避免VAE无法推广到仿射扰动形式的分布变化来提高鲁棒性。通过优化仿射变换以最大化ELBO,所提出的AVAE将输入转换为训练分布而不需要增加模型复杂度以模拟仿射变换的完整分布。此外,我们引入了一个培训程序,通过学习训练分布的子集来创建有效的模型,并使用AVAE来改善分布式移位证明时间的泛化和鲁棒性。对仿射扰动的实验表明,所提出的AVAE显着改善了仿射扰动形式的分布均匀性的推广和鲁棒性,而不增加模型复杂性。
translated by 谷歌翻译
本文介绍了自动驾驶汽车的算法和系统架构。引入的车辆由设计用于鲁棒性,可靠性和可扩展性的软件栈提供动力。为了自主地绕过先前未知的轨道,所提出的解决方案结合了来自不同机器人领域的技术的状态。具体而言,感知,估计和控制被合并到一个高性能自主车辆中。这个复杂的机器人系统由AMZ Driverless和ETHZurich开发,在我们参加的每个比赛中获得第一名:Formula StudentGermany 2017,Formula Student Italy 2018和Formula Student Germany 2018. Wediscuss这些比赛的结果和学习,并对每个模块进行实验评估我们的解决方案
translated by 谷歌翻译
我们建议使用随机变分帧预测深度神经网络,其中学习的先验分布训练在二维雨雷达反射率图上,用于降水临近预报,导致时间高达2 1/2小时。我们提出了与标准卷积LSTM网络的比较,并评估了两种方法的结构相似性指数的演变。案例研究表明,新方法可以产生有意义的预测,而不会在感兴趣的时间范围内过度模糊。
translated by 谷歌翻译
涉及多艘船舶的海上碰撞被认为是罕见的,但在2017年,美国海军的几艘船只涉及致命的海上碰撞,导致17名美国军人死亡。本文介绍的实验是对这些事件的直接反应。我们提出了一种基于视频图像处理的舰载碰撞 - 海上避让系统,它将有助于确保海上船只的安全驻留和导航。我们的系统利用在合成海事图像上训练的卷积神经网络,以便在场景中检测附近的船只,对检测到的船只进行航向分析,并在入境船舶存在的情况下提供analert。此外,我们还提供了导航危害 - 合成(NAVHAZ-Synthetic)数据集。该数据集包括从虚拟船载摄像机观察到的十个船级的一百万个注释图像,以及人类“Topside Lookout”视角。 NAVHAZ-Synthetic包括显示不同海况,光照条件和光学降解(如雾,海浪和盐积累)的图像。我们展示了在基于计算机视觉的海上碰撞预警系统中使用合成图像的结果,该系统具有良好的性能。
translated by 谷歌翻译