无监督的表示学习在多种应用中取得了优异的成果。它是一种特别强大的工具,可以通过部分或嘈杂的观察来学习环境的良好表现。在部分可观察的域中,表示编码信念状态是很重要的,这是迄今为止所观察到的观察的充分统计量。在本文中,我们研究是否有可能使用现代神经结构来学习这种信念表示。具体而言,我们关注一步帧预测和对比预测编码(CPC)的两种变体作为学习表示的目标函数。为了评估这些学习的代表性,我们测试他们如何能够预测关于环境潜在状态的各种信息,例如,代理在3D迷宫中的位置。我们表明,这三种方法都能够学习环境的信念表示,它们不仅编码国家信息,还编码其不确定性,这是信仰状态的一个重要方面。我们还发现,对于CPC多步骤预测和行动调节是视觉复杂环境中的关键功能信念表示。神经表征捕获信念信息的能力有可能刺激部分可观察领域的学习和规划的新进展,其中利用不确定性对于最优决策制定至关重要。
translated by 谷歌翻译
我们研究了对通用对抗性扰动有效的学习分类器的问题。虽然先前的工作通过强大的优化,对抗性训练或输入转换来解决这个问题,但我们却将其称为双人零和游戏。在这个新的配方中,两个玩家同时玩同一个游戏,其中一个玩家选择最小化分类损失的分类器,而另一个玩家创建一个对抗性扰动,当应用于训练集中的每个样本时增加相同的损失。通过观察执行分类(分别创建对抗样本)是对其他玩家的最佳响应,我们提出了游戏理论算法的新颖扩展,即虚拟游戏,到训练强健分类器的领域。最后,我们在两个防御场景中经验性地展示了我们的方法的稳健性和多功能性,其中对几个图像分类数据集(CIFAR10,CIFAR100和ImageNet)执行了通用攻击。
translated by 谷歌翻译
The deep reinforcement learning community has made several independentimprovements to the DQN algorithm. However, it is unclear which of theseextensions are complementary and can be fruitfully combined. This paperexamines six extensions to the DQN algorithm and empirically studies theircombination. Our experiments show that the combination providesstate-of-the-art performance on the Atari 2600 benchmark, both in terms of dataefficiency and final performance. We also provide results from a detailedablation study that shows the contribution of each component to overallperformance.
translated by 谷歌翻译
我们提出了一种通用且无模型的方法,用于对具有稀疏奖励的真实机器人进行强化学习(RL)。我们基于Deep DeterministicPolicy Gradient(DDPG)算法来使用演示。演示和实际交互都用于填充重放缓冲区,演示和转换之间的采样比例通过优先级重放机制自动调整。通常,需要精心设计的整形奖励以使代理能够有效地探索诸如机器人之类的高维控制问题。它们也是基于模型的加速方法所必需的,这些方法依赖于诸如iLQG之类的本地求解器(例如,引导策略搜索和规范化优势函数)。这些演示取代了对精心设计的奖励的需求,并减少了这些领域中经典RL方法遇到的探索问题。示威活动是由一名人类示威者动力控制的机器人收集的。关于模拟插入任务的结果表明,来自示范的DDPG优于DDPG,并且不需要工程奖励。最后,我们演示了一个真正的机器人任务的方法,包括将一个剪辑(灵活的对象)插入到刚体对象中。
translated by 谷歌翻译
We introduce NoisyNet, a deep reinforcement learning agent with parametricnoise added to its weights, and show that the induced stochasticity of theagent's policy can be used to aid efficient exploration. The parameters of thenoise are learned with gradient descent along with the remaining networkweights. NoisyNet is straightforward to implement and adds little computationaloverhead. We find that replacing the conventional exploration heuristics forA3C, DQN and dueling agents (entropy reward and $\epsilon$-greedy respectively)with NoisyNet yields substantially higher scores for a wide range of Atarigames, in some cases advancing the agent from sub to super-human performance.
translated by 谷歌翻译
在这项工作中,我们提出了一种新的代理体系结构,称为Reactor,它结合了多种算法和体系结构的贡献来生成具有比优先级Dueling DQN(Wang et al。,2016)和Categorical DQN(Bellemare et al。,2017)更高样本效率的试剂。 ,同时提供比A3C更好的运行时间性能(Mnih等,2016)。我们的第一个贡献是一种名为Distributional Retrace的新政策评估算法,该算法为分布式强化学习设置带来了多步骤的政策更新。可以使用相同的方法来转换几类多步策略评估算法,这些算法是为分布式预期值评估而设计的。接下来,我们介绍\ b {eta} -leave-one-out政策梯度算法,该算法通过将动作值用作基线来改善方差和偏差之间的权衡。我们的最终算法贡献是用于序列的新优先级重放算法,其利用邻近观察的时间性来更有效地重放优先级。使用Atari 2600基准,我们表明这些创新中的每一个都有助于样本效率和最终代理性能。最后,我们证明了Reactor在2亿帧和不到一天的训练后达到了最先进的性能。
translated by 谷歌翻译
Deep reinforcement learning (RL) has achieved several high profile successesin difficult decision-making problems. However, these algorithms typicallyrequire a huge amount of data before they reach reasonable performance. Infact, their performance during learning can be extremely poor. This may beacceptable for a simulator, but it severely limits the applicability of deep RLto many real-world tasks, where the agent must learn in the real environment.In this paper we study a setting where the agent may access data from previouscontrol of the system. We present an algorithm, Deep Q-learning fromDemonstrations (DQfD), that leverages small sets of demonstration data tomassively accelerate the learning process even from relatively small amounts ofdemonstration data and is able to automatically assess the necessary ratio ofdemonstration data while learning thanks to a prioritized replay mechanism.DQfD works by combining temporal difference updates with supervisedclassification of the demonstrator's actions. We show that DQfD has betterinitial performance than Prioritized Dueling Double Deep Q-Networks (PDD DQN)as it starts with better scores on the first million steps on 41 of 42 gamesand on average it takes PDD DQN 83 million steps to catch up to DQfD'sperformance. DQfD learns to out-perform the best demonstration given in 14 of42 games. In addition, DQfD leverages human demonstrations to achievestate-of-the-art results for 11 games. Finally, we show that DQfD performsbetter than three related algorithms for incorporating demonstration data intoDQN.
translated by 谷歌翻译
从数据中学习机器人的动态可以帮助实现更精确的跟踪控制器,或者帮助他们的导航算法。然而,当机器人的实际动态因外部条件而发生变化时,需要对其模型进行在线适应以保持高保真性能。在这项工作中,开发了一种机器人动力学在线学习框架,以适应这种变化。建议的框架采用增量支持向量回归方法从数据流中顺序学习模型。结合增量学习,开发了包含和遗忘数据的策略,以便在整个状态空间中获得更好的概括。该框架在模拟和真实实验场景中进行了测试,展示了其对机器人动力学变化的适应能力。
translated by 谷歌翻译
由于其无处不在且普遍存在,Wi-Fi网络具有收集关于多模式传输的大规模,低成本和分解数据的潜力。在这项研究中,我们开发了一个半监督的深度残留网络(ResNet)框架,以利用从智能手机获得的Wi-Fi通信来进行运输模式检测。该框架是根据位于多伦多市中心拥挤的城市中的Wi-Fi传感器收集的数据进行评估的。为了解决与标记数据收集相关的内在困难和成本,我们通过实施框架的半监督部分来利用大量易于收集的低成本未标记数据。通过将ResNet架构作为框架的核心,我们利用传统机器学习框架中未考虑的高级功能。拟议的框架显示了对所收集数据的有希望的表现,预测准确率为81.8%,骑自行车为82.5%,驾驶模式为86.0%。
translated by 谷歌翻译
通过简单聚类算法或深度神经网络架构的生成模型已经被开发为用于降维或用于模拟数据结构的基础属性的概率估计方法。虽然它们的明显用途主要局限于图像识别和分类,但生成机器学习算法可以成为旅行行为研究的有力工具。在本文中,我们研究了用于分析多个离散连续(MDC)旅行行为数据的生成机器学习方法,以理解潜在的异质性和相关性,从而增加这种旅行行为模型的代表性能力。我们通过信息熵和变分贝叶斯推理表明,生成模型在概念上类似于选择选择行为过程。具体来说,我们考虑一种基于限制Boltzmann机(RBM)的算法,该算法具有多个离散连续层,被公式化为变分贝叶斯推理优化问题。我们系统地描述了所提出的机器学习算法,并开发了一个从生成学习角度分析行为行为数据的过程。我们通过模型分析和模拟测试显示了具有多个离散连续维度和293,330个观测值的开放数据集的参数。对于可解释性,我们推导出条件概率和弹性的分析方法。我们的结果表明,生成模型中的潜在变量可以准确地表示联合分布,即多重离散连续变量。最后,我们表明我们的模型可以生成与旅行预测和预测相似的数据分布。
translated by 谷歌翻译