Solving tasks in Reinforcement Learning is no easy feat. As the goal of the agent is to maximize the accumulated reward, it often learns to exploit loopholes and misspecifications in the reward signal resulting in un-wanted behavior. While constraints may solve this issue, there is no closed form solution for general constraints. In this work, we present a novel multi-timescale approach for constrained policy optimization, called 'Re-ward Constrained Policy Optimization' (RCPO), which uses an alternative penalty signal to guide the policy towards a constraint satisfying one. We prove the convergence of our approach and provide empirical evidence of its ability to train constraint satisfying policies.
translated by 谷歌翻译
强大的强化学习旨在推导出能够解决动力系统中模型不确定性的最佳行为。然而,之前的研究表明,通过考虑最坏的情况,强有力的政策可能过于保守。我们的软性框架试图克服这个问题。在本文中,我们提出了一种新颖的Soft-Robust Actor-Critic算法(SR-AC)。它学习了关于不确定性集合的分布的最优策略,并且对模型不确定性保持稳健,但避免了稳健策略的保守性。我们展示了SR-AC的收敛性,并通过比较常规学习方法和强大的公式来测试我们的方法在不同领域的效率。
translated by 谷歌翻译
一些真实世界的域名最好被描述为单一任务,但对于其他人而言,这种观点是有限的。相反,一些任务不断增加不复杂性,与代理人的能力相结合。在不断学习中,也被认为是终身学习,没有明确的任务边界或课程。随着学习代理变得越来越强大,持续学习仍然是阻碍快速进步的前沿之一。为了测试连续学习能力,我们考虑具有明确的任务序列和稀疏奖励的具有挑战性的3D域。我们提出了一种名为Unicorn的新型代理体系结构,它展示了强大的持续学习能力,并在拟议的领域中表现出优秀的几个基线代理。代理通过使用并行的非策略学习设置,有效地共同表示和学习多个策略来实现这一目标。
translated by 谷歌翻译
We propose a lifelong learning system that has the ability to reuse andtransfer knowledge from one task to another while efficiently retaining thepreviously learned knowledge-base. Knowledge is transferred by learningreusable skills to solve tasks in Minecraft, a popular video game which is anunsolved and high-dimensional lifelong learning problem. These reusable skills,which we refer to as Deep Skill Networks, are then incorporated into our novelHierarchical Deep Reinforcement Learning Network (H-DRLN) architecture usingtwo techniques: (1) a deep skill array and (2) skill distillation, our novelvariation of policy distillation (Rusu et. al. 2015) for learning skills. Skilldistillation enables the HDRLN to efficiently retain knowledge and thereforescale in lifelong learning, by accumulating knowledge and encapsulatingmultiple reusable skills into a single distilled network. The H-DRLN exhibitssuperior performance and lower learning sample complexity compared to theregular Deep Q Network (Mnih et. al. 2015) in sub-domains of Minecraft.
translated by 谷歌翻译
在过去十年中,卷积神经网络(CNN)已成为各种计算机视觉和机器学习操作的事实标准.CNN是具有交替卷积和子采样层的前馈人工神经网络(ANN)。具有许多隐藏层和数百个参数的深2D CNN具有学习复杂对象和模式的能力,从而可以在具有地面真实标签的大规模视觉数据库上进行训练。通过适当的培训,这种独特的能力使其成为2D信号(如图像和视频帧)的各种工程应用的主要工具。然而,在许多应用1D信号中,这可能不是可行的选择,尤其是当训练数据缺乏特定应用时。为了解决这个问题,最近提出了1D CNN,并立即实现了最先进的性能水平,包括个性化生物医学数据分类,严格诊断,结构健康监测,电力电子异常检测和电力电子故障检测中的识别。另一个重要的优点是实时和低成本的硬件实现是可行的,因为1D CNN的简单和紧凑配置仅执行1D转换(标量乘法和加法)。本文对1N CNNsalong的主要工程应用的总体架构和原理进行了全面的综述,重点介绍了该领域的最新进展。他们最先进的表现以其独特的属性而着称。基准数据集和这些应用程序中使用的主要1D CNN软件也在专用网站中公开共享。
translated by 谷歌翻译
音频驱动的3D面部动画已被广泛探索,但实现逼真的,类似人类的表现仍未得到解决。这是由于缺乏可用的3D数据集,模型和标准评估指标。为了补充这一点,我们推出了一个独特的4D人脸数据集,其中大约29分钟的4D扫描以60 fps捕获,同步音频来自12个扬声器。然后,我们在我们的数据集上训练神经网络,从而影响面部运动的身份。经过学习的模型,VOCA(语音操作角色动画)将任何语音信号作为输入 - 甚至是除英语以外的语言的语音 - 并且可以实际地动画化各种各样的成人面孔。在训练期间对主题标签进行调节允许模型学习各种现实主义风格。 VOCA还提供动画控制,以在动画期间改变说话风格,依赖身份的面部形状和姿势(即头部,下颌和眼球旋转)。据我们所知,VOCA是唯一真实的3D面部动画模型,可以很容易地应用于没有重定位的看不见的主题。这使得VOCA适用于诸如游戏内视频,虚拟现实化身或任何预先不知道说话者,语音或语言的情况的任务。我们在http://voca.is.tue.mpg.de上为研究目的提供了数据集和模型。
translated by 谷歌翻译
我们提出了一种用于图分类和表示学习的端到端深度学习学习模型,该模型对于输入图的节点的排列是不变的。我们通过可区分的节点注意池机制解决了为不同维度的图形学习固定化图形表示的挑战。除了对其置换不变性的理论证明之外,我们提供了经验证据,证明了在仅仅少量训练样本的情况下面对各种各样的图形分类任务时,在准确性方面的统计上显着的增益。我们分析了四个不同矩阵的效果,以促进本地消息传递机制,通过该机制执行图形卷积,而不是由能够在前者之间平滑过渡的学习参数对进行参数化的矩阵。最后,我们证明了我们的模型使用现有技术在一组分子基础上实现了竞争分类性能。
translated by 谷歌翻译
强化学习(RL)已经证明了其在一系列人工领域中的价值,并开始在现实世界的情景中显示出一些成功。然而,RL的许多研究进展通常难以在现实世界系统中利用,因为一系列在实践中很少满足的假设。我们提出了一系列九个独特的挑战,必须解决这个问题,将RL产生于现实世界的问题。对于这些挑战中的每一个,都要确定挑战的确切含义,从文献中提出一些方法,并指定一些评估该挑战的指标。解决所有九项挑战的方法将适用于大量现实世界的问题。我们还提供了一个经过修改的示例域,将这些挑战作为实际RL研究的测试平台。
translated by 谷歌翻译
城市地区的安全自动驾驶需要强大的算法来避免与其他具有有限感知能力的交通参与者的碰撞。依赖于自主紧急制动(AEB)系统的当前部署方法通常过于保守。在这项工作中,我们将问题制定为部分可观察的马尔可夫决策过程(POMDP),以得出针对行人位置的不确定性的策略。我们研究如何使用AEB系统整合这样的策略,该系统仅在碰撞不可避免时才运行。此外,我们针对明确定义的情景提出了严格的评估方法。我们表明,结合这两种方法提供了一个强大的自动制动系统,通过自己使用AEB系统减少了不必要的制动。
translated by 谷歌翻译
面部识别取得了前所未有的成果,在某些情况下超越了人类的能力。然而,这些自动解决方案尚未准备好用于生产,因为它们很容易被简单的身份识别攻击所愚弄。虽然已经投入大量精力来开发表面反欺骗模型,但它们的泛化能力仍然在实际场景中仍然是一个挑战。在本文中,我们介绍了一种新的方法,从异常检测的角度重新构建广义表示攻击检测(GPAD)问题。从技术上讲,提出了一种深度量学习模型,其中三重焦点损失被用作novelloss创造的“metric-softmax”的正则化,其负责引导学习过程朝向嵌入空间中的更多辨别特征表示。最后,我们通过引入几次后验概率估计来证明我们的深度异常检测体系结构的好处,这种估计不需要任何分类器来训练学习的特征。我们使用GRAD-GPAD框架进行了大量实验,该框架为面部GPAD提供了最大的聚合数据集。结果证实,我们的方法能够以相当大的差距超越所有最先进的方法。
translated by 谷歌翻译