Solving tasks in Reinforcement Learning is no easy feat. As the goal of the agent is to maximize the accumulated reward, it often learns to exploit loopholes and misspecifications in the reward signal resulting in un-wanted behavior. While constraints may solve this issue, there is no closed form solution for general constraints. In this work, we present a novel multi-timescale approach for constrained policy optimization, called 'Re-ward Constrained Policy Optimization' (RCPO), which uses an alternative penalty signal to guide the policy towards a constraint satisfying one. We prove the convergence of our approach and provide empirical evidence of its ability to train constraint satisfying policies.
translated by 谷歌翻译
强大的强化学习旨在推导出能够解决动力系统中模型不确定性的最佳行为。然而,之前的研究表明,通过考虑最坏的情况,强有力的政策可能过于保守。我们的软性框架试图克服这个问题。在本文中,我们提出了一种新颖的Soft-Robust Actor-Critic算法(SR-AC)。它学习了关于不确定性集合的分布的最优策略,并且对模型不确定性保持稳健,但避免了稳健策略的保守性。我们展示了SR-AC的收敛性,并通过比较常规学习方法和强大的公式来测试我们的方法在不同领域的效率。
translated by 谷歌翻译
一些真实世界的域名最好被描述为单一任务,但对于其他人而言,这种观点是有限的。相反,一些任务不断增加不复杂性,与代理人的能力相结合。在不断学习中,也被认为是终身学习,没有明确的任务边界或课程。随着学习代理变得越来越强大,持续学习仍然是阻碍快速进步的前沿之一。为了测试连续学习能力,我们考虑具有明确的任务序列和稀疏奖励的具有挑战性的3D域。我们提出了一种名为Unicorn的新型代理体系结构,它展示了强大的持续学习能力,并在拟议的领域中表现出优秀的几个基线代理。代理通过使用并行的非策略学习设置,有效地共同表示和学习多个策略来实现这一目标。
translated by 谷歌翻译
We propose a lifelong learning system that has the ability to reuse andtransfer knowledge from one task to another while efficiently retaining thepreviously learned knowledge-base. Knowledge is transferred by learningreusable skills to solve tasks in Minecraft, a popular video game which is anunsolved and high-dimensional lifelong learning problem. These reusable skills,which we refer to as Deep Skill Networks, are then incorporated into our novelHierarchical Deep Reinforcement Learning Network (H-DRLN) architecture usingtwo techniques: (1) a deep skill array and (2) skill distillation, our novelvariation of policy distillation (Rusu et. al. 2015) for learning skills. Skilldistillation enables the HDRLN to efficiently retain knowledge and thereforescale in lifelong learning, by accumulating knowledge and encapsulatingmultiple reusable skills into a single distilled network. The H-DRLN exhibitssuperior performance and lower learning sample complexity compared to theregular Deep Q Network (Mnih et. al. 2015) in sub-domains of Minecraft.
translated by 谷歌翻译
深度强化学习(RL)的各种实现证明了可以通过训练有素的策略解决的任务的优异性能,但它们并非没有缺点。深度RL对噪声和输入输入以及对抗性攻击具有高度敏感性。为了减轻deepRL解决方案的这些缺陷,我们建议使用尖峰神经网络(SNN)。先前的工作表明,使用监督学习进行图像分类训练的标准神经网络可以转换为SNN,其性能可以忽略不计。在本文中,我们将使用强化学习训练的Q-Learning ReLU-Networks(ReLU-N)转换为SNN。我们提供了将ReLU-N转换为SNN的概念证明,证明了与原始ReLU-N相比改进的鲁棒性和更好的泛化性。此外,我们展示了将全尺寸深度Q网络转换为SNN的初步结果,为未来的研究铺平了道路。
translated by 谷歌翻译
图分类是许多科学领域中的重要问题。它根据功能或化学和结构特性,将蛋白质和化合物的分类等任务分类。在受监督的环境中,这个问题可以被理解为学习一组标签图中的特征之间的结构,特征和关系,并且能够正确地预测未看图的标签或类别。当尝试应用已建立的分类算法时,由于需要图形的固定大小矩阵或张量表示,其在节点和边缘的数量上可能变化很大,因此出现了该任务的显着困难。在结合显式张量表示和基于标准图像的分类器的先前工作的基础上,我们提出了一种模型,通过从给定集合中的每个图形中提取固定大小张量信息并使用胶囊网络来执行分类来执行图分类。我们在这里考虑的图表是无向的,并且在节点上具有分类特征。使用标准基准化学和蛋白质数据集,我们证明我们的图形胶囊网络分类模型使用图的显式张量表示与当前状态图形核和图形神经网络模型竞争,尽管只有有限的超参数搜索。
translated by 谷歌翻译
准确地确定材料(有机物或无机物)的晶体结构是材料开发和分析中的关键主要步骤。最常见的实践涉及在实验室XRD,TEM和同步加速器X射线源中产生的衍射图案的分析。然而,这些技术很慢,需要仔细的样品制备,难以接近,并且在分析过程中容易出现人为错误。本文介绍了一种新开发的方法,它代表了基于电子衍射的结构分析技术的范式变化,有可能彻底改变多晶相关领域。利用电子背散射衍射(EBSD)技术,展示并演示了一种基于机器学习的方法,用于快速和自主地识别金属和合金,陶瓷和地质样品的晶体结构,而无需事先了解样品。电子背散射衍射图案是从具有众所周知的晶体结构的材料中收集的,然后构建深度神经网络模型用于分类到特定的布拉维点阵或点群。这种方法的适用性来自计算机未知的样本的衍射图案,没有任何人类输入或数据过滤。这与传统的Hough变换EBSD相比,它要求您已经确定了样本中存在的相位。通过可视化卷积神经网络学习的对称特征来阐明神经网络的内部操作。确定模型寻找晶体学家将使用的相同特征,尽管没有明确地编程这样做。这项研究打开了通过几种电子衍射技术实现晶体结构自动化,高通量测定的大门。
translated by 谷歌翻译
精准医学领域旨在以可重复的方式基于患者特定因素定制治疗。为此,估计基于患者特征推荐治疗决策以最大化预定结果的平均值的最优个体化治疗方案(ITR)是特别令人感兴趣的。已经提出了几种方法用于从并行组设置中的临床试验数据估计最佳ITR,其中每个受试者被随机化为单一干预。然而,在从交叉研究设计估计最佳ITR的领域中已经做了很少的工作。这样的设计自然而然地为自己提供了精密医学,因为它们允许观察每个患者对多种治疗的反应。在本文中,我们介绍了一种使用来自2x2交叉研究的数据来预测最佳ITR的方法,该研究具有或没有遗留效应。提出的方法类似于政策检索方法,如结果加权学习;然而,我们利用交叉设计,利用每次治疗下的反应差异作为观察到的奖励。我们建立Fisher和全球一致性,进行数值实验,并分析来自饲养试验的数据,以证明与平行研究设计的标准方法相比,所提出的方法的改进性能。
translated by 谷歌翻译
本报告概述了利用大数据革命和大规模计算解决多信使天体物理学中的重大计算挑战的最新工作,特别强调实时发现活动。该文件承认了多信使天体物理学的跨学科性质,由物理学家,天文学,计算机科学,数据科学,软件和网络基础设施社区的成员编写,他们参加了NSF-,DOE-和NVIDIA资助的“多信使天体物理学的深度学习”。 :实时发现规模“研讨会,于2018年10月17日至19日在国家超级计算应用中心举办。本报告的重点包括一致同意这对于加速新型信号处理算法的开发和部署至关重要。利用人工智能(AI)和高性能计算之间的协同作用,最大限度地发挥Multi-Messenger天体物理学的潜在科学发现。我们讨论了实现这一努力的关键方面,即(i)为多信使天体物理学设计和利用可扩展和计算效率高的AI算法;(ii)数字模拟天体物理资源的网络基础设施要求,以及处理和解释多信使天体物理学数据; (iii)管理引力波探测和触发以实现电磁和天体粒子跟踪; (iv)利用未来发展的机器和深度学习以及网络基础设施资源的愿景与大数据时代的发现规模相结合; (v)需要建立一个社区,将领域专家与数据科学家一起进行平等,以最大限度地加速发现多信天体物理学的新兴领域。
translated by 谷歌翻译
跨任务转移技能的能力有可能将增强型学习(RL)代理扩展到目前无法实现的环境。最近,基于两个概念,后继特征(SF)和广泛策略改进(GPI)的框架已被引入转移技能的原则性方式。在本文中,我们在两个方面扩展了SF和GPI框架。 SFs和GPI原始公式的基本假设之一是,所有感兴趣的任务的奖励可以计算为固定特征集的线性组合。我们放松了这个约束,并表明支持框架的理论保证可以扩展到只有奖励函数不同的任何一组任务。我们的第二个贡献是,可以使用奖励函数本身作为未来任务的特征,而不会损失任何表现力,从而无需事先指定一组特征。这使得可以以更稳定的方式将SF和GPI与深度学习相结合。我们在acomplex 3D环境中凭经验验证了这一主张,其中观察是来自第一人称视角的图像。我们表明,SF和GPI推动的转移几乎可以立即实现看不见任务的非常好的政策。我们还描述了如何以一种允许将它们添加到代理的技能集中的方式学习专门用于新任务的策略,从而在将来重用。
translated by 谷歌翻译