本文讨论了在安全关键领域评估学习系统的问题,例如自动驾驶,其中故障可能带来灾难性后果。我们关注两个问题:在学习的代理失败时搜索场景并评估其失败概率。加强学习中代理评估的标准方法,Vanilla MonteCarlo,可以完全错过故障,导致不安全代理的部署。我们证明这对于当前代理来说是一个问题,即使匹配用于培训的计算机有时也不足以进行评估。为了弥补这个缺点,我们利用罕见事件概率估计文献并提出一种对抗性评估方法。我们的方法侧重于评估对侧选择的情况,同时仍然提供无偏估计的失败概率。关键的困难在于识别这些对抗性 - 由于失败很少,因此几乎没有信号可以推动优化。为了解决这个问题,我们提出了一种延续方法,用于学习相关但不太稳健的代理中的故障模式。我们的方法还允许重新使用已经收集的数据来训练代理。我们在两个标准领域展示了对抗性评估的功效:人形控制和模拟驾驶。实验结果表明,我们的方法可以发现灾难性故障,并且可以比标准评估方案更快地估计出多个数量级的代理故障率,在几分钟到几小时之内。
translated by 谷歌翻译
通过强化学习(RL)在人工智能方面的最新进展已经在日益复杂的单一代理环境和双人回合制游戏中取得了巨大成功。然而,真实世界包含多个代理,每个代理都独立学习和行动以与其他代理进行合作和竞争,反映这种复杂程度的环境仍然是一个难题。在这项工作中,我们首次演示了一个代理可以在一个流行的3D多人第一人称视频游戏Quake III Arena夺旗中实现人类级别,仅使用像素和游戏点作为输入。这些结果是通过一个新颖的两层优化过程,其中独立RL代理的人口从数千个并行匹配中同时训练,其中代理一起玩并且在随机生成的环境中彼此相对。群体中的每个代理人学习其自己的内部奖励信号以补充来自获胜的稀疏延迟奖励,并且使用新颖的时间分层表示来选择动作,该代表可以使代理在多个时间尺度下进行推理。在游戏过程中,这些代理人基于丰富的学习表示来显示类似人的行为,例如导航,跟随和保护,该学习表示被示出为编码高级游戏知识。在广泛的锦标赛风格评估中,训练有素的球员超过了作为队友和对手的强大的人类球员的胜利率,并且证明远比现有的最先进的特工更强。这些结果表明人工智能的能力显着提升,让我们更接近人类智慧的目标。
translated by 谷歌翻译
将原始数据转换为特征空间以便在该空间中执行推理的实践已经流行多年。最近,深度神经网络的快速进展为研究人员和从业者提供了增强特征表示丰富性的增强方法,无论是图像,文本还是语音。在这项工作中,我们展示了如何以受控的方式探索构造的潜在空间,并争辩说这个补充建立了推理方法。为了构造潜在空间,使用VariationalAutoencoder。我们提出了一种新颖的控制器模块,允许在潜在空间中进行光滑的遍历并构建端到端的可训练框架。我们探索了我们的方法用于执行空间变换以及运动学以预测未来视频序列潜在向量的适用性。
translated by 谷歌翻译
深度概率编程将深度神经网络(用于自动分层表示学习)与概率模型(用于原理性处理不确定性)相结合。不幸的是,编写深度概率模型很困难,因为现有的编程框架缺乏简洁,高级和干净的表达方式。为了简化这项任务,我们扩展了流行的高级概率编程语言Stan,以使用PyTorch编写的深度神经网络。训练深度概率模型最适用于变分推理,因此我们也为此扩展了Stan。我们通过将Stan程序翻译成Pyro来实现这些扩展。我们的翻译阐明了不同概率编程语言家族之间的关系。总的来说,本文是迈向深度概率规划的一个步骤。
translated by 谷歌翻译