信任区域方法在政策搜索中产生了最先进的结果。一种常见的方法是使用KL-分歧来约束自然梯度政策更新中的信任区域。我们表明,如果我们使用标准指数策略分布的自然参数化与兼容值函数近似相结合,则自然梯度和信赖域优化是等价的。此外,我们表明,标准自然梯度更新可能会根据导致早熟收敛的错误计划减少策略的熵。为了控制熵减少,我们引入了一种新的策略搜索方法,称为兼容策略搜索(COPOS),它限制了熵损失。实验结果表明,COPOS产生最先进的结果,具有挑战性的连续控制任务和不可分割的部分可观测任务。
translated by 谷歌翻译
随着机器人和其他智能代理从简单的环境和问题转移到更复杂的非结构化设置,手动编程他们的行为变得越来越具有挑战性和昂贵。通常,教师更容易展示所需的行为,而不是尝试手动启动它。这种从示范中学习的过程,以及算法的研究,被称为模仿学习。这项工作提供了模仿学习的介绍。它涵盖了基本的假设,方法以及它们之间的关系;为解决问题而开发的丰富算法集;关于有效工具和实施的建议。我们打算将本文服务于两个受众。首先,我们希望机器学习专家能够熟悉模仿学习的挑战,尤其是机器人技术的挑战,以及它与更熟悉的框架(如统计监督学习理论和强化学习)之间有趣的理论和实践区别。其次,我们希望应用人工智能中的神经病学家和专家对模仿学习的框架和工具有广泛的了解。
translated by 谷歌翻译
随着摩尔定律的结束,计算的神经形态方法正在兴起。其中之一,无源光子储层计算,是高比特率(> 10 Gbps)和低能耗的强大计算。目前,这两种益处都受到在电气领域中进行训练和读出操作的必要性的限制。因此,光子学界目前正在努力设计一种集成光学读数,其允许在光学领域中执行所有操作。除了设计这种读出的技术挑战之外,还必须设计新算法以便训练它。最重要的是,合适的算法需要能够处理实际的片上储存器状态不能直接观察到的事实。在这项工作中,我们研究了这种训练算法的几个选项,并提出了一种解决方案,通过适当地设置读出权重,可以观察到储层的复杂状态,同时迭代预定义的输入序列。执行数值模拟,以便将我们的方法与需要完全可观察性的理想基线以及已建立的黑盒优化方法(CMA-ES)进行比较。
translated by 谷歌翻译
字符级特征目前用于不同的基于神经网络的自然语言处理算法。然而,对这些模型学习的字符级模式知之甚少。此外,模型通常只是定量比较,而缺少定性分析。在本文中,我们研究了神经网络学习哪些字符级模式,以及这些模式是否与手动定义的单词分割和注释相吻合。为此,我们将上下文分解技术(Murdoch等人,2018)扩展到卷积神经网络,这允许我们对卷积神经网络和双向长期短期记忆网络进行比较。我们评估和比较这些模型,以便在三种形态不同的语言中形成形态学,并表明这些模型明确地发现了可理解的语言规则。我们的实现可以在https://github.com/FredericGodin/ContextualDecomposition-NLP找到。
translated by 谷歌翻译
我们提出了一种新颖的模型体系结构,它利用深度学习工具对高维,复杂观测集进行精确的贝叶斯推理。我们的模型可证明是可交换的,这意味着观察的联合分布在排列下是不变的:这种属性是贝叶斯推断的核心。该模型不需要变化的特征来训练,并且可以以先前的样本为条件生成新样本,其成本与调节集的大小成线性关系。我们的体系结构的优势体现在学习任务上,这些学习任务需要从短观察序列进行概括,同时对序列变异进行建模,例如条件图像生成,少量学习和异常检测。
translated by 谷歌翻译
An important field in robotics is the optimization of controllers. Currently, robots are often treated as a black box in this optimization process, which is the reason why derivative-free optimization methods such as evolutionary algorithms or reinforcement learning are omnipresent. When gradient-based methods are used, models are kept small or rely on finite difference approximations for the Jacobian. This method quickly grows expensive with increasing numbers of parameters, such as found in deep learning. We propose the implementation of a modern physics engine, which can differentiate control parameters. This engine is implemented for both CPU and GPU. Firstly, this paper shows how such an engine speeds up the optimization process, even for small problems. Furthermore, it explains why this is an alternative approach to deep Q-learning, for using deep learning in robotics. Finally, we argue that this is a big step for deep learning in robotics, as it opens up new possibilities to optimize robots, both in hardware and software.
translated by 谷歌翻译