我们对深度学习的理论理解并没有与其经验成功保持同步。尽管已知网络体系结构至关重要,但我们尚不了解其对学习的表示和网络行为的影响,或者该体系结构如何反映任务结构。在这项工作中,我们开始通过引入门控的深层线性网络框架来解决此差距。这阐明了信息流的路径如何影响体系结构内的学习动态。至关重要的是,由于门控,这些网络可以计算其输入的非线性函数。我们得出了精确的减少,并且在某些情况下,我们可以确切解决学习动力学的方法。我们的分析表明,结构化网络中的学习动态可以概念化为具有隐性偏见的神经种族,然后控制模型的系统概括,多任务和转移的能力。我们通过自然主义数据集并使用轻松的假设来验证我们的关键见解。综上所述,我们的工作提出了将神经体系结构与学习有关的一般假设,并提供了一种数学方法,以理解更复杂的架构的设计以及模块化和组成性在解决现实世界中问题中的作用。代码和结果可在https://www.saxelab.org/gated-dln上找到。
translated by 谷歌翻译
该底漆是为了提供终身学习不同方面的详细摘要。我们从第2章开始,该第2章提供了终身学习系统的高级概述。在本章中,我们讨论了终身学习中的突出场景(第2.4节),提供8介绍,一个由不同终身学习方法组成的高级组织(第2.5节),列举Desiderata为理想的终身学习系统(第2.6节),讨论如何讨论如何讨论终身学习与其他学习范式有关(第2.7节),描述用于评估终身学习系统的常见指标(第2.8节)。对于那些毕生学习并希望在不关注特定方法或基准的读者中,本章更有用。
translated by 谷歌翻译
由于在存在障碍物和高维视觉观测的情况下,由于在存在障碍和高维视觉观测的情况下,学习复杂的操纵任务是一个具有挑战性的问题。事先工作通过整合运动规划和强化学习来解决勘探问题。但是,运动计划程序增强策略需要访问状态信息,该信息通常在现实世界中不可用。为此,我们建议通过(1)视觉行为克隆以通过(1)视觉行为克隆来将基于国家的运动计划者增强策略,以删除运动计划员依赖以及其抖动运动,以及(2)基于视觉的增强学习来自行为克隆代理的平滑轨迹的指导。我们在阻塞环境中的三个操作任务中评估我们的方法,并将其与各种加固学习和模仿学习基线进行比较。结果表明,我们的框架是高度采样的和优于最先进的算法。此外,与域随机化相结合,我们的政策能够用零击转移到未经分散的人的未经环境环境。 https://clvrai.com/mopa-pd提供的代码和视频
translated by 谷歌翻译