跨任务转移技能的能力有可能将增强型学习(RL)代理扩展到目前无法实现的环境。最近,基于两个概念,后继特征(SF)和广泛策略改进(GPI)的框架已被引入转移技能的原则性方式。在本文中,我们在两个方面扩展了SF和GPI框架。 SFs和GPI原始公式的基本假设之一是,所有感兴趣的任务的奖励可以计算为固定特征集的线性组合。我们放松了这个约束,并表明支持框架的理论保证可以扩展到只有奖励函数不同的任何一组任务。我们的第二个贡献是,可以使用奖励函数本身作为未来任务的特征,而不会损失任何表现力,从而无需事先指定一组特征。这使得可以以更稳定的方式将SF和GPI与深度学习相结合。我们在acomplex 3D环境中凭经验验证了这一主张,其中观察是来自第一人称视角的图像。我们表明,SF和GPI推动的转移几乎可以立即实现看不见任务的非常好的政策。我们还描述了如何以一种允许将它们添加到代理的技能集中的方式学习专门用于新任务的策略,从而在将来重用。
translated by 谷歌翻译
强化学习(RL)代理同时学习许多奖励功能的能力具有许多潜在的好处,例如将复杂任务分解为更简单的任务,任务之间的信息交换以及技能的重用。我们特别关注一个方面,即能够推广到看不见的任务。参数泛化依赖于函数逼近器的插值功率,该函数逼近器被赋予任务描述作为输入;其最常见的形式之一是通用值函数逼近器(UVFA)。推广到新任务的另一种方法是在RL问题本身中开发结构。广义策略改进(GPI)将先前任务的解决方案组合到针对看不见的任务的策略中;这依赖于新向下功能下的旧策略的即时策略评估,这通过后继特征(SF)实现。我们提出的通用后继特征近似器(USFAs)结合了所有这些的优点,即UVFAs的可扩展性,SF的即时参考,以及GPI的强大推广。我们讨论了培训USFA所涉及的挑战,其泛化属性,并证明其实际利益和转移能力在一个大规模的领域,其中代理人必须在第一人称视角三维环境中导航。
translated by 谷歌翻译
我们提出短暂价值调整(EVA):一种允许深度执行学习代理快速适应重播缓冲经验的方法。 EVA通过对来自当前状态附近的重放缓冲区的经验元组进行规划而得到的值函数的估计来改变由神经网络预测的值。 EVA结合了许多近期的想法,将类似情节记忆的结构组合成强化学习代理:基于插槽的存储,基于内容的检索和基于内存的规划。我们展示了EVA在演示任务和Atari游戏中的表现。
translated by 谷歌翻译
一些真实世界的域名最好被描述为单一任务,但对于其他人而言,这种观点是有限的。相反,一些任务不断增加不复杂性,与代理人的能力相结合。在不断学习中,也被认为是终身学习,没有明确的任务边界或课程。随着学习代理变得越来越强大,持续学习仍然是阻碍快速进步的前沿之一。为了测试连续学习能力,我们考虑具有明确的任务序列和稀疏奖励的具有挑战性的3D域。我们提出了一种名为Unicorn的新型代理体系结构,它展示了强大的持续学习能力,并在拟议的领域中表现出优秀的几个基线代理。代理通过使用并行的非策略学习设置,有效地共同表示和学习多个策略来实现这一目标。
translated by 谷歌翻译
强化学习中的转移是指概念不仅应发生在任务中,还应发生在任务之间。我们提出了转移框架,用于奖励函数改变的场景,但环境的动态保持不变。我们的方法依赖于两个关键思想:“后继特征”,一种将环境动态与奖励分离的价值函数表示,以及“广义政策改进”,即动态规划的政策改进操作的概括,它考虑一组政策而不是单一政策。 。总而言之,这两个想法导致了一种方法,可以与强化学习框架无缝集成,并允许跨任务自由交换信息。即使在任何学习过程之前,所提出的方法也为转移的政策提供了保证。我们推导出两个定理,将我们的方法设置在坚实的理论基础和现有的实验中,表明它成功地促进了实践中的转移,在一系列导航任务中明显优于替代方法。并控制模拟机器人手臂。
translated by 谷歌翻译
由于城市车队中摩托车的大量增长以及对其行为的研究的增长以及该车辆如何影响交通流量的必要性,开发了与常规车辆不同的工具和技术以确定其在交通流中的存在并且是能够提取您的信息。该文章试图通过组合LBP技术以创建特征向量和分类技术LinearSVC来执行预测来生成摩托车图像库并开发和校准摩托车分类器,从而有助于对这种类型的车辆的研究。通过这种方式,本研究中开发的摩托车类型的分类器可以对两类摩托车和非摩托车之间的监控视频提取的车辆的图像进行分类,精度和精度优于0.9。
translated by 谷歌翻译
直线是人造环境中的常见特征。它们比点更具有特征性,因为它们产生更多关于环境的信息(这些是一度特征而不是零度点)。此外,它们更容易在图像传感器中检测和跟踪。具有对从图像测量的线的3D参数的稳健估计对于诸如视觉伺服的若干控制应用是有利的。在这项工作中,提出了模拟移动相机图像中线条的明显运动的经典动力系统。为了获得线的三维结构,提出了一种非线性观测器。然而,为了保证收敛,动力系统必须与代数方程耦合。这是通过使用球面坐标来表示线的矩向量和基础的变化来实现的,这允许直接在系统的动态上引入代数约束。最后,提出了一种试图优化观察者收敛行为的控制律。这种方法经过了验证,并且配备了带有摄像头的真实机器人平台。
translated by 谷歌翻译
无人驾驶飞行器(UAV)是一种相对较新的技术。应用程序通常涉及复杂和看不见的问题。例如,他们可以在地面站的监督下在基于合作社的环境中工作,以加速关键的决策过程。然而,飞机和地面站之间交换的信息量受到高距离,低带宽尺寸,受限制的处理能力和能量限制的限制。这些缺点限制了诸如大的非常大的大规模操作。新的分布式最先进的处理架构,如雾计算,可以通过不同层次的数据采集,处理和存储来改善延迟,可扩展性和效率,以满足时间约束。在这些修订中,这项研究工作提出了一个数学模型分析基于分布的无人机拓扑和用于大规模任务和搜索操作的雾云计算框架。这些测试成功地预测了延迟和其他操作限制,使得分析计算优势优于传统的云计算架构。
translated by 谷歌翻译
在过去的几十年中,已经针对各种监督学习任务提出了许多损失函数,包括回归,分类,排序和更一般的结构化预测。了解支撑这些损失的核心原则和理论属性是正确解决正确问题的关键,并创造新的损失,并结合其优势。在本文中,我们介绍了Fenchel-Younglosses,一种为正则预测函数构造凸损失函数的通用方法。我们在非常广泛的环境中提供他们的属性的深入研究,涵盖所有上述监督学习任务,并揭示稀疏性,广义熵和分离边缘之间的新联系。我们证明Fenchel-Young损失统一了许多众所周知的损失函数,并允许轻松创建有用的新函数。最后,我们得出了有效的预测和训练算法,使Fenchel-Young在理论和实践中都有所损失。
translated by 谷歌翻译
目前,没有一致的模型用于在视觉上或正式地表示AI系统的架构。这种缺乏代表性在现有模型和系统的描述中带来了解释性,正确性和完整性挑战。 DIAL(图解人工智能语言)是为人工智能系统作为“工程原理图”的愿望而创建的。它在此作为AI系统的通用图解语言的社区对话的起点。
translated by 谷歌翻译