在本报告中,我们回顾了基于记忆的元学习作为建筑样本有效策略的工具,该策略从过去的经验中学习以适应目标类中的任何任务。我们的目标是为读者提供此工具的概念基础,以构建在陆域上运行的新的可扩展代理。为此,我们提出了基本的算法模板,用于建立最佳预测器和强化学习器,其行为就好像它们具有允许它们有效地利用任务结构的概率模型。此外,我们在贝叶斯框架内重建基于内存的元学习,显示元学习策略接近最优,因为它们分摊贝叶斯过滤数据,其中适应在内存动态中实现为具有足够统计数据的状态机。从本质上讲,基于记忆的学习 - 学习将概率序贯推理的难题转化为回归问题。
translated by 谷歌翻译
许多现实世界的任务表现出丰富的结构,在州空间的不同部分或时间上重复。在这项工作中,我们研究了利用这种重复结构加速和规范学习的可能性。我们从KL正规化的预期奖励目标开始,该目标引入了一个额外的组件,即默认策略。我们不是依赖于固定的默认策略,而是从数据中学习它。但至关重要的是,我们限制默认策略接收的信息量,迫使其学习可重用行为,以帮助策略更快地学习。我们正式化了这一策略,并讨论了与信息瓶颈方法和变分EM算法的联系。我们在离散和连续作用域中提供实证结果,并证明,对于某些任务,在策略旁边学习默认策略可以显着加快和改善学习。
translated by 谷歌翻译
处理神经网络的统计无效率的一种方法是依靠辅助损失来帮助建立有用的表示。但是,要知道辅助任务是否对主任务有用以及何时可能开始受到伤害并不总是微不足道的。我们建议使用任务梯度之间的余弦相似性作为自适应权重来检测辅助损失何时有助于主要损失。我们证明了我们的方法可以保证收敛到主要任务的关键点,并证明了所提算法在几个领域的实用性:ImageNet子集上的多任务监督学习,强化学习ongridworld,以及Atari游戏的强化学习。
translated by 谷歌翻译
元学习代理擅长从开放式任务分配中快速学习新任务;然而,一旦下文开始,他们就会忘记他们对每项任务的了解。当任务重新出现时 - 就像在自然环境中那样 - 学习代理必须再次探索而不是立即利用以前发现的解决方案。我们提出了一种形式化,用于生成开放式但重复的环境,然后开发一种元学习架构来解决这些环境。这种架构将标准的LSTM工作记忆与可微分的神经情景记忆融合在一起。我们利用这种情节LSTM在五个学习环境中探索具有重复发生任务的代理的能力,包括强盗导航和随机序列决策问题。
translated by 谷歌翻译
评估图像处理技术功效的传统指标无法理解现代图像处理方法的能力和局限性 - 特别是那些通过深度学习实现的方法。在工程解决方案中应用图像处理时,科学家或工程师需要使用clearmetrics来证明他们的设计决策。通过在图像处理之前和之后应用盲/无参考图像空间质量(BRISQUE),结构相似性(SSIM)指数得分和峰值信噪比(PSNR),我们可以以有意义的方式量化质量改进并确定给定方法的最低可恢复图像质量。
translated by 谷歌翻译
行人和车辆经常在复杂的城市交通中共享道路。这导致车辆和行人之间的相互作用,同时影响对方的运动。为了创建可靠的方法来推理行人行为并设计自驾车和行人之间的通信接口,我们需要更好地理解这种交互。在本文中,我们提出了一种数据驱动的方法来隐式模拟行人与车辆的相互作用,以更好地预测行人行为。我们提出了一种LSTM模型,该模型将行人和自我车辆的过去轨迹以及行人头部方向作为输入,并预测行人的未来位置。我们基于使用车载摄像头拍摄的真实世界内城数据集的实验表明,与基准线使用过去的行人轨迹相比,此类线索的使用改善了行人预测。
translated by 谷歌翻译
在广义线性估计(GLE)问题中,我们寻求估计通过线性变换观察到的信号,然后是分量,可能是非线性和噪声的信道。在贝叶斯最优设置中,已知广义近似消息传递(GAMP)实现GLE的最佳性能。然而,只要假设和真实生成模型之间存在不匹配,其性能就会显着降低,这种情况在实践中经常遇到。在本文中,我们提出了一种新算法,称为广义近似测量传播(GASP),用于在存在先验或模型误规范的情况下求解GLE。作为原型示例,我们考虑相位检索问题,其中我们显示GASPout执行相应的GAMP,降低重建阈值,并且对于其参数的某些选择,接近贝叶斯最优性能。此外,我们提出了一组状态演化方程,它可以在高维极限中表征GASP的动力学。
translated by 谷歌翻译
我们提出了一个结合了分层规划和机器学习的思想的导航系统。该系统使用传统的全局规划器来计算朝向目标的最佳路径,并使用深度局部轨迹规划器和速度控制器来计算运动命令。系统的后者组件通过注意机制调整机器人的行为,使其朝向目标移动,避开障碍物,并尊重近距离行人的空间。所提出的深度模型的结构和使用注意机制都使得系统的执行可以解释。我们的仿真实验表明,所提出的架构优于基线,可以将全局计划信息和传感器数据直接映射到velocitycommands。与手工设计的传统导航系统相比,所提出的方法表现出更一致的性能。
translated by 谷歌翻译
对高质量和低延迟多媒体服务的不断增长的需求引起了对边缘缓存技术的极大兴趣。受此启发,我们在本文中考虑了具有未知内容普遍性分布的基站的边缘缓存。为了解决制定高速缓存决策的动态控制问题,我们提出了一种基于深度行为者 - 强化学习的多智能体框架,旨在最小化整体平均传输延迟。为了评估提出的框架,我们将基于学习的性能与其他三种缓存策略进行比较,即最近最少使用(LRU),最少使用(LFU)和先进先出(FIFO)策略。通过仿真结果,已经确定了这三种缓存算法的提议框架的性能改进,并证明了它适应不同环境的优越性。
translated by 谷歌翻译
我们考虑用于表示车辆动力学的神经网络的在线适应问题。神经网络模型旨在由MPC控制法使用以自主地控制车辆。这个问题具有挑战性,因为输入和目标分布都是非平稳的,而在线适应的天真方法会导致灾难性的遗忘,从而导致控制器故障。我们提出了一种新颖的在线学习方法,它将伪排练方法与局部加权投影回归相结合。我们证明了在模拟中使用局部加权投影回归伪排练(LW-PR $ ^ 2 $)方法的有效性以及使用1/5比例自动驾驶车辆收集的大型真实世界数据集。
translated by 谷歌翻译