在学习现实领域的政策时,会出现两个重要问题:(i)如何有效地使用预先收集的非政策性,非最佳行为数据;以及(ii)如何在不同的竞争目标和约束之间进行调解。研究多约束下批量策略学习的问题,并提供系统的解决方案。我们首先提出一种灵活的元算法,它允许任何批量强化学习和在线学习过程的子程序。然后,我们提出了一个特定的算法实例,并为主要目标和所有约束提供性能保证。为了证明约束满足,我们提出了一种新的简单的非政策政策评估方法(OPE),并推导出PAC风格的界限。我们的算法在不同的领域中实现了强有力的实证结果,包括在模拟汽车驾驶的挑战性问题中受制于多种约束,例如车道保持和平稳驾驶。我们还通过实验证明,我们的OPE方法在独立的基础上优于其他流行的OPE技术,特别是在高维设置中。
translated by 谷歌翻译
缺失值估算是建模时空序列的一个基本问题,从运动跟踪到物理系统的动态。在本文中,我们采用非自回归方法并提出一种新的深度生成模型:非自回归多分辨率插补(NAOMI),用于在给定任意缺失模式的情况下导入远程时空序列。特别是,NAOMI利用spatiotemporaldata的多分辨率结构进行递归插值。粗到细粒度的分辨率。我们通过使用模仿学习目标进行对抗训练来进一步增强我们的模型。在对台球和篮球轨迹进行训练时,NAOMI证明了插补精度的显着提高(与自回归对应物相比,平均预测误差减少了60%)和在确定性和随机动力学系统中的长距离轨迹的综合能力。
translated by 谷歌翻译
我们应用数值方法结合有限差分时域(FDTD)模拟,利用新颖的多保真高斯过程方法,利用五维参数空间上的多目标品质因数优化等离子体镜面滤色器的传输特性。我们将这些结果与传统的无导数全局搜索算法进行比较,例如(单保真)高斯过程优化方案和粒子群优化 - 纳米光子学社区中常用的方法,这是在Lumerical商业光子学软件中实现的。我们在几个预先收集的现实数据集上展示了各种数值优化方法的性能,并表明通过廉价模拟适当地交易廉价信息源,可以更有效地优化具有固定预算的传输属性。
translated by 谷歌翻译
我们介绍了变分滤波EM算法,这是一种简单,通用的方法,用于使用仅来自过去和现在变量的信息(即滤波)在动态潜变量模型中执行变分推理。该算法源自过滤设置中的变分目标,并由每个时间步的优化过程组成。通过迭代摊销推理模型执行每个推理优化过程,我们获得了算法的计算有效实现,我们称之为摊销变分过滤。我们通过实验证明这种通用方法可以改善几个深动力潜变量模型的性能。
translated by 谷歌翻译
当出现具有不同成本的多个相互依赖的信息源时,我们如何有效地收集信息以优化未知功能?例如,在优化机器人系统时,智能地交换计算机模拟和真实的机器人测试可以带来显着的节省。现有方法,例如基于多保真GP-UCB或基于熵搜索的方法,或者对不同保真度的交互作出简单假设,或者使用缺乏理论保证的简单启发法。在本文中,我们研究多保真贝叶斯优化与多输出之间的复杂结构依赖关系,并提出了MF-MI-Greedy,这是一个解决这个问题的原理算法框架。特别是,我们使用基于共享潜在结构的加性高斯过程来模拟不同的保真度。目标函数。然后,我们使用成本敏感的互信息增益进行有效的贝叶斯全局优化。我们提出一个简单的遗憾概念,其中包含不同保真度的成本,并证明MF-MI-Greedy实现了低度遗憾。我们在合成数据集和真实数据集上展示了我们算法的强大经验性能。
translated by 谷歌翻译
地震相关联是地震学中的一项基本任务,它涉及将源于地震的不同传感器上的相位检测联系起来。它被广泛用于检测永久和当前地震网络上的地震,并且是世界上大多数地震活动目录的基础。此任务可能具有挑战性,因为源的数量未知,事件经常在时间上重叠,或者可能同时发生在网络的不同部分。我们提出了PhaseLink,这是一个基于近期无网格地震相关联深度学习的框架。 Ourapproach学会将具有共同起源的相位联系起来,并且完全依赖于使用简单的一维速度模型生成的数千万个P波和S波波动时间的合成序列。我们的方法很适用于任何适合实时处理的构造体制,并且可以自然地将到达时间选择中的误差纳入其中。而不是调整一组ad hoc超参数来提高性能,可以通过简单地将有问题的案例添加到trainingdataset来改进PhaseLink。我们展示了PhaseLink在加利福尼亚州南部的具有挑战性的近期序列方面的最新表现,以及来自日本的合成序列,旨在测试该方法失败的点。这些测试表明,PhaseLink可以精确地将P-和S-选择与在原始时间内分离~12秒的事件相关联。这种方法有望提高地震活动性目录的分辨率,增加实时地震监测的稳定性,简化大型地震数据集的自动化处理。
translated by 谷歌翻译
推理模型是将变量推断扩展到深度变量模型的关键组成部分,最明显的是变异自动编码器(VAE)中的编码器网络。通过用学习模型代替传统的基于优化的推理,推理在数据示例上摊销,因此在计算上更有效。但是,标准推理模型受限于将数据映射到近似后验估计。这些模型的失败以达到完全优化的近似后验估计导致摊销缺口。我们的目标是通过提出迭代推理模型来弥补这一差距,迭代推理模型学习通过重复编码渐变来执行推理优化。我们的方法概括了VAE中的标准推理模型,并提供了几种经验研究的见解,包括自上而下的推理技术。我们展示了迭代推理模型的推理优化能力,并表明它们在几个基准数据图像和文本集上执行标准推理模型。
translated by 谷歌翻译
强制执行安全是许多问题的一个关键方面,这些问题涉及在不确定条件下进行顺序决策,这要求在everystep做出的决策既可以提供最佳决策信息,也可以安全。例如,我们重视药物治疗的疗效和舒适度,以及机器人控制的效率和安全性。我们认为这个优化具有绝对反馈或偏好反馈主题的未知因素函数的问题存在已知的安全约束。我们开发了一种有效的安全贝叶斯优化算法StageOpt,它将安全区域扩展和效用函数最大化分为两个不同的阶段。与在扩展和优化之间交错的现有方法相比,我们表明StageOpt更有效,并且自然地适用于更广泛的问题类。我们为满足安全约束以及收敛到最佳效用值提供理论保证。我们在各种合成实验以及临床实践中评估StageOpt。我们证明StageOpt比现有的安全优化方法更有效,并且能够在我们的临床实验中安全有效地优化脊髓刺激治疗。
translated by 谷歌翻译
我们如何帮助健忘的学习者在有限的时间内学习多个概念?对于长期学习,设计教学策略是至关重要的,它可以利用学习者潜在的遗忘机制。在本文中,我们将自适应教学健忘学习者的问题作为新的离散优化问题,我们寻求优化自然目标函数,以表征学习者在整个教学过程中的预期表现。然后,我们提出了一个简单的贪婪的教学策略,并基于两个直观的数据依赖属性获得强大的性能保证,这些属性捕获了教导每个概念的收益递减程度。我们表明,给定关于学习者记忆模型的一些假设,可以有效地计算性能界限。此外,我们确定了内存模型的参数设置,其中保证贪婪策略以实现高性能。我们在两个具体应用中证明了使用大量模拟和用户研究的算法的有效性,即(i)用于在线词汇教学的教育应用程序和(ii)用于教导新手如何从图像识别动物物种的应用程序。
translated by 谷歌翻译
我们从组合搜索空间的演示中研究了学习良好搜索策略的问题。我们提出了回顾性模仿学习,在经过专家的初步培训后,通过学习自己的回顾性解决方案来提高自身。也就是说,当策略在出错和回溯后最终在搜索树中达到可行的解决方案时,它会通过删除回溯来建立一个改进的搜索跟踪到解​​决方案,然后用于进一步训练策略。我们的方法的一个关键特征是它可以迭代地扩展或转移到比最初的专家演示更大的问题尺寸,从而大大扩展其适用性,超越传统的模仿学习。 Weshowes我们的方法在两个任务上的有效性:合成mazesolving和基于整数程序的风险感知路径规划。
translated by 谷歌翻译