处理高方差是无模型增强学习(RL)中的重大挑战。现有方法是不可靠的,使用不同的初始化/种子表现出从一次运行到另一次运行的性能的高度变化。着眼于连续控制中出现的问题,我们提出了一种增强无模型RL的功能规范化方法。特别是,将深层政策的行为与先前的政策相似,即我们在功能空间中进行规范化。我们证明功能正则化会产生偏差 - 方差权衡,并提出一种自适应调整策略来优化这种权衡。当政策先验具有控制理论稳定性保证时,我们进一步表明,这种正规化近似预先保证了整个学习过程中的稳定性。我们在一系列设置上验证了我们的认可度,并证明了与单独的deepRL相比,显着降低了方差,保证了动态稳定性和更有效的学习。
translated by 谷歌翻译
在许多高通量实验设计设置中,例如常见的生物化学工程设计,批量查询比逐个连续查询更具成本效益。此外,通常不可能直接选择要查询的项目。相反,实验者指定一组约束,这些约束生成可能的项目库,然后随机选择这些项目。受这些考虑因素的影响,我们研究了\ emph {BatchedStochastic Bayesian Optimization}(BSBO),这是一种新颖的贝叶斯优化方案,用于选择约束以指导对具有更多实用程序的项目的探索。我们专注于\ emph {site-saturation mutagenesis},这是BSBO在生物化学工程中的原型设置,并为此问题提出了一个自然的目标函数。重要的是,我们证明了我们的目标函数可以有效地分解为子模函数(DS)的差异,我们采用DS优化工具来贪婪地识别约束集,这些约束集增加了找到具有高效用的项目的可能性。我们的实验结果表明我们的算法在合成和两个真实蛋白质数据集上优于常见的启发式算法。
translated by 谷歌翻译
在学习现实领域的政策时,会出现两个重要问题:(i)如何有效地使用预先收集的非政策性,非最佳行为数据;以及(ii)如何在不同的竞争目标和约束之间进行调解。研究多约束下批量策略学习的问题,并提供系统的解决方案。我们首先提出一种灵活的元算法,它允许任何批量强化学习和在线学习过程的子程序。然后,我们提出了一个特定的算法实例,并为主要目标和所有约束提供性能保证。为了证明约束满足,我们提出了一种新的简单的非政策政策评估方法(OPE),并推导出PAC风格的界限。我们的算法在不同的领域中实现了强有力的实证结果,包括在模拟汽车驾驶的挑战性问题中受制于多种约束,例如车道保持和平稳驾驶。我们还通过实验证明,我们的OPE方法在独立的基础上优于其他流行的OPE技术,特别是在高维设置中。
translated by 谷歌翻译
缺失值估算是建模时空序列的一个基本问题,从运动跟踪到物理系统的动态。在本文中,我们采用非自回归方法并提出一种新的深度生成模型:非自回归多分辨率插补(NAOMI),用于在给定任意缺失模式的情况下导入远程时空序列。特别是,NAOMI利用spatiotemporaldata的多分辨率结构进行递归插值。粗到细粒度的分辨率。我们通过使用模仿学习目标进行对抗训练来进一步增强我们的模型。在对台球和篮球轨迹进行训练时,NAOMI证明了插补精度的显着提高(与自回归对应物相比,平均预测误差减少了60%)和在确定性和随机动力学系统中的长距离轨迹的综合能力。
translated by 谷歌翻译
我们应用数值方法结合有限差分时域(FDTD)模拟,利用新颖的多保真高斯过程方法,利用五维参数空间上的多目标品质因数优化等离子体镜面滤色器的传输特性。我们将这些结果与传统的无导数全局搜索算法进行比较,例如(单保真)高斯过程优化方案和粒子群优化 - 纳米光子学社区中常用的方法,这是在Lumerical商业光子学软件中实现的。我们在几个预先收集的现实数据集上展示了各种数值优化方法的性能,并表明通过廉价模拟适当地交易廉价信息源,可以更有效地优化具有固定预算的传输属性。
translated by 谷歌翻译
我们介绍了变分滤波EM算法,这是一种简单,通用的方法,用于使用仅来自过去和现在变量的信息(即滤波)在动态潜变量模型中执行变分推理。该算法源自过滤设置中的变分目标,并由每个时间步的优化过程组成。通过迭代摊销推理模型执行每个推理优化过程,我们获得了算法的计算有效实现,我们称之为摊销变分过滤。我们通过实验证明这种通用方法可以改善几个深动力潜变量模型的性能。
translated by 谷歌翻译
当出现具有不同成本的多个相互依赖的信息源时,我们如何有效地收集信息以优化未知功能?例如,在优化机器人系统时,智能地交换计算机模拟和真实的机器人测试可以带来显着的节省。现有方法,例如基于多保真GP-UCB或基于熵搜索的方法,或者对不同保真度的交互作出简单假设,或者使用缺乏理论保证的简单启发法。在本文中,我们研究多保真贝叶斯优化与多输出之间的复杂结构依赖关系,并提出了MF-MI-Greedy,这是一个解决这个问题的原理算法框架。特别是,我们使用基于共享潜在结构的加性高斯过程来模拟不同的保真度。目标函数。然后,我们使用成本敏感的互信息增益进行有效的贝叶斯全局优化。我们提出一个简单的遗憾概念,其中包含不同保真度的成本,并证明MF-MI-Greedy实现了低度遗憾。我们在合成数据集和真实数据集上展示了我们算法的强大经验性能。
translated by 谷歌翻译
地震相关联是地震学中的一项基本任务,它涉及将源于地震的不同传感器上的相位检测联系起来。它被广泛用于检测永久和当前地震网络上的地震,并且是世界上大多数地震活动目录的基础。此任务可能具有挑战性,因为源的数量未知,事件经常在时间上重叠,或者可能同时发生在网络的不同部分。我们提出了PhaseLink,这是一个基于近期无网格地震相关联深度学习的框架。 Ourapproach学会将具有共同起源的相位联系起来,并且完全依赖于使用简单的一维速度模型生成的数千万个P波和S波波动时间的合成序列。我们的方法很适用于任何适合实时处理的构造体制,并且可以自然地将到达时间选择中的误差纳入其中。而不是调整一组ad hoc超参数来提高性能,可以通过简单地将有问题的案例添加到trainingdataset来改进PhaseLink。我们展示了PhaseLink在加利福尼亚州南部的具有挑战性的近期序列方面的最新表现,以及来自日本的合成序列,旨在测试该方法失败的点。这些测试表明,PhaseLink可以精确地将P-和S-选择与在原始时间内分离~12秒的事件相关联。这种方法有望提高地震活动性目录的分辨率,增加实时地震监测的稳定性,简化大型地震数据集的自动化处理。
translated by 谷歌翻译
推理模型是将变量推断扩展到深度变量模型的关键组成部分,最明显的是变异自动编码器(VAE)中的编码器网络。通过用学习模型代替传统的基于优化的推理,推理在数据示例上摊销,因此在计算上更有效。但是,标准推理模型受限于将数据映射到近似后验估计。这些模型的失败以达到完全优化的近似后验估计导致摊销缺口。我们的目标是通过提出迭代推理模型来弥补这一差距,迭代推理模型学习通过重复编码渐变来执行推理优化。我们的方法概括了VAE中的标准推理模型,并提供了几种经验研究的见解,包括自上而下的推理技术。我们展示了迭代推理模型的推理优化能力,并表明它们在几个基准数据图像和文本集上执行标准推理模型。
translated by 谷歌翻译
强制执行安全是许多问题的一个关键方面,这些问题涉及在不确定条件下进行顺序决策,这要求在everystep做出的决策既可以提供最佳决策信息,也可以安全。例如,我们重视药物治疗的疗效和舒适度,以及机器人控制的效率和安全性。我们认为这个优化具有绝对反馈或偏好反馈主题的未知因素函数的问题存在已知的安全约束。我们开发了一种有效的安全贝叶斯优化算法StageOpt,它将安全区域扩展和效用函数最大化分为两个不同的阶段。与在扩展和优化之间交错的现有方法相比,我们表明StageOpt更有效,并且自然地适用于更广泛的问题类。我们为满足安全约束以及收敛到最佳效用值提供理论保证。我们在各种合成实验以及临床实践中评估StageOpt。我们证明StageOpt比现有的安全优化方法更有效,并且能够在我们的临床实验中安全有效地优化脊髓刺激治疗。
translated by 谷歌翻译