Many real-world reinforcement learning tasks require control of complex dynamical systems that involve both costly data acquisition processes and large state spaces. In cases where the transition dynamics can be readily evaluated at specified states (e.g., via a simulator), agents can operate in what is often referred to as planning with a \emph{generative model}. We propose the AE-LSVI algorithm for best-policy identification, a novel variant of the kernelized least-squares value iteration (LSVI) algorithm that combines optimism with pessimism for active exploration (AE). AE-LSVI provably identifies a near-optimal policy \emph{uniformly} over an entire state space and achieves polynomial sample complexity guarantees that are independent of the number of states. When specialized to the recently introduced offline contextual Bayesian optimization setting, our algorithm achieves improved sample complexity bounds. Experimentally, we demonstrate that AE-LSVI outperforms other RL algorithms in a variety of environments when robustness to the initial state is required.
translated by 谷歌翻译
在处理多点测量时,即传统的黑盒优化方法效率低下,即,当控制域中的每个查询需要在次级域中的一组测量以计算目标时。在粒子加速器中,四极扫描的发射率调整是具有多点测量的优化示例。尽管发射率是高亮度机器(包括X射线激光器和线性碰撞者)的性能的关键参数,但综合优化通常受到调整所需的时间的限制。在这里,我们将最近提供的贝叶斯算法执行(BAX)扩展到具有多点测量的优化任务。 BAX通过在关节控制测量域中选择和建模各个点来实现样品效率。我们将BAX应用于Linac相干光源(LCLS)和晚期加速器实验测试II(Facet-II)粒子加速器的设施。在LCLS模拟环境中,我们表明BAX的效率提高了20倍,同时与传统优化方法相比,噪声也更强。此外,我们在LCLS和facet-II上运行了Bax,与Facet-II的手工调整发射率相匹配,并获得了比LCLS在LCLS上获得的最佳发射率低24%。我们预计我们的方法很容易适应其他类型的优化问题,这些优化问题涉及科学仪器中常见的多点测量。
translated by 谷歌翻译
多级优化已被广泛用作无数机器学习问题的数学基础,例如超参数优化,元学习和增强学习,仅举几例。尽管如此,实施多级优化程序通常需要在数学和编程方面的专业知识,这在该领域的研究都阻碍了研究。我们通过引入贝蒂(Betty)(用于基于梯度的多级优化的高级软件库)迈出了缩小这一差距的第一步。为此,我们基于对多级优化作为数据流图的新解释开发自动分化过程。我们进一步将多级优化的主要组成部分作为Python类,以实现简单,模块化和可维护的编程。我们从经验上证明,Betty可以用作一系列多级优化程序的高级编程接口,同时观察到测试准确性的提高11 \%,GPU存储器使用率下降14 \%,而20 \%降低了。在多个基准上的现有实现的墙壁时间。该代码可从http://github.com/leopard-ai/betty获得。
translated by 谷歌翻译
采集函数是贝叶斯优化(BO)中的关键组成部分,通常可以写为在替代模型下对效用函数的期望。但是,为了确保采集功能是可以优化的,必须对替代模型和实用程序功能进行限制。为了将BO扩展到更广泛的模型和实用程序,我们提出了不含可能性的BO(LFBO),这是一种基于无似然推理的方法。 LFBO直接对采集函数进行建模,而无需单独使用概率替代模型进行推断。我们表明,可以将计算LFBO中的采集函数缩小为优化加权分类问题,而权重对应于所选择的实用程序。通过为预期改进选择实用程序功能,LFBO在几个现实世界优化问题上都优于各种最新的黑盒优化方法。 LFBO还可以有效利用目标函数的复合结构,从而进一步改善了其遗憾。
translated by 谷歌翻译
必须校准不确定性估计值(即准确)和清晰(即信息性),以便有用。这激发了各种重新校准的方法,这些方法使用固定数据将未校准的模型转化为校准模型。但是,由于原始模型也是概率模型,因此现有方法的适用性受到限制。我们在回归中引入了一种用于重新校准的算法类别,我们称为模块化保形校准(MCC)。该框架允许人们将任何回归模型转换为校准的概率模型。 MCC的模块化设计使我们能够对现有算法进行简单调整,以实现良好的分配预测。我们还为MCC算法提供有限样本的校准保证。我们的框架恢复了等渗的重新校准,保形校准和共形间隔预测,这意味着我们的理论结果也适用于这些方法。最后,我们对17个回归数据集进行了MCC的经验研究。我们的结果表明,在我们的框架中设计的新算法实现了接近完美的校准,并相对于现有方法提高了清晰度。
translated by 谷歌翻译
高分辨率卫星图像中的对象检测是在许多环境和社会经济监测应用中的地面调查数据收集中的可扩展替代品。然而,由于购买图像和计算的高成本,对大型地理位置的对象检测仍然可能会昂贵。灵感来自传统调查数据收集策略,我们提出了一种通过抽样估计对象计数统计数据的方法。鉴于成本预算,我们的方法通过从学习的提案分布中抽样选择少量代表性区域。使用重要性采样,我们能够在处理仅与详尽的方法相比仅在图像的一小部分图像后准确估计对象计数。我们凭经验表明,拟议的框架在估计美国和非洲的建筑物数量,肯尼亚的汽车数量,在孟加拉国的砖窑和美国的游泳池中达到了强大的表现,同时需要少于0.01%的卫星图像彻底的方法。
translated by 谷歌翻译
在RL的许多实际应用中,观察来自环境的状态过渡是昂贵的。例如,在核聚变的等离子体控制问题中,计算给定的状态对对的下一个状态需要查询昂贵的过渡功能,这可以导致许多小时的计算机模拟或美元科学研究。这种昂贵的数据收集禁止应用标准RL算法,该算法通常需要大量观察来学习。在这项工作中,我们解决了有效地学习策略的问题,同时为转换函数进行最小数量的状态动作查询。特别是,我们利用贝叶斯最优实验设计的想法,以指导选择国家行动查询以获得高效学习。我们提出了一种采集功能,该函数量化了状态动作对将提供多少信息对Markov决策过程提供的最佳解决方案。在每次迭代时,我们的算法最大限度地提高了该采集功能,选择要查询的最具信息性的状态动作对,从而产生数据有效的RL方法。我们试验各种模拟的连续控制问题,并显示我们的方法学习最佳政策,最高$ 5 $ - $ 1,000 \倍的数据,而不是基于模型的RL基线,10 ^ 3美元 - $ 10 ^ 5 \ times比无模型RL基线更少的数据。我们还提供了几种消融比较,这指出了从获得数据的原理方法产生的大量改进。
translated by 谷歌翻译
域和部署设置的机器学习模型的快速增殖使各种社区(例如行业从业人员)引起,该社区寻求跨个人价值的任务和目标的基准模型。不幸的是,这些用户不能使用标准基准导致执行如传统基准的价值驱动的比较,因为传统的基准在单个目标(例如平均精度)上评估模型,并且无法促进控制混淆变量(例如计算预算)的标准化训练框架(例如计算预算),使公平比较困难。为解决这些挑战,我们介绍了开源Ludwig基准测试工具包(LBT),一个个性化基准工具包,用于运行端到端的基准研究(从超级计量优化到评估),跨易于扩展的任务,深度学习模型,数据集和评估指标。 LBT提供了一种可配置的界面,用于控制培训和定制评估,是消除混淆变量的标准化培训框架,以及支持多目标评估。我们展示LBT如何用于创建个性化基准研究,具有7个模型和9个数据集的文本分类的大规模比较分析。我们探讨推理延迟和性能之间的权衡,数据集属性和性能之间的关系,以及预先介绍对融合和鲁棒性的影响,展示了LBT如何用于满足各种基准测试目标。
translated by 谷歌翻译
由于机器学习模型变得越来越复杂和他们的应用程序变得越来越高赌注的,用于解释模型预测工具已经变得越来越重要。这促使模型explainability研究乱舞,并已引起了功能属性的方法,如石灰和SHAP。尽管它们的广泛使用,评价和比较不同功能属性的方法仍然具有挑战性:评价非常需要人的研究,以及实证评价指标往往是数据密集型或真实世界的数据集的计算望而却步。与基准特征归属算法库以及一套综合数据集:在这项工作中,我们通过释放XAI,台式解决这个问题。不同于现实世界的数据集,合成数据集允许那些需要评估地面实况夏普利值等指标的条件期望值的高效计算。我们释放合成的数据集提供了多种可配置模拟真实世界的数据参数。我们通过在多个评价指标和跨多种设置基准流行explainability技术展示我们的图书馆的力量。我们图书馆的多功能性和效率将有助于研究人员把他们的explainability方法从开发到部署。我们的代码可在https://github.com/abacusai/xai-bench。
translated by 谷歌翻译
在回归设置中量化不确定性的许多方法中,指定完整量子函数具有吸引力,随着量级可用于解释和评估。预测每个输入的真实条件定量的模型,在所有量化水平上都具有潜在的不确定性的正确和有效的表示。为实现这一目标,许多基于当前的分位式的方法侧重于优化所谓的弹球损失。然而,这种损失限制了适用的回归模型的范围,限制了靶向许多所需特性的能力(例如校准,清晰度,中心间隔),并且可能产生差的条件量数。在这项工作中,我们开发了满足这些缺点的新分位式方法。特别是,我们提出了可以适用于任何类别的回归模型的方法,允许在校准和清晰度之间选择权衡,优化校准中心间隔,并产生更准确的条件定位。我们对我们的方法提供了彻底的实验评估,其中包括核融合中的高维不确定性量化任务。
translated by 谷歌翻译