The world currently offers an abundance of data in multiple domains, from which we can learn reinforcement learning (RL) policies without further interaction with the environment. RL agents learning offline from such data is possible but deploying them while learning might be dangerous in domains where safety is critical. Therefore, it is essential to find a way to estimate how a newly-learned agent will perform if deployed in the target environment before actually deploying it and without the risk of overestimating its true performance. To achieve this, we introduce a framework for safe evaluation of offline learning using approximate high-confidence off-policy evaluation (HCOPE) to estimate the performance of offline policies during learning. In our setting, we assume a source of data, which we split into a train-set, to learn an offline policy, and a test-set, to estimate a lower-bound on the offline policy using off-policy evaluation with bootstrapping. A lower-bound estimate tells us how good a newly-learned target policy would perform before it is deployed in the real environment, and therefore allows us to decide when to deploy our learned policy.
translated by 谷歌翻译
We consider the problem of off-policy evaluation (OPE) in reinforcement learning (RL), where the goal is to estimate the performance of an evaluation policy, $\pi_e$, using a fixed dataset, $\mathcal{D}$, collected by one or more policies that may be different from $\pi_e$. Current OPE algorithms may produce poor OPE estimates under policy distribution shift i.e., when the probability of a particular state-action pair occurring under $\pi_e$ is very different from the probability of that same pair occurring in $\mathcal{D}$ (Voloshin et al. 2021, Fu et al. 2021). In this work, we propose to improve the accuracy of OPE estimators by projecting the high-dimensional state-space into a low-dimensional state-space using concepts from the state abstraction literature. Specifically, we consider marginalized importance sampling (MIS) OPE algorithms which compute state-action distribution correction ratios to produce their OPE estimate. In the original ground state-space, these ratios may have high variance which may lead to high variance OPE. However, we prove that in the lower-dimensional abstract state-space the ratios can have lower variance resulting in lower variance OPE. We then highlight the challenges that arise when estimating the abstract ratios from data, identify sufficient conditions to overcome these issues, and present a minimax optimization problem whose solution yields these abstract ratios. Finally, our empirical evaluation on difficult, high-dimensional state-space OPE tasks shows that the abstract ratios can make MIS OPE estimators achieve lower mean-squared error and more robust to hyperparameter tuning than the ground ratios.
translated by 谷歌翻译
在各种控制任务域中,现有控制器提供了基线的性能水平,虽然可能是次优的 - 应维护。依赖于国家和行动空间的广泛探索的强化学习(RL)算法可用于优化控制策略。但是,完全探索性的RL算法可能会在训练过程中降低低于基线水平的性能。在本文中,我们解决了控制政策的在线优化问题,同时最大程度地减少了遗憾的W.R.T基线政策绩效。我们提出了一个共同的仿制学习框架,表示乔尔。 JIRL中的学习过程假设了基线策略的可用性,并设计了两个目标\ textbf {(a)}利用基线的在线演示,以最大程度地减少培训期间的遗憾W.R.T的基线策略,\ textbf {(b) }最终超过了基线性能。 JIRL通过最初学习模仿基线策略并逐渐将控制从基线转移到RL代理来解决这些目标。实验结果表明,JIRR有效地实现了几个连续的动作空间域中的上述目标。结果表明,JIRL在最终性能中与最先进的算法相当,同时在所有提出的域中训练期间都会降低基线后悔。此外,结果表明,对于最先进的基线遗憾最小化方法,其基线后悔的减少因素最高为21美元。
translated by 谷歌翻译
本文研究了马尔可夫决策过程(MDPS)中用于政策评估的数据收集问题。在政策评估中,我们获得了目标政策,并要求估计它将在正式作为MDP的环境中获得的预期累积奖励。我们通过首先得出了使用奖励分布方差知识的Oracle数据收集策略来开发在树结构MDPS中的最佳数据收集理论。然后,我们介绍了减少的方差采样(射击)算法,即当奖励方差未知并与Oracle策略相比,奖励方差未知并绑定其亚典型性时,它近似于Oracle策略。最后,我们从经验上验证了射手会导致与甲骨文策略相当的均衡误差进行政策评估,并且比仅仅运行目标策略要低得多。
translated by 谷歌翻译
本文考虑如何为策略评估任务提供额外的数据收集,如何补充脱机强化学习(RL)数据。在政策评估中,任务是估计对兴趣环境的评估政策的预期回报。在离线策略评估上的事先工作通常仅考虑静态数据集。我们考虑一个设置,我们可以收集少量附加数据,以与潜在的更大的离线RL数据集组合。我们展示只需运行评估政策 - 策略数据收集 - 此设置是子最优。然后,我们介绍了两个新的数据收集策略进行策略评估,两者都考虑在收集未来数据时考虑先前收集的数据,以便在收集的整个数据集中减少分发班次(或采样错误)。我们的经验结果表明,与政策采样相比,我们的策略产生了具有较低采样误差的数据,并且通常导致任何总数据集大小的策略评估中的较低平均平方误差。我们还表明,这些策略可以从初始禁止策略数据开始,收集其他数据,然后使用初始和新数据来产生低均衡的错误策略评估,而无需使用脱策校正。
translated by 谷歌翻译
在现实世界的机器人技术应用中,强化学习(RL)代理通常无法推广到训练过程中未观察到的环境变化。对于基于图像的RL而言,此问题已加强,其中一个变量(例如背景颜色)的更改可以更改图像中的许多像素,并且又可以改变图像代理的内部表示中的所有值。为了了解更多可靠的表示形式,我们引入了时间分离(TED),这是一项自制的辅助任务,可通过RL观察的顺序性质导致分离表示表示。我们从经验上发现,与最先进的表示方法相比,使用TED作为辅助任务的RL算法更快地适应了通过持续培训的环境变量的变化。由于表示形式的分解结构,我们还发现,经过TED训练的策略可以更好地概括地看不见的变量值与任务无关(例如背景颜色)以及影响最佳策略(例如目标目标位置)的变量值的看不见值。
translated by 谷歌翻译
机器学习在数据库研究中迅速使用,以提高包括但不限于查询优化,工作负载计划,物理设计等众多任务的有效性。它基于学习的对手。但是,查询性能不仅取决于单个组件的性能,而且还取决于多个组件的合作。因此,基于学习的数据库组件需要在培训和执行过程中进行协作,以制定符合最终绩效目标的政策。因此,该论文试图解决一个问题:“是否有可能设计由各种学习组成部分组成的数据库,这些数据库合作地工作以改善端到端查询延迟吗?”。为了回答这个问题,我们介绍了MADB(Multi-Agent DB),这是一种概念验证系统,其中包含了学习的查询调度程序和学习的查询优化器。 MADB利用一种合作的多代理增强学习方法,该方法使两个组成部分可以彼此交换他们的决策背景,并协作努力减少查询延迟。初步结果表明,MADB可以优于学习组件的非合作整合。
translated by 谷歌翻译
迄今为止,迄今为止,众所周知,对广泛的互补临床相关任务进行了全面比较了医学图像登记方法。这限制了采用研究进展,以防止竞争方法的公平基准。在过去五年内已经探讨了许多新的学习方法,但优化,建筑或度量战略的问题非常适合仍然是开放的。 Learn2reg涵盖了广泛的解剖学:脑,腹部和胸部,方式:超声波,CT,MRI,群体:患者内部和患者内部和监督水平。我们为3D注册的培训和验证建立了较低的入境障碍,这帮助我们从20多个独特的团队中汇编了65多个单独的方法提交的结果。我们的互补度量集,包括稳健性,准确性,合理性和速度,使得能够独特地位了解当前的医学图像登记现状。进一步分析监督问题的转移性,偏见和重要性,主要是基于深度学习的方法的优越性,并将新的研究方向开放到利用GPU加速的常规优化的混合方法。
translated by 谷歌翻译
目前可变形的医学图像登记的方法通常难以满足以下所有标准:多功能适用性,小的计算或培训时间,以及能够估计大变形。此外,用于监督登记培训的端到端网络通常变得过于复杂,难以训练。对于Learn2Reg2021挑战,我们的目标是通过解耦特征学习和几何对齐来解决这些问题。首先,我们介绍了一种新的非常快速准确的优化方法。通过采用离散的位移和耦合的凸优化程序,我们能够强大地应对大变形。借助基于亚当的实例优化,我们实现了非常准确的注册性能,并通过使用正则化,我们获得了光滑和合理的变形字段。其次,对于不同的注册任务来说是多功能的,我们提取手工制作的功能,这些功能是模态和对比度不变,并将它们与来自特定于任务的分段U-Net的语义特征补充。通过我们的结果,我们能够实现整体学习2REG2021挑战的第二名,赢得任务1,并在另外两项任务中赢得任务1。
translated by 谷歌翻译
数据增强是自然语言处理(NLP)模型的鲁棒性评估的重要组成部分,以及增强他们培训的数据的多样性。在本文中,我们呈现NL-Cogmenter,这是一种新的参与式Python的自然语言增强框架,它支持创建两个转换(对数据的修改)和过滤器(根据特定功能的数据拆分)。我们描述了框架和初始的117个变换和23个过滤器,用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构,Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用(\ url {https://github.com/gem-benchmark/nl-augmenter})。
translated by 谷歌翻译