本文研究了不知所措的多臂匪徒(RMAB)问题,该问题具有未知的手臂过渡动力学,但具有已知的相关手臂特征。目的是学习一个模型,以预测给定功能的过渡动态,在这种功能下,使用预测的过渡解决了RMAB问题。但是,先前的工作通常通过最大化预测精度而不是最终的RMAB解决方案质量来学习模型,从而在培训和评估目标之间导致不匹配。为了解决这一缺点,我们提出了一种新颖的方法,用于在RMAB中以决策为中心的学习,该方法直接训练预测模型,以最大程度地提高Whittle索引解决方案质量。我们提出了三个关键贡献:(i)我们建立了Whittle Index政策以支持决策的学习的不同; (ii)我们在顺序问题中显着提高了以前以决策为中心的学习方法的可伸缩性; (iii)我们将算法应用于现实世界中的母婴健康领域的服务通话计划问题。我们的算法是第一个在RMAB中以决策为中心的学习,该学习范围扩展到大型现实世界中的问题。 \ end {摘要}
translated by 谷歌翻译
在预测 - 优化框架中,目的是训练预测模型,从环境特征映射到优化问题的参数,这使得当优化被求解时最大化判定质量。最近的决定学习的工作表明,与依赖于用于评估预测质量的中间损耗功能相比,嵌入训练管道中的优化问题可以提高判定质量,并帮助更好地提高未经任务的任务。我们研究了通过增强学习解决的顺序决策问题(制定为MDP)的上下文中的预测 - 优化框架。特别是,我们是给予的环境特征和来自训练MDP的一组轨迹,我们用于训练推广的预测模型,无需轨迹。在将决策的学习应用于MDPS上,出现了两个重要的计算挑战:(i)大状态和行动空间使现有技术可行,以区分通过MDP问题,并且(ii)是由神经的参数化的高维策略空间网络,通过昂贵的政策进行区分。我们通过采样可释放的无偏见的衍生物来解决第一挑战,以通过最优条件近似和分辨,并通过使用基于高维样本的衍生物的低秩近似来分辨。我们在缺少参数的三个不同MDP问题上实现了基于Bellman的基于政策梯度的决定学习,并表明,决定的学习在概括任务中表现更好。
translated by 谷歌翻译
Restless multi-armed bandits (RMABs) extend multi-armed bandits to allow for stateful arms, where the state of each arm evolves restlessly with different transitions depending on whether that arm is pulled. Solving RMABs requires information on transition dynamics, which are often unknown upfront. To plan in RMAB settings with unknown transitions, we propose the first online learning algorithm based on the Whittle index policy, using an upper confidence bound (UCB) approach to learn transition dynamics. Specifically, we estimate confidence bounds of the transition probabilities and formulate a bilinear program to compute optimistic Whittle indices using these estimates. Our algorithm, UCWhittle, achieves sublinear $O(H \sqrt{T \log T})$ frequentist regret to solve RMABs with unknown transitions in $T$ episodes with a constant horizon $H$. Empirically, we demonstrate that UCWhittle leverages the structure of RMABs and the Whittle index policy solution to achieve better performance than existing online learning baselines across three domains, including one constructed via sampling from a real-world maternal and childcare dataset.
translated by 谷歌翻译
躁动不安的多臂土匪(RMAB)是一种恰当的模型,可以代表公共卫生干预措施(例如结核病,母性和儿童保育),反偷猎计划,传感器监测,个性化建议等方面的决策问题。 RMAB的现有研究为各种环境提供了机制和理论结果,其中重点是最大化期望值。在本文中,我们有兴趣确保RMAB决策对不同的武器也很公平,同时最大化了预期价值。在公共卫生环境的背景下,这将确保在做出公共卫生干预决策时公平地代表不同的人和/或社区。为了实现这一目标,我们正式定义了RMAB中的公平限制,并提供计划和学习方法以公平的方式解决RMAB。我们证明了公平RMAB的关键理论特性,并在实验上证明了我们所提出的方法处理公平限制,而无需在溶液质量上显着牺牲。
translated by 谷歌翻译
躁动不安的多臂土匪(RMAB)是在不确定性下分配有限资源的框架。这是一个非常有用的模型,用于监测受益人和执行及时的干预措施,以确保在公共卫生环境中获得最大的利益(例如,确保患者在结核病环境中服用药物,确保怀孕的母亲听取有关良好怀孕习惯的自动电话)。由于资源有限,通常某些社区或地区会饿死可能带来后续影响的干预措施。为了避免在个人/地区/社区的执行干预措施中饥饿,我们首先提供了软性约束,然后提供了一种方法来强制RMAB中的软性公平约束。柔软的公平约束要求,如果选择后一个臂的长期累积奖励较高,则算法永远不会在概率上偏爱另一只手臂。我们的方法将基于SoftMax的价值迭代方法在RMAB设置中纳入设计选择算法,以满足提出的公平约束。我们的方法(称为Softfair)也提供了理论性能保证,并且在渐近上是最佳的。最后,我们证明了我们在模拟基准上的方法的实用性,并证明可以在没有重大牺牲的价值牺牲的情况下处理软性公平约束。
translated by 谷歌翻译
我们在\ textit {躁动不安的多臂土匪}(rmabs)中引入了鲁棒性,这是一个流行的模型,用于在独立随机过程(臂)之间进行约束资源分配。几乎所有RMAB技术都假设随机动力学是精确的。但是,在许多实际设置中,动态是用显着的\ emph {不确定性}估算的,例如,通过历史数据,如果被忽略,这可能会导致不良结果。为了解决这个问题,我们开发了一种算法来计算Minimax遗憾 - RMAB的强大政策。我们的方法使用双oracle框架(\ textit {agent}和\ textit {nature}),通常用于单过程强大的计划,但需要大量的新技术来适应RMAB的组合性质。具体而言,我们设计了深入的强化学习(RL)算法DDLPO,该算法通过学习辅助机构“ $ \ lambda $ -network”来应对组合挑战,并与每手臂的策略网络串联,大大降低了样本复杂性,并确保了融合。普遍关注的DDLPO实现了我们的奖励最大化代理Oracle。然后,我们通过将其作为策略优化器和对抗性性质之间的多代理RL问题提出来解决具有挑战性的遗憾最大化自然甲骨文,这是一个非平稳的RL挑战。这种表述具有普遍的兴趣 - 我们通过与共同的评论家创建DDLPO的多代理扩展来解决RMAB。我们显示我们的方法在三个实验域中效果很好。
translated by 谷歌翻译
We consider infinite horizon Markov decision processes (MDPs) with fast-slow structure, meaning that certain parts of the state space move "fast" (and in a sense, are more influential) while other parts transition more "slowly." Such structure is common in real-world problems where sequential decisions need to be made at high frequencies, yet information that varies at a slower timescale also influences the optimal policy. Examples include: (1) service allocation for a multi-class queue with (slowly varying) stochastic costs, (2) a restless multi-armed bandit with an environmental state, and (3) energy demand response, where both day-ahead and real-time prices play a role in the firm's revenue. Models that fully capture these problems often result in MDPs with large state spaces and large effective time horizons (due to frequent decisions), rendering them computationally intractable. We propose an approximate dynamic programming algorithmic framework based on the idea of "freezing" the slow states, solving a set of simpler finite-horizon MDPs (the lower-level MDPs), and applying value iteration (VI) to an auxiliary MDP that transitions on a slower timescale (the upper-level MDP). We also extend the technique to a function approximation setting, where a feature-based linear architecture is used. On the theoretical side, we analyze the regret incurred by each variant of our frozen-state approach. Finally, we give empirical evidence that the frozen-state approach generates effective policies using just a fraction of the computational cost, while illustrating that simply omitting slow states from the decision modeling is often not a viable heuristic.
translated by 谷歌翻译
强化学习(RL)是人工智能中的核心问题。这个问题包括定义可以通过与环境交互学习最佳行为的人工代理 - 其中,在代理试图最大化的奖励信号的奖励信号中定义最佳行为。奖励机(RMS)提供了一种基于Automate的基于自动机的表示,该奖励功能使RL代理能够将RL问题分解为可以通过禁止策略学习有效地学习的结构化子问题。在这里,我们表明可以从经验中学习RMS,而不是由用户指定,并且可以使用所产生的问题分解来有效地解决部分可观察的RL问题。我们将学习RMS的任务作为离散优化问题构成,其中目标是找到将问题分解为一组子问题的RM,使得其最佳记忆策略的组合是原始问题的最佳策略。我们展示了这种方法在三个部分可观察的域中的有效性,在那里它显着优于A3C,PPO和宏碁,并讨论其优点,限制和更广泛的潜力。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
Structural Health Monitoring (SHM) describes a process for inferring quantifiable metrics of structural condition, which can serve as input to support decisions on the operation and maintenance of infrastructure assets. Given the long lifespan of critical structures, this problem can be cast as a sequential decision making problem over prescribed horizons. Partially Observable Markov Decision Processes (POMDPs) offer a formal framework to solve the underlying optimal planning task. However, two issues can undermine the POMDP solutions. Firstly, the need for a model that can adequately describe the evolution of the structural condition under deterioration or corrective actions and, secondly, the non-trivial task of recovery of the observation process parameters from available monitoring data. Despite these potential challenges, the adopted POMDP models do not typically account for uncertainty on model parameters, leading to solutions which can be unrealistically confident. In this work, we address both key issues. We present a framework to estimate POMDP transition and observation model parameters directly from available data, via Markov Chain Monte Carlo (MCMC) sampling of a Hidden Markov Model (HMM) conditioned on actions. The MCMC inference estimates distributions of the involved model parameters. We then form and solve the POMDP problem by exploiting the inferred distributions, to derive solutions that are robust to model uncertainty. We successfully apply our approach on maintenance planning for railway track assets on the basis of a "fractal value" indicator, which is computed from actual railway monitoring data.
translated by 谷歌翻译
我们为处理顺序决策和外在不确定性的应用程序开发了增强学习(RL)框架,例如资源分配和库存管理。在这些应用中,不确定性仅由于未来需求等外源变量所致。一种流行的方法是使用历史数据预测外源变量,然后对预测进行计划。但是,这种间接方法需要对外源过程进行高保真模型,以确保良好的下游决策,当外源性过程复杂时,这可能是不切实际的。在这项工作中,我们提出了一种基于事后观察学习的替代方法,该方法避开了对外源过程进行建模的建模。我们的主要见解是,与Sim2real RL不同,我们可以在历史数据中重新审视过去的决定,并在这些应用程序中对其他动作产生反事实后果。我们的框架将事后最佳的行动用作政策培训信号,并在决策绩效方面具有强大的理论保证。我们使用框架开发了一种算法,以分配计算资源,以用于现实世界中的Microsoft Azure工作负载。结果表明,我们的方法比域特异性的启发式方法和SIM2REAL RL基准学习更好的政策。
translated by 谷歌翻译
我们考虑了一类不安的匪徒问题,这些问题在随机优化,增强学习和操作研究中发现了一个广泛的应用领域。我们考虑$ n $独立离散时间马尔可夫流程,每个过程都有两个可能的状态:1和0(“好”和“坏”)。只有在状态1中既有过程又观察到的过程才能得到奖励。目的是最大限度地提高无限视野的预期折扣总和,受到约束,即在每个步骤中只能观察到$ m $ $ $(<n)$。观察是容易出错的:有一个已知的概率,即状态1(0)将被观察为0(1)。从这个人知道,在任何时候$ t $,过程$ i $在状态1中的概率1。可以将结果系统建模为不​​安的多臂强盗问题,具有无数基数的信息状态空间。一般而言,即使是有限状态空间的不安强盗问题也是Pspace-Hard。我们提出了一种新颖的方法,以简化这类不安的土匪的动态编程方程,并开发出一种低复杂性算法,该算法实现了强劲的性能,并且对于带有观察错误的一般不安强盗模型而言,很容易扩展。在某些条件下,我们确定了Whittle指数的存在(索引性)及其与我们的算法的等效性。当这些条件不满足时,我们通过数值实验显示了算法在一般参数空间中的近乎最佳性能。最后,从理论上讲,我们证明了我们算法对于均匀系统的最佳性。
translated by 谷歌翻译
在本文中,我们考虑在具有多个半自治机器人的系统中分配人类运营商的问题。每个机器人都需要执行独立的任务序列,经历了一次失败并在每个任务时陷入故障状态的可能性。如果需要,人类运营商可以帮助或漫游机器人。传统的MDP技术用于解决这些问题的面临可扩展性问题,因为具有机器人和运营商的数量的状态和行动空间的指数增长。在本文中,我们推出了操作员分配问题可转向的条件,从而实现了削弱指数启发式的使用。可以容易地检查条件以验证可索引性,我们表明他们持有广泛的兴趣问题。我们的主要洞察力是利用各个机器人的价值函数的结构,从而导致可以针对每个机器人的每个状态分开验证的条件。我们将这些条件应用于远程机器人监控系统中常见的两种转换。通过数值模拟,我们展示了削减指数政策作为近乎最佳和可扩展方法的功效,以实现现有的可扩展方法。
translated by 谷歌翻译
In inverse reinforcement learning (IRL), a learning agent infers a reward function encoding the underlying task using demonstrations from experts. However, many existing IRL techniques make the often unrealistic assumption that the agent has access to full information about the environment. We remove this assumption by developing an algorithm for IRL in partially observable Markov decision processes (POMDPs). We address two limitations of existing IRL techniques. First, they require an excessive amount of data due to the information asymmetry between the expert and the learner. Second, most of these IRL techniques require solving the computationally intractable forward problem -- computing an optimal policy given a reward function -- in POMDPs. The developed algorithm reduces the information asymmetry while increasing the data efficiency by incorporating task specifications expressed in temporal logic into IRL. Such specifications may be interpreted as side information available to the learner a priori in addition to the demonstrations. Further, the algorithm avoids a common source of algorithmic complexity by building on causal entropy as the measure of the likelihood of the demonstrations as opposed to entropy. Nevertheless, the resulting problem is nonconvex due to the so-called forward problem. We solve the intrinsic nonconvexity of the forward problem in a scalable manner through a sequential linear programming scheme that guarantees to converge to a locally optimal policy. In a series of examples, including experiments in a high-fidelity Unity simulator, we demonstrate that even with a limited amount of data and POMDPs with tens of thousands of states, our algorithm learns reward functions and policies that satisfy the task while inducing similar behavior to the expert by leveraging the provided side information.
translated by 谷歌翻译
This paper studies systematic exploration for reinforcement learning with rich observations and function approximation. We introduce a new model called contextual decision processes, that unifies and generalizes most prior settings. Our first contribution is a complexity measure, the Bellman rank , that we show enables tractable learning of near-optimal behavior in these processes and is naturally small for many well-studied reinforcement learning settings. Our second contribution is a new reinforcement learning algorithm that engages in systematic exploration to learn contextual decision processes with low Bellman rank. Our algorithm provably learns near-optimal behavior with a number of samples that is polynomial in all relevant parameters but independent of the number of unique observations. The approach uses Bellman error minimization with optimistic exploration and provides new insights into efficient exploration for reinforcement learning with function approximation.
translated by 谷歌翻译
强化学习(RL)通过与环境相互作用的试验过程解决顺序决策问题。尽管RL在玩复杂的视频游戏方面取得了巨大的成功,但在现实世界中,犯错误总是不希望的。为了提高样本效率并从而降低错误,据信基于模型的增强学习(MBRL)是一个有前途的方向,它建立了环境模型,在该模型中可以进行反复试验,而无需实际成本。在这项调查中,我们对MBRL进行了审查,重点是Deep RL的最新进展。对于非壮观环境,学到的环境模型与真实环境之间始终存在概括性错误。因此,非常重要的是分析环境模型中的政策培训与实际环境中的差异,这反过来又指导了更好的模型学习,模型使用和政策培训的算法设计。此外,我们还讨论了其他形式的RL,包括离线RL,目标条件RL,多代理RL和Meta-RL的最新进展。此外,我们讨论了MBRL在现实世界任务中的适用性和优势。最后,我们通过讨论MBRL未来发展的前景来结束这项调查。我们认为,MBRL在被忽略的现实应用程序中具有巨大的潜力和优势,我们希望这项调查能够吸引更多关于MBRL的研究。
translated by 谷歌翻译
在钢筋学习(RL)中,代理必须探索最初未知的环境,以便学习期望的行为。当RL代理部署在现实世界环境中时,安全性是主要关注的。受约束的马尔可夫决策过程(CMDPS)可以提供长期的安全约束;但是,该代理人可能会违反探索其环境的制约因素。本文提出了一种称为显式探索,漏洞探索或转义($ e ^ {4} $)的基于模型的RL算法,它将显式探索或利用($ e ^ {3} $)算法扩展到强大的CMDP设置。 $ e ^ 4 $明确地分离开发,探索和逃脱CMDP,允许针对已知状态的政策改进的有针对性的政策,发现未知状态,以及安全返回到已知状态。 $ e ^ 4 $强制优化了从一组CMDP模型的最坏情况CMDP上的这些策略,该模型符合部署环境的经验观察。理论结果表明,在整个学习过程中满足安全限制的情况下,在多项式时间中找到近最优的约束政策。我们讨论了稳健约束的离线优化算法,以及如何基于经验推理和先验知识来结合未知状态过渡动态的不确定性。
translated by 谷歌翻译
我们研究了逆钢筋学习的问题(IRL),学习代理使用专家演示恢复奖励功能。大多数现有的IRL技术使代理商可以访问有关环境的完整信息,这使得经常不切实际的假设。我们通过在部分可观察到的马尔可夫决策过程(POMDPS)中开发IRL算法来消除此假设。该算法解决了现有技术的若干限制,这些技术不会考虑专家和学习者之间的信息不对称。首先,它采用因果熵作为专家演示的可能性,而不是在大多数现有的IRL技术中熵,避免了算法复杂性的共同来源。其次,它包含以时间逻辑表示的任务规范。除了演示之外,这些规范可以被解释为对学习者可用的侧面信息,并且可以减少信息不对称。然而,由于所谓的前向问题的内在非凸起,即计算最佳政策,在POMDPS中计算最佳政策,所得到的制剂仍然是非凸的。通过顺序凸编程来解决这种非凸起,并介绍几个扩展以以可扩展的方式解决前向问题。这种可扩展性允许计算策略,以牺牲添加的计算成本为代价也越优于无记忆策略。我们证明,即使具有严重限制的数据,算法也会了解满足任务的奖励函数和策略,并通过利用侧面信息并将内存结合到策略中来对专家引起类似的行为。
translated by 谷歌翻译
脱机强化学习 - 从一批数据中学习策略 - 是难以努力的:如果没有制造强烈的假设,它很容易构建实体算法失败的校长。在这项工作中,我们考虑了某些现实世界问题的财产,其中离线强化学习应该有效:行动仅对一部分产生有限的行动。我们正规化并介绍此动作影响规律(AIR)财产。我们进一步提出了一种算法,该算法假定和利用AIR属性,并在MDP满足空气时绑定输出策略的子优相。最后,我们展示了我们的算法在定期保留的两个模拟环境中跨越不同的数据收集策略占据了现有的离线强度学习算法。
translated by 谷歌翻译
受约束的部分可观察到的马尔可夫决策过程(CPOMDP)已用于模拟各种现实现象。但是,众所周知,它们很难解决最优性,并且只有几种近似方法来获得高质量的解决方案。在这项研究中,我们将基于网格的近似值与线性编程(LP)模型结合使用来生成CPOMDP的近似策略。我们考虑了五个CPOMDP问题实例,并对其有限和无限的地平线配方进行了详细的数值研究。我们首先通过使用精确溶液方法进行比较分析来建立近似无约束的POMDP策略的质量。然后,我们显示了基于LP的CPOMDP解决方案方法的性能,用于不同的问题实例的不同预算水平(即成本限制)。最后,我们通过应用确定性政策约束来展示基于LP的方法的灵活性,并研究这些约束对收集的奖励和CPU运行时间的影响。我们的分析表明,LP模型可以有效地为有限和无限的地平线问题生成近似策略,同时提供了将各种其他约束结合到基础模型中的灵活性。
translated by 谷歌翻译