Mobile networks are experiencing prodigious increase in data volume and user density , which exerts a great burden on mobile core networks and backhaul links. An efficient technique to lessen this problem is to use caching i.e. to bring the data closer to the users by making use of the caches of edge network nodes, such as fixed or mobile access points and even user devices. The performance of a caching depends on contents that are cached. In this paper, we examine the problem of content caching at the wireless edge(i.e. base stations) to minimize the discounted cost incurred over infinite horizon. We formulate this problem as a restless bandit problem, which is hard to solve. We begin by showing an optimal policy is of threshold type. Using these structural results, we prove the indexability of the problem, and use Whittle index policy to minimize the discounted cost.
translated by 谷歌翻译
我们考虑了一类不安的匪徒问题,这些问题在随机优化,增强学习和操作研究中发现了一个广泛的应用领域。我们考虑$ n $独立离散时间马尔可夫流程,每个过程都有两个可能的状态:1和0(“好”和“坏”)。只有在状态1中既有过程又观察到的过程才能得到奖励。目的是最大限度地提高无限视野的预期折扣总和,受到约束,即在每个步骤中只能观察到$ m $ $ $(<n)$。观察是容易出错的:有一个已知的概率,即状态1(0)将被观察为0(1)。从这个人知道,在任何时候$ t $,过程$ i $在状态1中的概率1。可以将结果系统建模为不​​安的多臂强盗问题,具有无数基数的信息状态空间。一般而言,即使是有限状态空间的不安强盗问题也是Pspace-Hard。我们提出了一种新颖的方法,以简化这类不安的土匪的动态编程方程,并开发出一种低复杂性算法,该算法实现了强劲的性能,并且对于带有观察错误的一般不安强盗模型而言,很容易扩展。在某些条件下,我们确定了Whittle指数的存在(索引性)及其与我们的算法的等效性。当这些条件不满足时,我们通过数值实验显示了算法在一般参数空间中的近乎最佳性能。最后,从理论上讲,我们证明了我们算法对于均匀系统的最佳性。
translated by 谷歌翻译
在本文中,我们考虑在具有多个半自治机器人的系统中分配人类运营商的问题。每个机器人都需要执行独立的任务序列,经历了一次失败并在每个任务时陷入故障状态的可能性。如果需要,人类运营商可以帮助或漫游机器人。传统的MDP技术用于解决这些问题的面临可扩展性问题,因为具有机器人和运营商的数量的状态和行动空间的指数增长。在本文中,我们推出了操作员分配问题可转向的条件,从而实现了削弱指数启发式的使用。可以容易地检查条件以验证可索引性,我们表明他们持有广泛的兴趣问题。我们的主要洞察力是利用各个机器人的价值函数的结构,从而导致可以针对每个机器人的每个状态分开验证的条件。我们将这些条件应用于远程机器人监控系统中常见的两种转换。通过数值模拟,我们展示了削减指数政策作为近乎最佳和可扩展方法的功效,以实现现有的可扩展方法。
translated by 谷歌翻译
躁动不安的多臂土匪(RMAB)是一种恰当的模型,可以代表公共卫生干预措施(例如结核病,母性和儿童保育),反偷猎计划,传感器监测,个性化建议等方面的决策问题。 RMAB的现有研究为各种环境提供了机制和理论结果,其中重点是最大化期望值。在本文中,我们有兴趣确保RMAB决策对不同的武器也很公平,同时最大化了预期价值。在公共卫生环境的背景下,这将确保在做出公共卫生干预决策时公平地代表不同的人和/或社区。为了实现这一目标,我们正式定义了RMAB中的公平限制,并提供计划和学习方法以公平的方式解决RMAB。我们证明了公平RMAB的关键理论特性,并在实验上证明了我们所提出的方法处理公平限制,而无需在溶液质量上显着牺牲。
translated by 谷歌翻译
Restless multi-armed bandits (RMABs) extend multi-armed bandits to allow for stateful arms, where the state of each arm evolves restlessly with different transitions depending on whether that arm is pulled. Solving RMABs requires information on transition dynamics, which are often unknown upfront. To plan in RMAB settings with unknown transitions, we propose the first online learning algorithm based on the Whittle index policy, using an upper confidence bound (UCB) approach to learn transition dynamics. Specifically, we estimate confidence bounds of the transition probabilities and formulate a bilinear program to compute optimistic Whittle indices using these estimates. Our algorithm, UCWhittle, achieves sublinear $O(H \sqrt{T \log T})$ frequentist regret to solve RMABs with unknown transitions in $T$ episodes with a constant horizon $H$. Empirically, we demonstrate that UCWhittle leverages the structure of RMABs and the Whittle index policy solution to achieve better performance than existing online learning baselines across three domains, including one constructed via sampling from a real-world maternal and childcare dataset.
translated by 谷歌翻译
我们考虑学习控制问题的最佳阈值策略的问题。阈值策略通过评估系统状态的元素是否超过一定阈值来做出控制决策,其值由系统状态的其他元素决定。通过利用阈值策略的单调特性,我们证明他们的政策梯度具有令人惊讶的简单表达方式。我们使用这种简单的表达方式来构建一种范围的演员批评算法,以学习最佳阈值策略。仿真结果表明,由于其能够利用单调属性的能力,我们的政策大大优于其他强化学习算法。此外,我们表明,Whittle Index是一种用于躁动的多臂匪徒问题的强大工具,相当于替代问题的最佳阈值策略。该观察结果导致了一种简单的算法,该算法通过学习替代问题中的最佳阈值策略来找到Whittle索引。仿真结果表明,我们的算法比最近通过间接手段学习小索引的一些研究快得多。
translated by 谷歌翻译
We consider infinite horizon Markov decision processes (MDPs) with fast-slow structure, meaning that certain parts of the state space move "fast" (and in a sense, are more influential) while other parts transition more "slowly." Such structure is common in real-world problems where sequential decisions need to be made at high frequencies, yet information that varies at a slower timescale also influences the optimal policy. Examples include: (1) service allocation for a multi-class queue with (slowly varying) stochastic costs, (2) a restless multi-armed bandit with an environmental state, and (3) energy demand response, where both day-ahead and real-time prices play a role in the firm's revenue. Models that fully capture these problems often result in MDPs with large state spaces and large effective time horizons (due to frequent decisions), rendering them computationally intractable. We propose an approximate dynamic programming algorithmic framework based on the idea of "freezing" the slow states, solving a set of simpler finite-horizon MDPs (the lower-level MDPs), and applying value iteration (VI) to an auxiliary MDP that transitions on a slower timescale (the upper-level MDP). We also extend the technique to a function approximation setting, where a feature-based linear architecture is used. On the theoretical side, we analyze the regret incurred by each variant of our frozen-state approach. Finally, we give empirical evidence that the frozen-state approach generates effective policies using just a fraction of the computational cost, while illustrating that simply omitting slow states from the decision modeling is often not a viable heuristic.
translated by 谷歌翻译
移动边缘计算(MEC)是一个突出的计算范例,它扩展了无线通信的应用领域。由于用户设备和MEC服务器的能力的限制,边缘缓存(EC)优化对于有效利用启用MEC的无线网络中的高速利用。然而,内容普及空间和时间的动态和复杂性以及用户的隐私保护对EC优化构成了重大挑战。在本文中,提出了一种隐私保留的分布式深度确定性政策梯度(P2D3PG)算法,以最大化MEC网络中设备的高速缓存命中率。具体而言,我们认为内容流行度是动态,复杂和不可观察的事实,并制定了在隐私保存的限制下作为分布式问题的设备的高速缓存命中速率的最大化。特别是,我们将分布式优化转换为分布式的无模型马尔可夫决策过程问题,然后介绍一种隐私保留的联合学习方法,用于普及预测。随后,基于分布式增强学学习开发了P2D3PG算法以解决分布式问题。仿真结果表明,在保护用户隐私的同时通过基线方法提高EC击中率的提出方法的优越性。
translated by 谷歌翻译
策略梯度方法适用于复杂的,不理解的,通过对参数化的策略进行随机梯度下降来控制问题。不幸的是,即使对于可以通过标准动态编程技术解决的简单控制问题,策略梯度算法也会面临非凸优化问题,并且被广泛理解为仅收敛到固定点。这项工作确定了结构属性 - 通过几个经典控制问题共享 - 确保策略梯度目标函数尽管是非凸面,但没有次优的固定点。当这些条件得到加强时,该目标满足了产生收敛速率的Polyak-lojasiewicz(梯度优势)条件。当其中一些条件放松时,我们还可以在任何固定点的最佳差距上提供界限。
translated by 谷歌翻译
Remote state estimation of large-scale distributed dynamic processes plays an important role in Industry 4.0 applications. In this paper, we focus on the transmission scheduling problem of a remote estimation system. First, we derive some structural properties of the optimal sensor scheduling policy over fading channels. Then, building on these theoretical guidelines, we develop a structure-enhanced deep reinforcement learning (DRL) framework for optimal scheduling of the system to achieve the minimum overall estimation mean-square error (MSE). In particular, we propose a structure-enhanced action selection method, which tends to select actions that obey the policy structure. This explores the action space more effectively and enhances the learning efficiency of DRL agents. Furthermore, we introduce a structure-enhanced loss function to add penalties to actions that do not follow the policy structure. The new loss function guides the DRL to converge to the optimal policy structure quickly. Our numerical experiments illustrate that the proposed structure-enhanced DRL algorithms can save the training time by 50% and reduce the remote estimation MSE by 10% to 25% when compared to benchmark DRL algorithms. In addition, we show that the derived structural properties exist in a wide range of dynamic scheduling problems that go beyond remote state estimation.
translated by 谷歌翻译
我们考虑非平稳马尔可夫决策过程中的无模型增强学习(RL)。只要其累积变化不超过某些变化预算,奖励功能和国家过渡功能都可以随时间随时间变化。我们提出了重新启动的Q学习,以上置信度范围(RestartQ-UCB),这是第一个用于非平稳RL的无模型算法,并表明它在动态遗憾方面优于现有的解决方案。具体而言,带有freedman型奖励项的restartq-ucb实现了$ \ widetilde {o}(s^{\ frac {1} {3}} {\ frac {\ frac {1} {1} {3}} {3}} {3}} {3}} {3}} {3}} {3}} {3}} {\ delta ^{\ frac {1} {3}} h t^{\ frac {2} {3}}} $,其中$ s $和$ a $分别是$ \ delta> 0 $的状态和动作的数字是变化预算,$ h $是每集的时间步数,而$ t $是时间步长的总数。我们进一步提出了一种名为Double-Restart Q-UCB的无参数算法,该算法不需要事先了解变化预算。我们证明我们的算法是\ emph {几乎是最佳},通过建立$ \ omega的信息理论下限(s^{\ frac {1} {1} {3}}} a^{\ frac {1} {1} {3}}}}}} \ delta^{\ frac {1} {3}} h^{\ frac {2} {3}}}} t^{\ frac {2} {3}}} $,是非稳态RL中的第一个下下限。数值实验可以根据累积奖励和计算效率来验证RISTARTQ-UCB的优势。我们在相关产品的多代理RL和库存控制的示例中证明了我们的结果的力量。
translated by 谷歌翻译
我们考虑了学习eoiSodic安全控制政策的问题,这最小化了客观函数,同时满足必要的安全约束 - 都在学习和部署期间。我们使用具有未知转换概率函数的有限范围限制的Markov决策过程(CMDP)的有限范围限制的Markov决策过程(CMDP)制定了这种安全约束的强化学习(RL)问题。在这里,我们将安全要求造型为关于在所有学习集中必须满足的预期累计成本的限制。我们提出了一种基于模型的安全RL算法,我们称之为乐观 - 悲观的安全强化学习(OPSRL)算法,并表明它实现了$ \ TINDE {\ MATHCAL {O}}(S ^ {2} \ SQRT {啊^ {7} k} /(\ bar {c} - \ bar {c} _ {b}))$累积遗憾在学习期间没有违反安全限制,其中$ S $是州的数量,$ a $动作数量,$ H $是地平线长度,$ k $是学习剧集的数量,$(\ bar {c} - \ bar {c} _ {b})$是安全差距,即,约束值与已知安全基线政策的成本之间的差异。缩放为$ \ tilde {\ mathcal {o}}(\ sqrt {k})$与学习期间可能违反约束的传统方法相同,这意味着我们的算法尽管提供了一个额外的遗憾安全保证。我们的主要思想是利用乐观的探索方法,以悲观的约束实施来学习政策。这种方法同时激励了未知国家的探索,同时对访问可能违反安全限制的国家施加罚款。我们通过对传统方法的基准问题进行评估来验证我们的算法。
translated by 谷歌翻译
随着移动网络的增殖,我们正在遇到强大的服务多样化,这需要从现有网络的更大灵活性。建议网络切片作为5G和未来网络的资源利用解决方案,以解决这种可怕需求。在网络切片中,动态资源编排和网络切片管理对于最大化资源利用率至关重要。不幸的是,由于缺乏准确的模型和动态隐藏结构,这种过程对于传统方法来说太复杂。在不知道模型和隐藏结构的情况下,我们将问题作为受约束的马尔可夫决策过程(CMDP)制定。此外,我们建议使用Clara解决问题,这是一种基于钢筋的基于资源分配算法。特别是,我们分别使用自适应内部点策略优化和投影层分析累积和瞬时约束。评估表明,Clara明显优于资源配置的基线,通过服务需求保证。
translated by 谷歌翻译
躁动不安的多臂土匪(RMAB)是在不确定性下分配有限资源的框架。这是一个非常有用的模型,用于监测受益人和执行及时的干预措施,以确保在公共卫生环境中获得最大的利益(例如,确保患者在结核病环境中服用药物,确保怀孕的母亲听取有关良好怀孕习惯的自动电话)。由于资源有限,通常某些社区或地区会饿死可能带来后续影响的干预措施。为了避免在个人/地区/社区的执行干预措施中饥饿,我们首先提供了软性约束,然后提供了一种方法来强制RMAB中的软性公平约束。柔软的公平约束要求,如果选择后一个臂的长期累积奖励较高,则算法永远不会在概率上偏爱另一只手臂。我们的方法将基于SoftMax的价值迭代方法在RMAB设置中纳入设计选择算法,以满足提出的公平约束。我们的方法(称为Softfair)也提供了理论性能保证,并且在渐近上是最佳的。最后,我们证明了我们在模拟基准上的方法的实用性,并证明可以在没有重大牺牲的价值牺牲的情况下处理软性公平约束。
translated by 谷歌翻译
在边缘计算中,必须根据用户移动性迁移用户的服务配置文件。已经提出了强化学习(RL)框架。然而,这些框架并不考虑偶尔的服务器故障,尽管很少会阻止Edge Computing用户的延迟敏感应用程序(例如自动驾驶和实时障碍物检测)的平稳和安全功能,因为用户的计算作业不再是完全的。由于这些故障的发生率很低,因此,RL算法本质上很难为数据驱动的算法学习针对典型事件和罕见事件方案的最佳服务迁移解决方案。因此,我们引入了罕见的事件自适应弹性框架火,该框架将重要性采样集成到加强学习中以放置备份服务。我们以与其对价值函数的贡献成正比的稀有事件进行采样,以学习最佳政策。我们的框架平衡了服务迁移和迁移成本之间的迁移权衡,与失败的成本以及备份放置和移民的成本。我们提出了一种基于重要性抽样的Q-学习算法,并证明其界限和收敛到最佳性。随后,我们提出了新的资格轨迹,我们的算法的线性函数近似和深Q学习版本,以确保其扩展到现实世界情景。我们扩展框架,以适应具有不同风险承受失败的用户。最后,我们使用痕量驱动的实验表明我们的算法在发生故障时会降低成本。
translated by 谷歌翻译
We incorporate statistical confidence intervals in both the multi-armed bandit and the reinforcement learning problems. In the bandit problem we show that given n arms, it suffices to pull the arms a total of O (n/ε 2 ) log(1/δ) times to find an ε-optimal arm with probability of at least 1 − δ. This bound matches the lower bound of Mannor and Tsitsiklis (2004) up to constants. We also devise action elimination procedures in reinforcement learning algorithms. We describe a framework that is based on learning the confidence interval around the value function or the Q-function and eliminating actions that are not optimal (with high probability). We provide a model-based and a model-free variants of the elimination method. We further derive stopping conditions guaranteeing that the learned policy is approximately optimal with high probability. Simulations demonstrate a considerable speedup and added robustness over ε-greedy Q-learning. * . Preliminary and partial results from this work appeared as extended abstracts in COLT 2002 and ICML 2003.
translated by 谷歌翻译
在优化动态系统时,变量通常具有约束。这些问题可以建模为受约束的马尔可夫决策过程(CMDP)。本文考虑了受限制的马尔可夫决策过程(PCMDP),其中代理选择该策略以最大程度地提高有限视野中的总奖励,并在每个时期内满足约束。应用不受约束的问题并应用了基于Q的方法。我们定义了可能正确正确的PCMDP问题的概念(PAC)。事实证明,提出的算法可以实现$(\ epsilon,p)$ - PAC政策,当$ k \ geq \ omega(\ frac {i^2h^6sa \ ell} {\ ell} {\ epsilon^2})$ $ s $和$ a $分别是州和行动的数量。 $ h $是每集时代的数量。 $ i $是约束函数的数量,$ \ ell = \ log(\ frac {sat} {p})$。我们注意到,这是PCMDP的PAC分析的第一个结果,具有峰值约束,其中过渡动力学未知。我们证明了有关能量收集问题和单个机器调度问题的提议算法,该算法接近研究优化问题的理论上限。
translated by 谷歌翻译
对于多个用户的多波段无线临时网络,研究了用户和干扰器之间的反界游戏。在此游戏中,用户(干扰分子)希望最大程度地提高(分别最小化)用户的预期奖励考虑了各种因素,例如沟通率,跳高成本和干扰损失。我们根据马尔可夫决策过程(MDP)分析了游戏的军备竞赛,并在军备竞赛的每个阶段得出了最佳的频率跳跃政策。通过分析表明,几次武器竞赛在几轮后达到平衡,并且表征了频率的策略和平衡的干扰策略。我们提出了两种避免碰撞协议,以确保最多有一个用户在每个频带中进行通信,并提供各种数值结果,以显示奖励参数和避免碰撞协议对最佳频率跳跃策略的影响以及在预期的奖励上平衡。此外,我们讨论了干扰者采用一些不可预测的策略的情况。
translated by 谷歌翻译
在线强化学习(RL)中的挑战之一是代理人需要促进对环境的探索和对样品的利用来优化其行为。无论我们是否优化遗憾,采样复杂性,状态空间覆盖范围或模型估计,我们都需要攻击不同的勘探开发权衡。在本文中,我们建议在分离方法组成的探索 - 剥削问题:1)“客观特定”算法(自适应)规定哪些样本以收集到哪些状态,似乎它可以访问a生成模型(即环境的模拟器); 2)负责尽可能快地生成规定样品的“客观无关的”样品收集勘探策略。建立最近在随机最短路径问题中进行探索的方法,我们首先提供一种算法,它给出了每个状态动作对所需的样本$ B(S,a)$的样本数量,需要$ \ tilde {o} (bd + d ^ {3/2} s ^ 2 a)收集$ b = \ sum_ {s,a} b(s,a)$所需样本的$时间步骤,以$ s $各国,$ a $行动和直径$ d $。然后我们展示了这种通用探索算法如何与“客观特定的”策略配对,这些策略规定了解决各种设置的样本要求 - 例如,模型估计,稀疏奖励发现,无需无成本勘探沟通MDP - 我们获得改进或新颖的样本复杂性保证。
translated by 谷歌翻译
具有切换持续时间的轮询系统是具有若干实际应用的有用模型。它被归类为离散事件动态系统(DED),没有人在建模方法中同意的是。此外,DEDS非常复杂。迄今为止,最复杂的兴趣调查系统建模的方法是连续时间马尔可夫决策过程(CTMDP)。本文提出了一个半马尔可夫决策过程(SMDP)轮询系统的制定,以引入额外的建模能力。这种权力以截断误差和昂贵的数值积分为代价,自然导致SMDP政策是否提供有价值的优势。为了进一步添加到此方案,显示CTMDP中可以利用稀疏性以开发计算有效的模型。使用半Markov过程模拟器评估SMDP和CTMDP策略的折扣性能。两项政策伴随着专门为该投票系统开发的启发式政策,作为详尽的服务政策。参数和非参数假设试验用于测试性能差异是否有统计学意义。
translated by 谷歌翻译