我们解决了监视一组二进制随机过程的问题,并在其中的异常数超过阈值时生成警报。为此,决策者选择并探测过程的子集以获得其状态的噪声估计(正常或异常)。根据所接收的观察,决策者首先确定是否声明异常数已超过阈值或继续观察。当决定继续时,它会决定是否在下次即时收集观察,或者将其推迟到以后的时间。如果它选择收集观察,它进一步确定了待探测的过程的子集。为了设计这三步的顺序决策过程,我们使用贝叶斯制剂,其中我们学习了过程的状态的后验概率。使用后验概率,我们构建了马尔可夫决策过程,并利用深刻的演员批评加强学习解决了它。通过数值实验,我们展示了与传统的基于模型的算法相比的算法的卓越性能。
translated by 谷歌翻译
我们解决了从给定集中选择和观察过程的问题,以找到其中的异常。决策者在任何给定的时间瞬间观察过程的子集,并获得相应过程是否异常的嘈杂二进制指示符。在该设置中,我们开发了一种异常检测算法,该检测算法选择在给定的时间瞬间观察的过程,决定何时停止观察,并宣布对异常过程的决定。检测算法的目的是识别具有超过所需值的精度的异常,同时最小化决策制定的延迟。我们设计了一种集中式算法,其中通过公共代理和分散算法共同选择进程,其中对于每个过程独立决定是否选择过程。我们的算法依赖于使用每个过程的边际概率定义的马尔可夫决策过程正常或异常,调节观察结果。我们利用深度演员批评加强学习框架实现了检测算法。与在此主题的事先工作不同,在流程数量中具有指数复杂性,我们的算法具有在过程数量中的多项式的计算和内存要求。我们通过将它们与最先进的方法进行比较来证明这些算法使用数值实验的功效。
translated by 谷歌翻译
我们考虑学习控制问题的最佳阈值策略的问题。阈值策略通过评估系统状态的元素是否超过一定阈值来做出控制决策,其值由系统状态的其他元素决定。通过利用阈值策略的单调特性,我们证明他们的政策梯度具有令人惊讶的简单表达方式。我们使用这种简单的表达方式来构建一种范围的演员批评算法,以学习最佳阈值策略。仿真结果表明,由于其能够利用单调属性的能力,我们的政策大大优于其他强化学习算法。此外,我们表明,Whittle Index是一种用于躁动的多臂匪徒问题的强大工具,相当于替代问题的最佳阈值策略。该观察结果导致了一种简单的算法,该算法通过学习替代问题中的最佳阈值策略来找到Whittle索引。仿真结果表明,我们的算法比最近通过间接手段学习小索引的一些研究快得多。
translated by 谷歌翻译
Reinforcement learning (RL) gained considerable attention by creating decision-making agents that maximize rewards received from fully observable environments. However, many real-world problems are partially or noisily observable by nature, where agents do not receive the true and complete state of the environment. Such problems are formulated as partially observable Markov decision processes (POMDPs). Some studies applied RL to POMDPs by recalling previous decisions and observations or inferring the true state of the environment from received observations. Nevertheless, aggregating observations and decisions over time is impractical for environments with high-dimensional continuous state and action spaces. Moreover, so-called inference-based RL approaches require large number of samples to perform well since agents eschew uncertainty in the inferred state for the decision-making. Active inference is a framework that is naturally formulated in POMDPs and directs agents to select decisions by minimising expected free energy (EFE). This supplies reward-maximising (exploitative) behaviour in RL, with an information-seeking (exploratory) behaviour. Despite this exploratory behaviour of active inference, its usage is limited to discrete state and action spaces due to the computational difficulty of the EFE. We propose a unified principle for joint information-seeking and reward maximization that clarifies a theoretical connection between active inference and RL, unifies active inference and RL, and overcomes their aforementioned limitations. Our findings are supported by strong theoretical analysis. The proposed framework's superior exploration property is also validated by experimental results on partial observable tasks with high-dimensional continuous state and action spaces. Moreover, the results show that our model solves reward-free problems, making task reward design optional.
translated by 谷歌翻译
强化学习和最近的深度增强学习是解决如Markov决策过程建模的顺序决策问题的流行方法。问题和选择算法和超参数的RL建模需要仔细考虑,因为不同的配置可能需要完全不同的性能。这些考虑因素主要是RL专家的任务;然而,RL在研究人员和系统设计师不是RL专家的其他领域中逐渐变得流行。此外,许多建模决策,例如定义状态和动作空间,批次的大小和批量更新的频率以及时间戳的数量通常是手动进行的。由于这些原因,RL框架的自动化不同组成部分具有重要意义,近年来它引起了很多关注。自动RL提供了一个框架,其中RL的不同组件包括MDP建模,算法选择和超参数优化是自动建模和定义的。在本文中,我们探讨了可以在自动化RL中使用的文献和目前的工作。此外,我们讨论了Autorl中的挑战,打开问题和研究方向。
translated by 谷歌翻译
交通信号控制是一个具有挑战性的现实问题,旨在通过协调道路交叉路口的车辆移动来最大程度地减少整体旅行时间。现有使用中的流量信号控制系统仍然很大程度上依赖于过度简化的信息和基于规则的方法。具体而言,可以将绿色/红灯交替的周期性视为在策略优化中对每个代理进行更好计划的先验。为了更好地学习这种适应性和预测性先验,传统的基于RL的方法只能从只有本地代理的预定义动作池返回固定的长度。如果这些代理之间没有合作,则某些代理商通常会对其他代理产生冲突,从而减少整个吞吐量。本文提出了一个合作,多目标体系结构,具有年龄段的权重,以更好地估算流量信号控制优化的多重奖励条款,该奖励术语称为合作的多目标多代理多代理深度确定性策略梯度(Comma-ddpg)。运行的两种类型的代理可以最大程度地提高不同目标的奖励 - 一种用于每个交叉路口的本地流量优化,另一种用于全球流量等待时间优化。全球代理用于指导本地代理作为帮助更快学习的手段,但在推理阶段不使用。我们还提供了解决溶液存在的分析,并为提出的RL优化提供了融合证明。使用亚洲国家的交通摄像机收集的现实世界流量数据进行评估。我们的方法可以有效地将总延迟时间减少60 \%。结果表明,与SOTA方法相比,其优越性。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
我们考虑在马尔可夫决策过程中的强化学习(RL),其中代理人反复交互与由受控马尔可夫进程建模的环境进行交互。在每次步骤$ $ $时,它赢得了奖励,并招收了由$ M $成本组成的成本矢量。我们设计学习算法,最大限度地提高$ T $时间步长的时间范围内获得的累积奖励,同时确保$ M $成本支出的平均值由代理指定的阈值界限为$ C ^ {UB} _I ,i = 1,2,\ ldots,m $。关于累积成本支出的审议从现有文献中离开,因为代理商此外需要以在线方式平衡成本费用,同时执行通常遇到的RL任务中的勘探开发权衡。为了测量满足平均成本约束的加强学习算法的性能,我们定义了由其奖励后悔组成的$ M + 1 $维度遗憾的载体,而M $费用遗憾。奖励后悔在累计奖励中衡量次级最优性,而成本遗憾的奖励奖励奖励是其$ I $ -Th累计成本费用与预期成本支出之间的差异,而预期的成本支出$ TC ^ {UB} _i $。我们证明,通过高概率,UCRL-CMDP的遗憾矢量是高度限制的(S \ SQRT {AT ^ {1.5} \ log(t)\右)$,其中$ s $状态的数量,$ a $是行动的数量,而$ t $是时间范围。我们进一步展示了如何减少预期奖金的所需子集的遗憾,以牺牲奖励遗憾和剩余成本的牺牲品为代价。据我们所知,我们的是唯一考虑在平均成本限制下的非焦化RL的工作,并且可以根据代理人对其成本遗憾的要求进行〜\ excph {调整后悔向量}的算法。
translated by 谷歌翻译
Commonly adopted in the manufacturing and aerospace sectors, digital twin (DT) platforms are increasingly seen as a promising paradigm to control, monitor, and analyze software-based, "open", communication systems. Notably, DT platforms provide a sandbox in which to test artificial intelligence (AI) solutions for communication systems, potentially reducing the need to collect data and test algorithms in the field, i.e., on the physical twin (PT). A key challenge in the deployment of DT systems is to ensure that virtual control optimization, monitoring, and analysis at the DT are safe and reliable, avoiding incorrect decisions caused by "model exploitation". To address this challenge, this paper presents a general Bayesian framework with the aim of quantifying and accounting for model uncertainty at the DT that is caused by limitations in the amount and quality of data available at the DT from the PT. In the proposed framework, the DT builds a Bayesian model of the communication system, which is leveraged to enable core DT functionalities such as control via multi-agent reinforcement learning (MARL), monitoring of the PT for anomaly detection, prediction, data-collection optimization, and counterfactual analysis. To exemplify the application of the proposed framework, we specifically investigate a case-study system encompassing multiple sensing devices that report to a common receiver. Experimental results validate the effectiveness of the proposed Bayesian framework as compared to standard frequentist model-based solutions.
translated by 谷歌翻译
深度强化学习(DRL)是一种有前途的方法,可以通过与环境的互动来学习政策来解决复杂的控制任务。但是,对DRL政策的培训需要大量的培训经验,这使得直接了解物理系统的政策是不切实际的。 SIM到运行的方法可以利用模拟来验证DRL政策,然后将其部署在现实世界中。不幸的是,经过验证的政策的直接现实部署通常由于不同的动态(称为现实差距)而遭受性能恶化。最近的SIM到现实方法,例如域随机化和域的适应性,重点是改善预审预告剂的鲁棒性。然而,经过模拟训练的策略通常需要使用现实世界中的数据来调整以达到最佳性能,这是由于现实世界样本的高成本而具有挑战性的。这项工作提出了一个分布式的云边缘建筑,以实时培训现实世界中的DRL代理。在体系结构中,推理和训练被分配到边缘和云,将实时控制循环与计算昂贵的训练回路分开。为了克服现实差距,我们的体系结构利用了SIM到现实的转移策略,以继续在物理系统上训练模拟预言的代理。我们证明了其在物理倒置螺旋控制系统上的适用性,分析了关键参数。现实世界实验表明,我们的体系结构可以使验证的DRL代理能够始终如一,有效地看不见动态。
translated by 谷歌翻译
对于正交多访问(OMA)系统,服务的用户设备(UES)的数量仅限于可用的正交资源的数量。另一方面,非正交多访问(NOMA)方案允许多个UES使用相同的正交资源。这种额外的自由度为资源分配带来了新的挑战。缓冲状态信息(BSI),例如等待传输的数据包的大小和年龄,可用于改善OMA系统中的调度。在本文中,我们研究了BSI对上行链路多载波NOMA场景中集中调度程序的性能的影响,UE具有各种数据速率和延迟要求。为了处理将UES分配给资源的大型组合空间,我们提出了一个基于Actor-Critic-Critic强化学习纳入BSI的新型调度程序。使用诺基亚的“无线套件”进行培训和评估。我们提出了各种新颖的技术来稳定和加快训练。建议的调度程序优于基准调度程序。
translated by 谷歌翻译
基于我们先前关于绿色仿真辅助政策梯度(GS-PG)的研究,重点是基于轨迹的重复使用,在本文中,我们考虑了无限 - 马尔可夫马尔可夫决策过程,并创建了一种新的重要性采样策略梯度优化的方法来支持动态决策制造。现有的GS-PG方法旨在从完整的剧集或过程轨迹中学习,这将其适用性限制在低数据状态和灵活的在线过程控制中。为了克服这一限制,提出的方法可以选择性地重复使用最相关的部分轨迹,即,重用单元基于每步或每次派遣的历史观察。具体而言,我们创建了基于混合的可能性比率(MLR)策略梯度优化,该优化可以利用不同行为政策下产生的历史状态行动转变中的信息。提出的减少差异经验重播(VRER)方法可以智能地选择和重复使用最相关的过渡观察,改善策略梯度估计并加速最佳政策的学习。我们的实证研究表明,它可以改善优化融合并增强最先进的政策优化方法的性能,例如Actor-Critic方法和近端政策优化。
translated by 谷歌翻译
信息指标的年龄无法正确描述状态更新的内在语义。在一个智能反映表面上的合作中继通信系统中,我们提出了语义年龄(AOS),用于测量状态更新的语义新鲜度。具体而言,我们专注于从源节点(SN)到目标的状态更新,该状态被称为马尔可夫决策过程(MDP)。 SN的目的是在最大发射功率约束下最大程度地提高AOS和能源消耗的预期满意度。为了寻求最佳的控制政策,我们首先在派利时间差异学习框架下推出了在线深层演员批评(DAC)学习方案。但是,实践实施在线DAC在SN和系统之间无限重复的互动中构成了关键的挑战,这可能是危险的,尤其是在探索过程中。然后,我们提出了一个新颖的离线DAC方案,该方案估算了先前收集的数据集的最佳控制策略,而无需与系统进行任何进一步的交互。数值实验验证了理论结果,并表明我们的离线DAC方案在平均效用方面显着优于在线DAC方案和最具代表性的基线,这表明了对数据集质量的强大鲁棒性。
translated by 谷歌翻译
从现有数据中学习最佳行为是加强学习(RL)中最重要的问题之一。这被称为RL中的“非政策控制”,其中代理的目标是根据从给定策略(称为行为策略)获得的数据计算最佳策略。由于最佳策略可能与行为策略有很大不同,因此与“政体”设置相比,学习最佳行为非常困难,在学习中将利用来自策略更新的新数据。这项工作提出了一种非政策的天然参与者批评算法,该算法利用州行动分布校正来处理外部行为和样本效率的自然政策梯度。具有收敛保证的现有基于天然梯度的参与者批评算法需要固定功能,以近似策略和价值功能。这通常会导致许多RL应用中的次级学习。另一方面,我们提出的算法利用兼容功能,使人们能够使用任意神经网络近似策略和价值功能,并保证收敛到本地最佳策略。我们通过将其与基准RL任务上的香草梯度参与者 - 批评算法进行比较,说明了提出的非政策自然梯度算法的好处。
translated by 谷歌翻译
资产分配(或投资组合管理)是确定如何最佳将有限预算的资金分配给一系列金融工具/资产(例如股票)的任务。这项研究调查了使用无模型的深RL代理应用于投资组合管理的增强学习(RL)的性能。我们培训了几个RL代理商的现实股票价格,以学习如何执行资产分配。我们比较了这些RL剂与某些基线剂的性能。我们还比较了RL代理,以了解哪些类别的代理表现更好。从我们的分析中,RL代理可以执行投资组合管理的任务,因为它们的表现明显优于基线代理(随机分配和均匀分配)。四个RL代理(A2C,SAC,PPO和TRPO)总体上优于最佳基线MPT。这显示了RL代理商发现更有利可图的交易策略的能力。此外,基于价值和基于策略的RL代理之间没有显着的性能差异。演员批评者的表现比其他类型的药物更好。同样,在政策代理商方面的表现要好,因为它们在政策评估方面更好,样品效率在投资组合管理中并不是一个重大问题。这项研究表明,RL代理可以大大改善资产分配,因为它们的表现优于强基础。基于我们的分析,在政策上,参与者批评的RL药物显示出最大的希望。
translated by 谷歌翻译
Off-policy learning is more unstable compared to on-policy learning in reinforcement learning (RL). One reason for the instability of off-policy learning is a discrepancy between the target ($\pi$) and behavior (b) policy distributions. The discrepancy between $\pi$ and b distributions can be alleviated by employing a smooth variant of the importance sampling (IS), such as the relative importance sampling (RIS). RIS has parameter $\beta\in[0, 1]$ which controls smoothness. To cope with instability, we present the first relative importance sampling-off-policy actor-critic (RIS-Off-PAC) model-free algorithms in RL. In our method, the network yields a target policy (the actor), a value function (the critic) assessing the current policy ($\pi$) using samples drawn from behavior policy. We use action value generated from the behavior policy in reward function to train our algorithm rather than from the target policy. We also use deep neural networks to train both actor and critic. We evaluated our algorithm on a number of Open AI Gym benchmark problems and demonstrate better or comparable performance to several state-of-the-art RL baselines.
translated by 谷歌翻译
本文提出了一种安全的竞标决策和单位维护调度的安全加强学习算法和竞争力的电力市场环境。在这个问题中,每个单位都旨在找到一个招标策略,以通过调度预防性维护同时保持其可靠性,以最大限度地提高其收入。维护调度提供了一些安全约束,应该始终满足。满足批判性安全性和可靠性限制,而生成单位具有彼此的不完整信息的竞标策略是一个具有挑战性的问题。双层优化和加强学习是解决这种问题的最先进方法。然而,双层优化和增强学习都无法应对不完全信息和关键安全限制的挑战。为了解决这些挑战,我们提出了安全的深度确定性政策梯度加强学习算法,其基于加强学习和预测安全滤波器的组合。案例研究表明,与其他现有技术相比,该方法可以实现更高的利润,同时满足系统安全约束。
translated by 谷歌翻译
在标准数据分析框架中,首先收集数据(全部一次),然后进行数据分析。此外,通常认为数据生成过程是外源性的。当数据分析师对数据的生成方式没有影响时,这种方法是自然的。但是,数字技术的进步使公司促进了从数据中学习并同时做出决策。随着这些决定生成新数据,数据分析师(业务经理或算法)也成为数据生成器。这种相互作用会产生一种新型的偏见 - 增强偏见 - 加剧了静态数据分析中的内生性问题。因果推理技术应该被纳入加强学习中以解决此类问题。
translated by 谷歌翻译
许多工业和安全应用程序采用套件传感器,用于检测时间行为模式的突然变化。这些突然的变化通常在本地显现,只渲染一个小型传感器信息。由于资源约束,每个传感器的连续监视可能是昂贵的,并且作为强盗最快转换点检测问题的动机,其中顺序地选择感测动作(或传感器),并且仅观察到对应于所选动作的测量。我们在有限的有限参数化概率分布的一般类别的检测延迟上获得了一个信息 - 理论下限。然后,我们提出了一种计算上有效的在线传感方案,这无缝地平衡了对不同传感选项的需求,利用查询信息行动。我们推导出拟议方案的预期延误界限,并表明这些界限在低误报率下以低误报率下限,建立了所提出的方法的最优性。然后,我们对合成和实时数据集进行了许多实验,证明了我们提出的方法的有效性。
translated by 谷歌翻译
股票交易策略在投资公司中起着至关重要的作用。但是,在复杂而动态的股票市场中获得最佳策略是一项挑战。我们探索了深入学习的潜力,以优化股票交易策略,从而最大程度地提高投资回报。选择30个股票作为我们的贸易股票,其日用价格被用作培训和交易市场环境。我们培训一个深入的增强学习代理,并获得自适应交易策略。评估了代理商的绩效,并将其与道琼斯工业平均水平和传统的最小变化投资组合分配策略进行了比较。拟议的深钢筋学习方法显示出在夏普比和累积回报方面都优于两个基准。
translated by 谷歌翻译