高赌注域的机器学习模型制作的算法决策可能随着时间的推移而持久影响。不幸的是,静态环境中的标准公平标准的天真在时间域中的静态设置可能导致延迟和不利影响。要了解性能差异的动态,我们研究马尔可夫决策过程(MDP)的公平问题。具体而言,我们提出了返回奇偶校验,这是一个公平的概念,需要来自不同的人口统计组的MDP,这些组共享相同的状态和行动空间,以实现大致相同的预期折扣奖励。我们首先为返回差异提供分解定理,它将任何两个MDP的返回差异分解为组明智奖励函数,组政策的差异的差异,以及组政策所引起的国家探索分布之间的差异。通过我们的分解定理激励,我们提出了通过使用积分概率度量的状态探索分布对齐进行共享组策略来减轻返回差异的算法。我们进行实验以证实我们的结果,表明该算法可以成功地关闭视差差距,同时保持对两个现实世界推荐系统基准数据集的策略性能。
translated by 谷歌翻译
Reinforcementlearning(RL)folkloresuggeststhathistory-basedfunctionapproximationmethods,suchas recurrent neural nets or history-based state abstraction, perform better than their memory-less counterparts, due to the fact that function approximation in Markov decision processes (MDP) can be viewed as inducing a Partially observable MDP. However, there has been little formal analysis of such history-based algorithms, as most existing frameworks focus exclusively on memory-less features. In this paper, we introduce a theoretical framework for studying the behaviour of RL algorithms that learn to control an MDP using history-based feature abstraction mappings. Furthermore, we use this framework to design a practical RL algorithm and we numerically evaluate its effectiveness on a set of continuous control tasks.
translated by 谷歌翻译
强化学习(RL)通过与环境相互作用的试验过程解决顺序决策问题。尽管RL在玩复杂的视频游戏方面取得了巨大的成功,但在现实世界中,犯错误总是不希望的。为了提高样本效率并从而降低错误,据信基于模型的增强学习(MBRL)是一个有前途的方向,它建立了环境模型,在该模型中可以进行反复试验,而无需实际成本。在这项调查中,我们对MBRL进行了审查,重点是Deep RL的最新进展。对于非壮观环境,学到的环境模型与真实环境之间始终存在概括性错误。因此,非常重要的是分析环境模型中的政策培训与实际环境中的差异,这反过来又指导了更好的模型学习,模型使用和政策培训的算法设计。此外,我们还讨论了其他形式的RL,包括离线RL,目标条件RL,多代理RL和Meta-RL的最新进展。此外,我们讨论了MBRL在现实世界任务中的适用性和优势。最后,我们通过讨论MBRL未来发展的前景来结束这项调查。我们认为,MBRL在被忽略的现实应用程序中具有巨大的潜力和优势,我们希望这项调查能够吸引更多关于MBRL的研究。
translated by 谷歌翻译
强大的增强学习(RL)的目的是学习一项与模型参数不确定性的强大策略。由于模拟器建模错误,随着时间的推移,现实世界系统动力学的变化以及对抗性干扰,参数不确定性通常发生在许多现实世界中的RL应用中。强大的RL通常被称为最大问题问题,其目的是学习最大化价值与不确定性集合中最坏可能的模型的策略。在这项工作中,我们提出了一种称为鲁棒拟合Q-材料(RFQI)的强大RL算法,该算法仅使用离线数据集来学习最佳稳健策略。使用离线数据的强大RL比其非持续性对应物更具挑战性,因为在强大的Bellman运营商中所有模型的最小化。这在离线数据收集,对模型的优化以及公正的估计中构成了挑战。在这项工作中,我们提出了一种系统的方法来克服这些挑战,从而导致了我们的RFQI算法。我们证明,RFQI在标准假设下学习了一项近乎最佳的强大政策,并证明了其在标准基准问题上的出色表现。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
离线增强学习(RL)将经典RL算法的范式扩展到纯粹从静态数据集中学习,而无需在学习过程中与基础环境进行交互。离线RL的一个关键挑战是政策培训的不稳定,这是由于离线数据的分布与学习政策的未结束的固定状态分配之间的不匹配引起的。为了避免分配不匹配的有害影响,我们将当前政策的未静置固定分配正规化在政策优化过程中的离线数据。此外,我们训练动力学模型既实施此正规化,又可以更好地估计当前策略的固定分布,从而减少了分布不匹配引起的错误。在各种连续控制的离线RL数据集中,我们的方法表示竞争性能,从而验证了我们的算法。该代码公开可用。
translated by 谷歌翻译
在许多增强学习(RL)应用中,观察空间由人类开发人员指定并受到物理实现的限制,因此可能会随时间的巨大变化(例如,观察特征的数量增加)。然而,当观察空间发生变化时,前一项策略可能由于输入特征不匹配而失败,并且另一个策略必须从头开始培训,这在计算和采样复杂性方面效率低。在理论上见解之后,我们提出了一种新颖的算法,该算法提取源任务中的潜在空间动态,并将动态模型传送到目标任务用作基于模型的常规程序。我们的算法适用于观察空间的彻底变化(例如,从向量的基于矢量的观察到图像的观察),没有任何任务映射或目标任务的任何先前知识。实证结果表明,我们的算法显着提高了目标任务中学习的效率和稳定性。
translated by 谷歌翻译
在许多顺序决策问题(例如,机器人控制,游戏播放,顺序预测),人类或专家数据可用包含有关任务的有用信息。然而,来自少量专家数据的模仿学习(IL)可能在具有复杂动态的高维环境中具有挑战性。行为克隆是一种简单的方法,由于其简单的实现和稳定的收敛而被广泛使用,但不利用涉及环境动态的任何信息。由于对奖励和政策近似器或偏差,高方差梯度估计器,难以在实践中难以在实践中努力训练的许多现有方法。我们介绍了一种用于动态感知IL的方法,它通过学习单个Q函数来避免对抗训练,隐含地代表奖励和策略。在标准基准测试中,隐式学习的奖励显示与地面真实奖励的高正面相关性,说明我们的方法也可以用于逆钢筋学习(IRL)。我们的方法,逆软Q学习(IQ-Learn)获得了最先进的结果,在离线和在线模仿学习设置中,显着优于现有的现有方法,这些方法都在所需的环境交互和高维空间中的可扩展性中,通常超过3倍。
translated by 谷歌翻译
在智能决策系统的核心上,如何代表和优化政策是一个基本问题。这个问题的根源挑战是政策空间的大规模和高复杂性,这加剧了政策学习的困难,尤其是在现实世界中。对于理想的替代政策领域,最近在低维潜在空间中的政策表示表明其在改善政策的评估和优化方面的潜力。这些研究所涉及的关键问题是,我们应根据哪些标准抽象出所需的压缩和泛化的政策空间。但是,文献中对政策抽象的理论和政策表示学习方法的研究较少。在这项工作中,我们做出了最初的努力来填补空缺。首先,我们提出了一个统一的政策抽象理论,其中包含与不同级别的政策特征相关的三种类型的策略抽象。然后,我们将它们推广到三个策略指标,以量化政策的距离(即相似性),以便在学习策略表示方面更方便使用。此外,我们建议基于深度度量学习的政策表示学习方法。对于实证研究,我们研究了拟议的政策指标和代表的功效,分别表征政策差异和传达政策概括。我们的实验均在政策优化和评估问题中进行,其中包含信任区域政策优化(TRPO),多样性引导的进化策略(DGES)和非政策评估(OPE)。自然而然地,实验结果表明,对于所有下游学习问题,都没有普遍的最佳抽象。虽然影响力 - 反应抽象可以是通常的首选选择。
translated by 谷歌翻译
Effectively leveraging large, previously collected datasets in reinforcement learning (RL) is a key challenge for large-scale real-world applications. Offline RL algorithms promise to learn effective policies from previously-collected, static datasets without further interaction. However, in practice, offline RL presents a major challenge, and standard off-policy RL methods can fail due to overestimation of values induced by the distributional shift between the dataset and the learned policy, especially when training on complex and multi-modal data distributions. In this paper, we propose conservative Q-learning (CQL), which aims to address these limitations by learning a conservative Q-function such that the expected value of a policy under this Q-function lower-bounds its true value. We theoretically show that CQL produces a lower bound on the value of the current policy and that it can be incorporated into a policy learning procedure with theoretical improvement guarantees. In practice, CQL augments the standard Bellman error objective with a simple Q-value regularizer which is straightforward to implement on top of existing deep Q-learning and actor-critic implementations. On both discrete and continuous control domains, we show that CQL substantially outperforms existing offline RL methods, often learning policies that attain 2-5 times higher final return, especially when learning from complex and multi-modal data distributions.Preprint. Under review.
translated by 谷歌翻译
Current advances in recommender systems have been remarkably successful in optimizing immediate engagement. However, long-term user engagement, a more desirable performance metric, remains difficult to improve. Meanwhile, recent reinforcement learning (RL) algorithms have shown their effectiveness in a variety of long-term goal optimization tasks. For this reason, RL is widely considered as a promising framework for optimizing long-term user engagement in recommendation. Despite being a promising approach, the application of RL heavily relies on well-designed rewards, but designing rewards related to long-term user engagement is quite difficult. To mitigate the problem, we propose a novel paradigm, Preference-based Recommender systems (PrefRec), which allows RL recommender systems to learn from preferences about users' historical behaviors rather than explicitly defined rewards. Such preferences are easily accessible through techniques such as crowdsourcing, as they do not require any expert knowledge. With PrefRec, we can fully exploit the advantages of RL in optimizing long-term goals, while avoiding complex reward engineering. PrefRec uses the preferences to automatically train a reward function in an end-to-end manner. The reward function is then used to generate learning signals to train the recommendation policy. Furthermore, we design an effective optimization method for PrefRec, which uses an additional value function, expectile regression and reward model pre-training to improve the performance. Extensive experiments are conducted on a variety of long-term user engagement optimization tasks. The results show that PrefRec significantly outperforms previous state-of-the-art methods in all the tasks.
translated by 谷歌翻译
许多实际强化学习(RL)应用中的无处不在的要求,包括医疗,建议制度,教育和机器人,是实际与环境互动的部署政策无法频繁变化。这种RL设置称为低交换成本RL,即,实现最高奖励,同时在培训期间减少策略交换机的数量。尽管最近旨在设计具有低开关成本的可透明的RL算法的理论研究的趋势,但在流行的RL试验台中没有任何现有方法已经完全评估。在本文中,我们系统地研究了广泛的策略切换方法,包括理论上的标准,基于政策差异的方法和非自适应基线。通过对医疗环境的大量实验,Atari Games和机器人控制任务,我们为低交换成本RL提供了第一个实证基准,并在如何降低交换成本的同时对其进行相似的样本效率来报告新的调查结果没有低切换成本约束的情况。我们希望该基准测试可以作为开发更实际有效的低开关成本RL算法的起点。我们在https://sites.google.com/view/low-switching-cost-rl中发布了我们的代码和完成结果。
translated by 谷歌翻译
我们在马尔可夫决策过程的状态空间上提出了一种新的行为距离,并展示使用该距离作为塑造深度加强学习代理的学习言论的有效手段。虽然由于高计算成本和基于样本的算法缺乏缺乏样本的距离,但是,虽然现有的国家相似性通常难以在规模上学习,但我们的新距离解决了这两个问题。除了提供详细的理论分析外,我们还提供了学习该距离的经验证据,与价值函数产生的结构化和信息化表示,包括对街机学习环境基准的强劲结果。
translated by 谷歌翻译
在现实世界中,通过弱势政策影响环境可能是昂贵的或非常危险的,因此妨碍了现实世界的加强学习应用。离线强化学习(RL)可以从给定数据集中学习策略,而不与环境进行交互。但是,数据集是脱机RL算法的唯一信息源,并确定学习策略的性能。我们仍然缺乏关于数据集特征如何影响不同离线RL算法的研究。因此,我们对数据集特性如何实现离散动作环境的离线RL算法的性能的全面实证分析。数据集的特点是两个度量:(1)通过轨迹质量(TQ)测量的平均数据集返回和(2)由状态 - 动作覆盖(SACO)测量的覆盖范围。我们发现,禁止政策深度Q网家族的变体需要具有高SACO的数据集来表现良好。将学习策略朝向给定数据集的算法对具有高TQ或SACO的数据集进行了良好。对于具有高TQ的数据集,行为克隆优先级或类似于最好的离线RL算法。
translated by 谷歌翻译
在许多实际应用程序中,强化学习(RL)代理可能必须解决多个任务,每个任务通常都是通过奖励功能建模的。如果奖励功能是线性表达的,并且代理商以前已经学会了一组针对不同任务的策略,则可以利用后继功能(SFS)来组合此类策略并确定有关新问题的合理解决方案。但是,确定的解决方案不能保证是最佳的。我们介绍了一种解决此限制的新颖算法。它允许RL代理结合现有政策并直接确定任意新问题的最佳政策,而无需与环境进行任何进一步的互动。我们首先(在轻度假设下)表明,SFS解决的转移学习问题等同于学习在RL中优化多个目标的学习问题。然后,我们引入了基于SF的乐观线性支持算法的扩展,以学习一组SFS构成凸面覆盖范围集的策略。我们证明,该集合中的策略可以通过广义策略改进组合,以构建任何可表达的新任务的最佳行为,而无需任何其他培训样本。我们从经验上表明,在价值函数近似下,我们的方法在离散和连续域中优于最先进的竞争算法。
translated by 谷歌翻译
在线强化学习(RL)算法通常难以在复杂的人体面对应用中部署,因为它们可能会缓慢学习并且早期性能差。为了解决这个问题,我们介绍了一种结合人类洞察速度学习的实用算法。我们的算法,约束采样增强学习(CSRL)将现有域知识包含为RL策略的约束/限制。它需要多种潜在的政策限制,以保持稳健性,以便在利用有用的时击败个体限制,以便快速学习。鉴于基础RL学习算法(例如UCRL,DQN,Rainbow),我们提出了对消除方案的上下置信度,该方案利用了限制与其观察性能之间的关系,以便自适应地切换它们。我们将我们的算法用DQN型算法和UCRL作为基础算法,并在四种环境中评估我们的算法,包括基于实际数据的三个模拟器:建议,教育活动排序和HIV处理测序。在所有情况下,CSRL比基线更快地学习良好的政策。
translated by 谷歌翻译
脱机强化学习 - 从一批数据中学习策略 - 是难以努力的:如果没有制造强烈的假设,它很容易构建实体算法失败的校长。在这项工作中,我们考虑了某些现实世界问题的财产,其中离线强化学习应该有效:行动仅对一部分产生有限的行动。我们正规化并介绍此动作影响规律(AIR)财产。我们进一步提出了一种算法,该算法假定和利用AIR属性,并在MDP满足空气时绑定输出策略的子优相。最后,我们展示了我们的算法在定期保留的两个模拟环境中跨越不同的数据收集策略占据了现有的离线强度学习算法。
translated by 谷歌翻译
我们考虑两个马尔可夫决策过程(MDP)之间的政策转移问题。我们基于现有的加强学习理论结果(RL)引入引理,以衡量两个任意MDP之间的相对性,这是在不同的政策和环境动态上定义的任何两个累积预期收益之间的差异。基于此引理,我们提出了两种称为相对策略优化(RPO)和相对过渡优化(RTO)的新算法,它们可以分别提供快速的策略转移和动态建模。 RPO使用相对策略梯度更新策略,以转移在一个环境中评估的策略以最大化另一个环境的返回,而RTO使用相对过渡梯度更新参数化的动态模型(如果存在),以减少差异两个环境。然后,集成两种算法提供完整的算法相对策略转换优化(RPTO),其中策略同时与两个环境进行交互,从而使两个环境中的数据收集,策略和过渡更新以一个封闭的循环完成,以形成一个封闭式循环政策转移的原则学习框架。我们通过通过变体动态创建策略转移问题来证明RPTO在OpenAI Gym的经典控制任务中的有效性。
translated by 谷歌翻译
值得信赖的强化学习算法应有能力解决挑战性的现实问题,包括{Robustly}处理不确定性,满足{安全}的限制以避免灾难性的失败,以及在部署过程中{prencepentiming}以避免灾难性的失败}。这项研究旨在概述这些可信赖的强化学习的主要观点,即考虑其在鲁棒性,安全性和概括性上的内在脆弱性。特别是,我们给出严格的表述,对相应的方法进行分类,并讨论每个观点的基准。此外,我们提供了一个前景部分,以刺激有希望的未来方向,并简要讨论考虑人类反馈的外部漏洞。我们希望这项调查可以在统一的框架中将单独的研究汇合在一起,并促进强化学习的可信度。
translated by 谷歌翻译
由于需要捕捉用户的不断发展的兴趣并优化他们的长期体验,越来越多的推荐系统已经开始模拟推荐作为马尔可夫决策过程,并采用加强学习来解决问题。不应该研究推荐系统的公平性遵循静态评估的相同趋势和一次性干预动态监测和不间断控制吗?在本文中,我们首先描绘了最新的推荐系统的发展,然后讨论了如何烘焙进入强化学习技术以供推荐。此外,我们认为,为了进一步进一步进展,建议公平,我们可能希望考虑多方代(游戏理论)优化,多目标(Pareto)优化和基于仿真的优化,在随机的一般框架中游戏。
translated by 谷歌翻译