我们提出了一种强化学习(RL)方法,用于稳健优化风险感知性能标准。要允许代理表达各种风险奖励简档,我们使用Rank Inceredent预期实用程序(RDEU)评估策略的值。RDEU允许代理人寻求收益,同时保护自己免受下行风险。为了强调对模型不确定性的最佳政策,我们通过分布来评估一个政策,而是通过围绕Wassersein球中的最严重的可能分布来评估一项政策。因此,我们的问题制定可以被视为选择策略(外部问题)的演员/代理人,并且对手作用以恶化该策略的性能(内部问题)。我们为内部和外部问题制定明确的政策渐变公式,并在三种原型财务问题上显示出效力:强大的投资组合分配,优化基准和统计套利。
translated by 谷歌翻译
我们开发了一种利用无模型增强学习(RL)解决时间一致风险敏感随机优化问题的方法。具体地,我们假设代理商使用动态凸面风险措施评估一系列随机变量的风险。我们采用时间一致的动态编程原则来确定特定策略的值,并开发策略渐变更新规则。我们进一步开发了一个使用神经网络的演员批评风格算法,以优化策略。最后,我们通过将其应用于统计套利交易和障碍避免机器人控制中的优化问题来证明我们的方法的性能和灵活性。
translated by 谷歌翻译
我们提出了一个新的框架,以解决对风险敏感的增强学习(RL)问题,在该问题中,代理优化了时间一致的动态光谱风险度量。基于有条件诱因的概念,我们的方法构建(严格一致)评分函数在估计程序中用作惩罚者。我们的贡献是三重的:我们(i)设计了一种有效的方法来估计具有深层神经网络的动态频谱风险度量,(ii)证明,使用深层神经网络和任何任意精度,这些动态光谱风险度量可能近似于(iii)开发一种使用完整发作的风险敏感的参与者批评算法,不需要任何其他嵌套过渡。我们将概念上改进的增强学习算法与嵌套模拟方法进行了比较,并在两个设置中说明了其性能:统计套利和模拟和真实数据上的统计套利和投资组合分配。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
我们在离散时间无限的地平线设置下引入了Markov决策问题的一般框架。通过提供动态的编程原则,我们获得了局部到全球范式,即求解本地,即一个时间步骤的强大优化问题会导致全局(即无限时步)的优化器,以及相应的最坏情况。此外,我们将此框架应用于涉及标准普尔500数据的投资组合优化。我们提出了两种不同类型的歧义集。一个由余地量围绕经验度量给出的完全数据驱动的,第二个是由多元正常分布的参数集来描述的,其中参数的相应不确定性集是从数据中估算的。事实证明,在市场波动或看跌的情况下,来自相应的健壮优化问题的最佳投资组合策略胜过没有模型不确定性的情况,表明将模型不确定性考虑到了重要性。
translated by 谷歌翻译
在本文中,我们考虑了增强学习(RL)中对风险敏感的顺序决策。我们的贡献是两个方面。首先,我们介绍了一种新颖而连贯的风险量化,即复合风险,该风险量化了学习过程中综合和认知风险的关节作用。现有的作品单独被视为综合性或认知风险,或作为添加剂组合。我们证明,当认知风险措施被期望取代时,添加剂配方是复合风险的特殊情况。因此,综合风险比单个和添加剂配方对伴侣和认知不确定性更敏感。我们还基于集合引导和分布RL提出了一种算法,Sentinel-K,分别代表认知和差异不确定性。 K Learners的合奏使用遵循正规领导者(FTRL)来汇总分布并获得综合风险。我们通过实验验证了Sentinel-K可以更好地估计回报分布,并且与复合风险估计相比,与最新风险敏感和分布RL算法相比,对风险敏感的性能更高。
translated by 谷歌翻译
我们为可交易仪器的市场模拟器提供了一种数值有效的方法,用于学习最少的等效鞅措施,例如,可交易仪器的市场模拟器。出于在同一底层写入的现货价格和选择。在存在交易成本和交易限制的情况下,我们放松了对学习最低等同的“近马丁措施”的结果,其中预期的回报仍然存在于普遍的出价/询问差价中。我们在高维复杂空间中“去除漂移”的方法完全是无模型的,并且可以应用于任何不展示经典套用的市场模拟器。所产生的模型可用于风险中性定价,或者在交易成本或交易限制的情况下,“深度套期保值”。我们通过将其应用于两个市场模拟器,自动回归离散时间随机隐含的波动率模型和基于生成的对冲网络(GAN)的模拟器来展示我们的方法,这些模拟器都在统计测量下的选项价格的历史数据上培训产生现货和期权价格的现实样本。关于原始市场模拟器的估计误差,我们评论了鲁棒性。
translated by 谷歌翻译
我们建议\ emph {Choquet正则化器}来衡量和管理强化学习的探索水平(RL),并重新重新制定Wang等人的连续时间熵调节的RL问题。(2020年,JMLR,21(198)),其中我们用Choquet正常器代替用于正则化的差分熵。我们通过使汉密尔顿(Jacobi-Bellman方程)得出了问题的jacobi-bellman方程,并在线性 - 季度(LQ)情况下明确求解了汉密尔顿(LQ)(LQ)情况,这是通过静态上一种平均值 - 差异约束的Choquet正常制剂。在LQ设置下,我们为几个特定的Choquet正规化器提供了明确的最佳分布,相反,我们确定了产生许多广泛使用的探索性采样器的Choquet正则化器,例如$ \ epsilon $ - 果岭,指数,统一,统一和高斯。
translated by 谷歌翻译
在动态编程(DP)和强化学习(RL)中,代理商学会在通过由Markov决策过程(MDP)建模的环境中顺序交互来实现预期的长期返回。更一般地在分布加强学习(DRL)中,重点是返回的整体分布,而不仅仅是其期望。虽然基于DRL的方法在RL中产生了最先进的性能,但它们涉及尚未充分理解的额外数量(与非分布设置相比)。作为第一个贡献,我们介绍了一类新的分类运营商,以及一个实用的DP算法,用于策略评估,具有强大的MDP解释。实际上,我们的方法通过增强的状态空间重新重新重新重新重新重新格式化,其中每个状态被分成最坏情况的子变量,并且最佳的子变电站,其值分别通过安全和危险的策略最大化。最后,我们派生了分配运营商和DP算法解决了一个新的控制任务:如何区分安全性的最佳动作,以便在最佳政策空间中打破联系?
translated by 谷歌翻译
轨迹优化和模型预测控制是支撑高级机器人应用的基本技巧,从自动驾驶到全身人形控制。最先进的算法专注于数据驱动的方法,该方法在线推断系统动态,并在规划和控制期间结合后部不确定性。尽管取得了成功,但这种方法仍然易于灾难性的错误,这可能由于统计学习偏见,未暗模式甚至指导的对抗性攻击而可能出现。在本文中,我们解决了动态错配的问题,并提出了一种分布稳健的最佳控制配方,其在两个相对熵信任区域优化问题之间交替。我们的方法在动态参数和相应的强大策略中找到了最坏情况的最大熵高斯高斯。我们表明,我们的方法承认某种类系统的闭合后向后通行证,并在线性和非线性数字示例展示产生的鲁棒性。
translated by 谷歌翻译
我们提出了一个数据驱动的投资组合选择模型,该模型使用分布稳健优化的框架来整合侧面信息,条件估计和鲁棒性。投资组合经理在观察到的侧面信息上进行条件解决了一个分配问题,该问题可最大程度地减少最坏情况下的风险回收权衡权衡,但要受到最佳运输歧义集中协变量返回概率分布的所有可能扰动。尽管目标函数在概率措施中的非线性性质非线性,但我们表明,具有侧面信息问题的分布稳健的投资组合分配可以作为有限维优化问题进行重新纠正。如果基于均值变化或均值的风险标准做出投资组合的决策,则可以进一步简化所得的重新制定为二阶或半明确锥体程序。美国股票市场的实证研究证明了我们对其他基准的综合框架的优势。
translated by 谷歌翻译
我们提出了一种方法,用于寻找任意初始投资组合和市场国家的最佳对冲政策。我们开发了一种新型的参与者评论算法,用于解决一般的规避风险随机控制问题,并使用它同时学习跨多种风险规避水平的对冲策略。我们在随机波动性环境中以数值示例来证明该方法的有效性。
translated by 谷歌翻译
在钢筋学习(RL)中,代理必须探索最初未知的环境,以便学习期望的行为。当RL代理部署在现实世界环境中时,安全性是主要关注的。受约束的马尔可夫决策过程(CMDPS)可以提供长期的安全约束;但是,该代理人可能会违反探索其环境的制约因素。本文提出了一种称为显式探索,漏洞探索或转义($ e ^ {4} $)的基于模型的RL算法,它将显式探索或利用($ e ^ {3} $)算法扩展到强大的CMDP设置。 $ e ^ 4 $明确地分离开发,探索和逃脱CMDP,允许针对已知状态的政策改进的有针对性的政策,发现未知状态,以及安全返回到已知状态。 $ e ^ 4 $强制优化了从一组CMDP模型的最坏情况CMDP上的这些策略,该模型符合部署环境的经验观察。理论结果表明,在整个学习过程中满足安全限制的情况下,在多项式时间中找到近最优的约束政策。我们讨论了稳健约束的离线优化算法,以及如何基于经验推理和先验知识来结合未知状态过渡动态的不确定性。
translated by 谷歌翻译
最近的几项工程致力于在一个环境中致力于无监督的加固学习,其中一项政策首先使用无监督的互动预测,然后微调在相同环境上定义的几个下游监督任务的最佳政策。沿着这一条线,我们解决了一类多种环境中无监督的加强学习问题,其中策略预先培训了从整个类的交互接受,然后在课堂的任何环境中进行微调。值得注意的是,问题本质上是多目标,因为我们可以在许多方面折交环境之间的预训练目标。在这项工作中,我们培养了对课堂内最不利的案件敏感的探索策略。因此,我们将探索问题作为勘探策略在整类环境中探索熵诱导的临界百分点的最大值的最大化。然后,我们提出了一种策略梯度算法,$ \ Alpha $ Mepol,通过与类的介导的交互来优化引入的目标。最后,我们经验展示了算法在学习探索挑战性的连续环境中的能力,我们展示了加强学习从预先接受训练的探索策略W.R.T.从头开始学习。
translated by 谷歌翻译
我们介绍了有关风险分析与自治系统控制之间的联系的历史概述。我们提供两个主要贡献。我们的第一个贡献是提出三个重叠的范式,以对庞大的文献进行分类:最严重的案例,风险中性和风险避免风险的范式。我们考虑对自治系统依赖手头应用的风险进行适当的评估。相比之下,仅使用预期,差异或概率来评估风险是典型的。我们的第二个贡献是统一风险和自治系统的概念。我们通过连接量化和优化从学术领域的系统行为引起的风险的方法来实现这一目标。该调查是高度多学科的。我们包括来自强化学习,随机和健壮的控制理论,运营研究和正式验证的研究。我们描述了基于模型的方法和无模型方法,重点是前者。最后,我们重点介绍了富有成果的领域,以供进一步研究。一个关键方向是将基于风险的模型和无模型的方法融合在一起,以增强系统的实时自适应能力,以改善人类和环境福利。
translated by 谷歌翻译
Uncertainty is prevalent in engineering design, statistical learning, and decision making broadly. Due to inherent risk-averseness and ambiguity about assumptions, it is common to address uncertainty by formulating and solving conservative optimization models expressed using measure of risk and related concepts. We survey the rapid development of risk measures over the last quarter century. From its beginning in financial engineering, we recount their spread to nearly all areas of engineering and applied mathematics. Solidly rooted in convex analysis, risk measures furnish a general framework for handling uncertainty with significant computational and theoretical advantages. We describe the key facts, list several concrete algorithms, and provide an extensive list of references for further reading. The survey recalls connections with utility theory and distributionally robust optimization, points to emerging applications areas such as fair machine learning, and defines measures of reliability.
translated by 谷歌翻译
这篇科学论文提出了一种新型的投资组合优化模型,使用改进的深钢筋学习算法。优化模型的目标函数是投资组合累积回报的期望和价值的加权总和。所提出的算法基于参与者 - 批判性架构,其中关键网络的主要任务是使用分位数回归学习投资组合累积返回的分布,而Actor网络通过最大化上述目标函数来输出最佳投资组合权重。同时,我们利用线性转换功能来实现资产短销售。最后,使用了一种称为APE-X的多进程方法来加速深度强化学习训练的速度。为了验证我们提出的方法,我们对两个代表性的投资组合进行了重新测试,并观察到这项工作中提出的模型优于基准策略。
translated by 谷歌翻译
在这项工作中,我们证明了如何通过预期最大化算法来处理随机和风险敏感的最佳控制问题。我们展示了这种处理如何实现为两个独立的迭代程序,每个迭代程序都会产生一个独特但密切相关的密度函数序列。我们激励将这些密度解释为信念,将ERGO作为确定性最佳政策的概率代理。更正式的两个固定点迭代方案是根据代表可靠的期望最大化方法的确定性最佳策略一致的固定点得出的。我们倾向于指出我们的结果与控制范式密切相关。在此推理中的控制是指旨在将最佳控制作为概率推断的实例的方法集合。尽管所说的范式已经导致了几种强大的强化学习算法的发展,但基本问题陈述通常是由目的论论证引入的。我们认为,目前的结果表明,较早的控制作为推理框架实际上将一个步骤与所提出的迭代程序中的一个步骤隔离。在任何情况下,本疗法都为他们提供了有效性的义学论点。通过暴露基本的技术机制,我们旨在为控制作为一种推断为取代当前最佳控制范式的框架的普遍接受。为了激发提出的治疗的普遍相关性,我们在勾勒出未来算法开发的大纲之前,进一步讨论了与路径积分控制和其他研究领域的相似之处。
translated by 谷歌翻译
具有很多玩家的非合作和合作游戏具有许多应用程序,但是当玩家数量增加时,通常仍然很棘手。由Lasry和Lions以及Huang,Caines和Malham \'E引入的,平均野外运动会(MFGS)依靠平均场外近似值,以使玩家数量可以成长为无穷大。解决这些游戏的传统方法通常依赖于以完全了解模型的了解来求解部分或随机微分方程。最近,增强学习(RL)似乎有望解决复杂问题。通过组合MFGS和RL,我们希望在人口规模和环境复杂性方面能够大规模解决游戏。在这项调查中,我们回顾了有关学习MFG中NASH均衡的最新文献。我们首先确定最常见的设置(静态,固定和进化)。然后,我们为经典迭代方法(基于最佳响应计算或策略评估)提供了一个通用框架,以确切的方式解决MFG。在这些算法和与马尔可夫决策过程的联系的基础上,我们解释了如何使用RL以无模型的方式学习MFG解决方案。最后,我们在基准问题上介绍了数值插图,并以某些视角得出结论。
translated by 谷歌翻译
资产分配(或投资组合管理)是确定如何最佳将有限预算的资金分配给一系列金融工具/资产(例如股票)的任务。这项研究调查了使用无模型的深RL代理应用于投资组合管理的增强学习(RL)的性能。我们培训了几个RL代理商的现实股票价格,以学习如何执行资产分配。我们比较了这些RL剂与某些基线剂的性能。我们还比较了RL代理,以了解哪些类别的代理表现更好。从我们的分析中,RL代理可以执行投资组合管理的任务,因为它们的表现明显优于基线代理(随机分配和均匀分配)。四个RL代理(A2C,SAC,PPO和TRPO)总体上优于最佳基线MPT。这显示了RL代理商发现更有利可图的交易策略的能力。此外,基于价值和基于策略的RL代理之间没有显着的性能差异。演员批评者的表现比其他类型的药物更好。同样,在政策代理商方面的表现要好,因为它们在政策评估方面更好,样品效率在投资组合管理中并不是一个重大问题。这项研究表明,RL代理可以大大改善资产分配,因为它们的表现优于强基础。基于我们的分析,在政策上,参与者批评的RL药物显示出最大的希望。
translated by 谷歌翻译