我们提出了一种方法,用于寻找任意初始投资组合和市场国家的最佳对冲政策。我们开发了一种新型的参与者评论算法,用于解决一般的规避风险随机控制问题,并使用它同时学习跨多种风险规避水平的对冲策略。我们在随机波动性环境中以数值示例来证明该方法的有效性。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
资产分配(或投资组合管理)是确定如何最佳将有限预算的资金分配给一系列金融工具/资产(例如股票)的任务。这项研究调查了使用无模型的深RL代理应用于投资组合管理的增强学习(RL)的性能。我们培训了几个RL代理商的现实股票价格,以学习如何执行资产分配。我们比较了这些RL剂与某些基线剂的性能。我们还比较了RL代理,以了解哪些类别的代理表现更好。从我们的分析中,RL代理可以执行投资组合管理的任务,因为它们的表现明显优于基线代理(随机分配和均匀分配)。四个RL代理(A2C,SAC,PPO和TRPO)总体上优于最佳基线MPT。这显示了RL代理商发现更有利可图的交易策略的能力。此外,基于价值和基于策略的RL代理之间没有显着的性能差异。演员批评者的表现比其他类型的药物更好。同样,在政策代理商方面的表现要好,因为它们在政策评估方面更好,样品效率在投资组合管理中并不是一个重大问题。这项研究表明,RL代理可以大大改善资产分配,因为它们的表现优于强基础。基于我们的分析,在政策上,参与者批评的RL药物显示出最大的希望。
translated by 谷歌翻译
我们开发了一种利用无模型增强学习(RL)解决时间一致风险敏感随机优化问题的方法。具体地,我们假设代理商使用动态凸面风险措施评估一系列随机变量的风险。我们采用时间一致的动态编程原则来确定特定策略的值,并开发策略渐变更新规则。我们进一步开发了一个使用神经网络的演员批评风格算法,以优化策略。最后,我们通过将其应用于统计套利交易和障碍避免机器人控制中的优化问题来证明我们的方法的性能和灵活性。
translated by 谷歌翻译
我们为可交易仪器的市场模拟器提供了一种数值有效的方法,用于学习最少的等效鞅措施,例如,可交易仪器的市场模拟器。出于在同一底层写入的现货价格和选择。在存在交易成本和交易限制的情况下,我们放松了对学习最低等同的“近马丁措施”的结果,其中预期的回报仍然存在于普遍的出价/询问差价中。我们在高维复杂空间中“去除漂移”的方法完全是无模型的,并且可以应用于任何不展示经典套用的市场模拟器。所产生的模型可用于风险中性定价,或者在交易成本或交易限制的情况下,“深度套期保值”。我们通过将其应用于两个市场模拟器,自动回归离散时间随机隐含的波动率模型和基于生成的对冲网络(GAN)的模拟器来展示我们的方法,这些模拟器都在统计测量下的选项价格的历史数据上培训产生现货和期权价格的现实样本。关于原始市场模拟器的估计误差,我们评论了鲁棒性。
translated by 谷歌翻译
While risk-neutral reinforcement learning has shown experimental success in a number of applications, it is well-known to be non-robust with respect to noise and perturbations in the parameters of the system. For this reason, risk-sensitive reinforcement learning algorithms have been studied to introduce robustness and sample efficiency, and lead to better real-life performance. In this work, we introduce new model-free risk-sensitive reinforcement learning algorithms as variations of widely-used Policy Gradient algorithms with similar implementation properties. In particular, we study the effect of exponential criteria on the risk-sensitivity of the policy of a reinforcement learning agent, and develop variants of the Monte Carlo Policy Gradient algorithm and the online (temporal-difference) Actor-Critic algorithm. Analytical results showcase that the use of exponential criteria generalize commonly used ad-hoc regularization approaches. The implementation, performance, and robustness properties of the proposed methods are evaluated in simulated experiments.
translated by 谷歌翻译
本文介绍了用于交易单一资产的双重Q网络算法,即E-MINI S&P 500连续期货合约。我们使用经过验证的设置作为我们环境的基础,并具有多个扩展。我们的贸易代理商的功能不断扩展,包括其他资产,例如商品,从而产生了四种型号。我们还应对环境条件,包括成本和危机。我们的贸易代理商首先接受了特定时间段的培训,并根据新数据进行了测试,并将其与长期策略(市场)进行了比较。我们分析了各种模型与样本中/样本外性能之间有关环境的差异。实验结果表明,贸易代理人遵循适当的行为。它可以将其政策调整为不同的情况,例如在存在交易成本时更广泛地使用中性位置。此外,净资产价值超过了基准的净值,代理商在测试集中的市场优于市场。我们使用DDQN算法对代理商在金融领域中的行为提供初步见解。这项研究的结果可用于进一步发展。
translated by 谷歌翻译
我们提出了一个新的框架,以解决对风险敏感的增强学习(RL)问题,在该问题中,代理优化了时间一致的动态光谱风险度量。基于有条件诱因的概念,我们的方法构建(严格一致)评分函数在估计程序中用作惩罚者。我们的贡献是三重的:我们(i)设计了一种有效的方法来估计具有深层神经网络的动态频谱风险度量,(ii)证明,使用深层神经网络和任何任意精度,这些动态光谱风险度量可能近似于(iii)开发一种使用完整发作的风险敏感的参与者批评算法,不需要任何其他嵌套过渡。我们将概念上改进的增强学习算法与嵌套模拟方法进行了比较,并在两个设置中说明了其性能:统计套利和模拟和真实数据上的统计套利和投资组合分配。
translated by 谷歌翻译
This work provides a Deep Reinforcement Learning approach to solving a periodic review inventory control system with stochastic vendor lead times, lost sales, correlated demand, and price matching. While this dynamic program has historically been considered intractable, our results show that several policy learning approaches are competitive with or outperform classical methods. In order to train these algorithms, we develop novel techniques to convert historical data into a simulator. On the theoretical side, we present learnability results on a subclass of inventory control problems, where we provide a provable reduction of the reinforcement learning problem to that of supervised learning. On the algorithmic side, we present a model-based reinforcement learning procedure (Direct Backprop) to solve the periodic review inventory control problem by constructing a differentiable simulator. Under a variety of metrics Direct Backprop outperforms model-free RL and newsvendor baselines, in both simulations and real-world deployments.
translated by 谷歌翻译
股票交易策略在投资公司中起着至关重要的作用。但是,在复杂而动态的股票市场中获得最佳策略是一项挑战。我们探索了深入学习的潜力,以优化股票交易策略,从而最大程度地提高投资回报。选择30个股票作为我们的贸易股票,其日用价格被用作培训和交易市场环境。我们培训一个深入的增强学习代理,并获得自适应交易策略。评估了代理商的绩效,并将其与道琼斯工业平均水平和传统的最小变化投资组合分配策略进行了比较。拟议的深钢筋学习方法显示出在夏普比和累积回报方面都优于两个基准。
translated by 谷歌翻译
这篇科学论文提出了一种新型的投资组合优化模型,使用改进的深钢筋学习算法。优化模型的目标函数是投资组合累积回报的期望和价值的加权总和。所提出的算法基于参与者 - 批判性架构,其中关键网络的主要任务是使用分位数回归学习投资组合累积返回的分布,而Actor网络通过最大化上述目标函数来输出最佳投资组合权重。同时,我们利用线性转换功能来实现资产短销售。最后,使用了一种称为APE-X的多进程方法来加速深度强化学习训练的速度。为了验证我们提出的方法,我们对两个代表性的投资组合进行了重新测试,并观察到这项工作中提出的模型优于基准策略。
translated by 谷歌翻译
在这项工作中,我们应对疏忽目标波动战略(电视)的危险证券(电视),风险资产组合和无风险的资金成本,以便在某种程度上保持投资组合的实现波动性的无风险资产等级。TVS风险投资组合组合的不确定性以及每个组件的对冲成本的差异需要解决控制问题以评估期权价格。我们派生了黑色和斯科尔斯(BS)情景问题的分析解决方案。然后,我们使用强化学习(RL)技术来确定导致局部波动率(LV)模型下最保守价格的基金组合物,其中不可用先验解决方案。我们展示了RL代理商的性能如何与通过对电视电视动态应用PATH-WISE BS分析策略而获得的那些兼容,因此在LV场景中也似乎竞争。
translated by 谷歌翻译
In this paper we consider deterministic policy gradient algorithms for reinforcement learning with continuous actions. The deterministic policy gradient has a particularly appealing form: it is the expected gradient of the action-value function. This simple form means that the deterministic policy gradient can be estimated much more efficiently than the usual stochastic policy gradient. To ensure adequate exploration, we introduce an off-policy actor-critic algorithm that learns a deterministic target policy from an exploratory behaviour policy. We demonstrate that deterministic policy gradient algorithms can significantly outperform their stochastic counterparts in high-dimensional action spaces.
translated by 谷歌翻译
近年来,许多定量金融领域的从业者试图使用深度强化学习(DRL)来建立更好的定量交易(QT)策略。然而,许多现有研究未能应对几个严重的挑战,例如非平稳财务环境以及在实际金融市场应用DRL时的偏见和差异权衡。在这项工作中,我们提出了Safe-Finrl,这是一种基于DRL的新型高FREQ股票交易策略,该策略通过近部财务环境以及低偏差和差异估算而增强。我们的主要贡献是双重的:首先,我们将漫长的财务时间序列分为近乎固定的短期环境;其次,我们通过将一般反探测器纳入软批评者中,在近部财务环境中实施Trace-SAC。对加密货币市场的广泛实验表明,避风势范围提供了稳定的价值估计,并稳定的政策改善,并在近部财务环境中显着降低了偏见和差异。
translated by 谷歌翻译
我们展示了在线转移学习作为数字资产交易代理的应用。该代理使用回波状态网络的形式使用强大的特征空间表示,其输出可用于直接,经常性的强化学习代理。代理商学会交易XBTUSD(比特币与美元)Perpetual Swap衍生品在Bitmex上合同。它学会在五个微微采样的数据上贸易盘中,避免过度交易,捕获资金利润,也能够预测市场的方向。总体而言,我们的加密代理商实现了350%的总回报,交易成本净额超过五年,其中71%是资金利润。它达到的年度信息比率为1.46。
translated by 谷歌翻译
我们探索在线感应转移学习,通过由高斯混合模型隐藏的加工单元形成的径向基函数网络转移到直接,经常性的加固学习剂。该代理商在实验中进行工作,交易主要的现货市场货币对,我们准确地占交易和资金成本。这些利润和损失来源,包括货币市场发生的价格趋势,通过二次实用程序向代理商提供,他们将直接学习瞄准职位。我们通过学习在在线转移学习背景下瞄准风险职位之前提前改进工作。我们的代理商实现了0.52的年度组合信息比例,复合返回率为9.3%,净的执行和资金成本,超过7年的测试集;尽管在交易成本在统计上最贵的价格是最昂贵的,但仍然迫使模型在5点在5点在5月5日的交易日结束。
translated by 谷歌翻译
In many sequential decision-making problems one is interested in minimizing an expected cumulative cost while taking into account risk, i.e., increased awareness of events of small probability and high consequences. Accordingly, the objective of this paper is to present efficient reinforcement learning algorithms for risk-constrained Markov decision processes (MDPs), where risk is represented via a chance constraint or a constraint on the conditional value-at-risk (CVaR) of the cumulative cost. We collectively refer to such problems as percentile risk-constrained MDPs. Specifically, we first derive a formula for computing the gradient of the Lagrangian function for percentile riskconstrained MDPs. Then, we devise policy gradient and actor-critic algorithms that (1) estimate such gradient, (2) update the policy in the descent direction, and (3) update the Lagrange multiplier in the ascent direction. For these algorithms we prove convergence to locally optimal policies. Finally, we demonstrate the effectiveness of our algorithms in an optimal stopping problem and an online marketing application.
translated by 谷歌翻译
We adapt the ideas underlying the success of Deep Q-Learning to the continuous action domain. We present an actor-critic, model-free algorithm based on the deterministic policy gradient that can operate over continuous action spaces. Using the same learning algorithm, network architecture and hyper-parameters, our algorithm robustly solves more than 20 simulated physics tasks, including classic problems such as cartpole swing-up, dexterous manipulation, legged locomotion and car driving. Our algorithm is able to find policies whose performance is competitive with those found by a planning algorithm with full access to the dynamics of the domain and its derivatives. We further demonstrate that for many of the tasks the algorithm can learn policies "end-to-end": directly from raw pixel inputs.
translated by 谷歌翻译
在现实世界中的决策情况(例如金融,机器人技术,自动驾驶等)中,控制风险通常比最大程度地提高预期奖励更为重要。风险措施的最自然选择是差异,而它会惩罚上升波动率作为下行部分。取而代之的是,(下行)半变量捕获了随机变量在其平均值下的负偏差,更适合于规避风险的提议。本文旨在优化加强学习W.R.T.中的平均持续性(MSV)标准。稳定的奖励。由于半变量是时间的,并且不满足标准的贝尔曼方程,因此传统的动态编程方法直接不适合MSV问题。为了应对这一挑战,我们求助于扰动分析(PA)理论,并建立MSV的性能差异公式。我们揭示MSV问题可以通过迭代解决与策略有关的奖励功能的一系列RL问题来解决。此外,我们根据政策梯度理论和信任区域方法提出了两种派利算法。最后,我们进行了不同的实验,从简单的匪徒问题到穆约科的连续控制任务,这些实验证明了我们提出的方法的有效性。
translated by 谷歌翻译
定量融资中最基本的问题之一是存在适合给定一组选择的市场价格的连续时间扩散模型。传统上,人们采用直觉,理论和经验分析的组合来找到实现精确或近似拟合的模型。我们的贡献是展示该问题的合适游戏理论表述如何通过利用现代深层多代理强化学习中的现有发展来帮助解决这个问题,以在随机过程的空间中进行搜索。更重要的是,我们希望社区可以利用和扩展我们的技术来解决该领域的重要问题,例如SPX-VIX校准问题。我们的实验表明,我们能够学习局部波动性,以及在波动率过程中所需的路径依赖性,以最大程度地降低百慕大选项的价格。在一句话中,我们的算法可以看作是粒子方法\`{a} la Guyon et henry-labordere,而粒子而不是被设计为确保$ \ sigma_ {loc}}(t,s_t)^2 = \ mathbb { e} [\ sigma_t^2 | s_t] $,正在学习与更通用校准目标合作的RL驱动的代理。这是第一批使用衍生校准问题桥接加固学习的工作。
translated by 谷歌翻译