深增强学习(DRL)最近在建立金融市场模拟器方面表现出巨大的潜力。然而,由于现实世界市场的高度复杂和动态性质,原始的历史金融数据往往涉及大噪音,可能无法反映市场的未来,降低了基于DRL的市场模拟器的保真度。此外,基于DRL的市场模拟器的准确性严重依赖于众多和多样化的DRL代理,这增加了对市场环境宇宙的需求,并对模拟速度提出挑战。在本文中,我们介绍了一个Finrl-Meta框架,为数据驱动的金融强化学习建立了一个市场环境的宇宙。首先,Finrl-Meta将财务数据处理分开,从基于DRL的策略的设计管道分开,并为财务大数据提供开源数据工程工具。其次,Finrl-Meta为各种交易任务提供了数百个市场环境。第三,Finrl-Meta通过利用数千个GPU核心,可以实现多加工模拟和培训。我们的代码可在https://github.com/ai4finance-foundation/finrl-meta上使用。
translated by 谷歌翻译
深度加强学习(DRL)在游戏和机器人控制等应用中彻底改变了学习和致动。数据收集的成本,即从代理环境互动产生转变,仍然是在复杂的现实问题中更广泛的DRL采用的重大挑战。在GPU云平台上培训DRL代理的云原生范例是一个有前途的解决方案。在本文中,我们为云天然深层加固学习提供了一种可扩展和弹性图书馆优雅的钢茶,其有效地支持数百万GPU核心,以便在多个层面进行大规模平行的训练。在一个高级别的优雅普罗拉科尔使用基于锦标赛的集合计划,以协调数百个甚至数千个GPU的培训过程,安排排行榜与培训池与数百个豆荚之间的相互作用。在低级,每个POD通过在单个GPU中充分利用近7,000个GPU CUDA核心,模拟了代理环境的交互。我们的优雅RL-Podracer Library通过遵循集装箱,微服务和MLOPS的开发原则,具有高可扩展性,弹性和可访问性。使用NVIDIA DGX SuperPod Cloud,我们对机器人和股票交易中的各种任务进行了广泛的实验,并表明Elegitrl-Podracer大大优于Rllib。我们的代码可在GitHub上获得。
translated by 谷歌翻译
在高度波动的加密货币市场中,设计盈利和可靠的交易策略是具有挑战性的。现有作品应用了深厚的增强学习方法,并在回测的乐观上报告了利润增加,这可能会因过度拟合而造成的假积极问题。在本文中,我们提出了一种实用方法,以解决使用深度强化学习的重新测试,以解决加密货币交易。首先,我们将过度拟合的检测作为假设检测。然后,我们训练DRL代理,估计过度拟合的可能性,并拒绝过度拟合的代理商,从而增加了良好交易绩效的机会。最后,在从05/01/2022到06/27/2022(在此期间加密货币市场崩溃两次)的测试期间的10次加密货币中,我们表明,过度拟合的深度强化学习剂的尖锐比率较高。更多过度合适的代理商,同等的权重策略和标准普尔DBM指数(市场基准),对可能部署到真实市场的可能性充满信心。
translated by 谷歌翻译
More and more stock trading strategies are constructed using deep reinforcement learning (DRL) algorithms, but DRL methods originally widely used in the gaming community are not directly adaptable to financial data with low signal-to-noise ratios and unevenness, and thus suffer from performance shortcomings. In this paper, to capture the hidden information, we propose a DRL based stock trading system using cascaded LSTM, which first uses LSTM to extract the time-series features from stock daily data, and then the features extracted are fed to the agent for training, while the strategy functions in reinforcement learning also use another LSTM for training. Experiments in DJI in the US market and SSE50 in the Chinese stock market show that our model outperforms previous baseline models in terms of cumulative returns and Sharp ratio, and this advantage is more significant in the Chinese stock market, a merging market. It indicates that our proposed method is a promising way to build a automated stock trading system.
translated by 谷歌翻译
在本文中,我们开发了一个模块化框架,用于将强化学习应用于最佳贸易执行问题。该框架的设计考虑了灵活性,以便简化不同的仿真设置的实现。我们不关注代理和优化方法,而是专注于环境,并分解必要的要求,以模拟在强化学习框架下的最佳贸易执行,例如数据预处理,观察结果的构建,行动处理,儿童订单执行,模拟,模拟我们给出了每个组件的示例,探索他们的各个实现\&它们之间的相互作用所带来的困难,并讨论每个组件在模拟中引起的不同现象,并突出了模拟与行为之间的分歧,并讨论了不同的现象。真正的市场。我们通过设置展示我们的模块化实施,该设置是按照时间加权的平均价格(TWAP)提交时间表,允许代理人专门放置限制订单,并通过迭代的迭代来模拟限制订单(LOB)(LOB)和根据相同的时间表,将奖励计算为TWAP基准算法所达到的价格的\ $改进。我们还制定了评估程序,以在培训视野的间隔内纳入给定代理的迭代重新训练和评估,并模仿代理在随着新市场数据的可用而连续再培训时的行为,并模拟算法提供者是限制的监测实践在当前的监管框架下执行。
translated by 谷歌翻译
近年来,许多定量金融领域的从业者试图使用深度强化学习(DRL)来建立更好的定量交易(QT)策略。然而,许多现有研究未能应对几个严重的挑战,例如非平稳财务环境以及在实际金融市场应用DRL时的偏见和差异权衡。在这项工作中,我们提出了Safe-Finrl,这是一种基于DRL的新型高FREQ股票交易策略,该策略通过近部财务环境以及低偏差和差异估算而增强。我们的主要贡献是双重的:首先,我们将漫长的财务时间序列分为近乎固定的短期环境;其次,我们通过将一般反探测器纳入软批评者中,在近部财务环境中实施Trace-SAC。对加密货币市场的广泛实验表明,避风势范围提供了稳定的价值估计,并稳定的政策改善,并在近部财务环境中显着降低了偏见和差异。
translated by 谷歌翻译
本文提出了基于深度Q学习的金融投资组合交易深增强学习算法。该算法能够从任何大小的横截面数据集交易高维投资组合,其可以包括资产中的数据间隙和非唯一历史长度。我们通过对每种环境的一个资产进行采样,在每种环境中对所有环境进行投资来顺序设置环境,并通过“资产集合”的平均返回,从而奖励资产的退货和现金预订。这强制执行代理以战略性地将资本分配给其预测以上平均值的资产。我们在采样外部分析中应用我们的方法,以48美国股票的组合设置,在股票中的数量和交易成本水平中,在十辆高达500股的股票数量上变化。平均优势算法通过仅为所有投资组合使用一个超参数设置,通过大型边距所考虑被动和活动基准投资策略。
translated by 谷歌翻译
这篇科学论文提出了一种新型的投资组合优化模型,使用改进的深钢筋学习算法。优化模型的目标函数是投资组合累积回报的期望和价值的加权总和。所提出的算法基于参与者 - 批判性架构,其中关键网络的主要任务是使用分位数回归学习投资组合累积返回的分布,而Actor网络通过最大化上述目标函数来输出最佳投资组合权重。同时,我们利用线性转换功能来实现资产短销售。最后,使用了一种称为APE-X的多进程方法来加速深度强化学习训练的速度。为了验证我们提出的方法,我们对两个代表性的投资组合进行了重新测试,并观察到这项工作中提出的模型优于基准策略。
translated by 谷歌翻译
通过提供流动性,市场制造商在金融市场中发挥着关键作用。他们通常填写订单书籍,以购买和出售限额订单,以便为交易员提供替代价格水平来运营。本文精确地侧重于从基于代理人的角度研究这些市场制造商战略的研究。特别是,我们提出了加强学习(RL)在模拟股市中创建智能市场标志的应用。本研究分析了RL市场制造商代理在非竞争性(同时只有一个RL市场制造商学习)和竞争方案(同时学习的多个RL市场标记)以及如何调整其在SIM2REAL范围内的策略有很有趣的结果。此外,它涵盖了不同实验之间的政策转移的应用,描述了竞争环境对RL代理表现的影响。 RL和Deep RL技术被证明是有利可图的市场制造商方法,从而更好地了解他们在股票市场的行为。
translated by 谷歌翻译
随着可再生能源的延伸升幅,盘中电市场在交易商和电力公用事业中录得不断增长的普及,以应对能源供应的诱导波动。通过其短途交易地平线和持续的性质,盘中市场提供了调整日前市场的交易决策的能力,或者在短期通知中降低交易风险。通过根据当前预测修改其提供的能力,可再生能源的生产者利用盘中市场降低预测风险。然而,由于电网必须保持稳定,电力仅部分可存储,因此市场动态很复杂。因此,需要在盘区市场中运营的强大和智能交易策略。在这项工作中,我们提出了一种基于深度加强学习(DRL)算法的新型自主交易方法作为可能的解决方案。为此目的,我们将盘区贸易塑造为马尔可夫决策问题(MDP),并采用近端策略优化(PPO)算法作为我们的DRL方法。介绍了一种模拟框架,使得连续盘整价格的分辨率提供一分钟步骤。从风园运营商的角度来看,我们在案例研究中测试我们的框架。我们在普通贸易信息旁边包括价格和风险预测。在2018年德国盘区交易结果的测试场景中,我们能够以至少45.24%的改进优于多个基线,显示DRL算法的优势。但是,我们还讨论了DRL代理的局限性和增强功能,以便在未来的工作中提高性能。
translated by 谷歌翻译
提出了一个新颖的框架,用于使用模仿的增强学习(RL)解决最佳执行和放置问题。从拟议的框架中训练的RL代理商在执行成本中始终优于行业基准计时加权平均价格(TWAP)策略,并在样本外交易日期和股票方面表现出了巨大的概括。从三个方面实现了令人印象深刻的表现。首先,我们的RL网络架构称为双窗口Denoise PPO在嘈杂的市场环境中启用了有效的学习。其次,设计了模仿学习的奖励计划,并研究了一组全面的市场功能。第三,我们的灵活动作公式使RL代理能够解决最佳执行和放置,从而使性能更好地比分别解决个体问题。 RL代理的性能在我们的多代理现实历史限制顺序模拟器中进行了评估,在该模拟器中,对价格影响进行了准确评估。此外,还进行了消融研究,证实了我们框架的优势。
translated by 谷歌翻译
Driven by the global decarbonization effort, the rapid integration of renewable energy into the conventional electricity grid presents new challenges and opportunities for the battery energy storage system (BESS) participating in the energy market. Energy arbitrage can be a significant source of revenue for the BESS due to the increasing price volatility in the spot market caused by the mismatch between renewable generation and electricity demand. In addition, the Frequency Control Ancillary Services (FCAS) markets established to stabilize the grid can offer higher returns for the BESS due to their capability to respond within milliseconds. Therefore, it is crucial for the BESS to carefully decide how much capacity to assign to each market to maximize the total profit under uncertain market conditions. This paper formulates the bidding problem of the BESS as a Markov Decision Process, which enables the BESS to participate in both the spot market and the FCAS market to maximize profit. Then, Proximal Policy Optimization, a model-free deep reinforcement learning algorithm, is employed to learn the optimal bidding strategy from the dynamic environment of the energy market under a continuous bidding scale. The proposed model is trained and validated using real-world historical data of the Australian National Electricity Market. The results demonstrate that our developed joint bidding strategy in both markets is significantly profitable compared to individual markets.
translated by 谷歌翻译
股票交易策略在投资公司中起着至关重要的作用。但是,在复杂而动态的股票市场中获得最佳策略是一项挑战。我们探索了深入学习的潜力,以优化股票交易策略,从而最大程度地提高投资回报。选择30个股票作为我们的贸易股票,其日用价格被用作培训和交易市场环境。我们培训一个深入的增强学习代理,并获得自适应交易策略。评估了代理商的绩效,并将其与道琼斯工业平均水平和传统的最小变化投资组合分配策略进行了比较。拟议的深钢筋学习方法显示出在夏普比和累积回报方面都优于两个基准。
translated by 谷歌翻译
最佳执行是算法交易中节省成本的顺序决策问题。研究发现,加强学习(RL)可以帮助确定订单分类的大小。但是,问题尚未解决:如何以适当的限制价格下达限额订单?关键挑战在于动作空间的“连续折叠双重性”。一方面,使用价格变化百分比变化的连续行动空间是概括。另一方面,交易者最终需要离散地选择限制价格,这是由于tick尺寸的存在,这需要对每个具有不同特征(例如流动性和价格范围)的单人进行专业化。因此,我们需要连续控制进行概括和离散控制以进行专业化。为此,我们提出了一种混合RL方法来结合两者的优势。我们首先使用连续的控制代理来范围范围,然后部署细粒代理以选择特定的限制价格。广泛的实验表明,与现有的RL算法相比,我们的方法具有更高的样本效率和更好的训练稳定性,并且显着优于先前基于学习的方法的订单执行方法。
translated by 谷歌翻译
我们展示了一种带有Openai健身房界面的作物仿真环境,并应用现代深度加强学习(DRL)算法以优化产量。我们经验表明,DRL算法可用于发现新的政策和方法,以帮助优化作物产量,同时最小化水和肥料使用等约束因素。我们提出这种混合厂建模和数据驱动的方法,用于发现新策略的优化作物产量可能有助于满足越来越多的全球粮食需求,由于人口扩张和气候变化。
translated by 谷歌翻译
在数学金融文献中,有一个丰富的数学模型目录,用于研究算法交易问题(例如营销和最佳执行)。本文介绍了\ MBTGYM,这是一个Python模块,该模块提供了一套健身环境,用于培训强化学习(RL)代理,以解决此类基于模型的交易问题。该模块以一种可扩展的方式设置,以允许不同模型不同方面的组合。它支持对矢量化环境的高效实现,以更快地训练RL代理。在本文中,我们激发了使用RL解决此类基于模型的限制订单书籍中的挑战,我们解释了我们的健身房环境的设计,然后展示其在解决文献中解决标准和非标准问题中的用途。最后,我们为进一步开发模块的路线图制定了路线图,我们将其作为GitHub上的开源存储库提供,以便它可以作为基于模型算法交易的RL研究的焦点。
translated by 谷歌翻译
深度加强学习(DRL)已广泛研究了投资组合管理任务。然而,由于深神经网络的黑匣子性质,了解基于DRL的交易策略是挑战性的。在本文中,我们提出了一种实证方法来解释组合管理任务的DRL代理商的策略。首先,我们在后威尔作为参考模型中使用线性模型,通过假设了解远见的实际库存回报来找到最佳的投资组合权重。特别地,我们使用后可以的线性模型的系数作为参考特征权重。其次,对于DRL代理商,我们使用集成梯度来定义特征权重,这是线性回归模型下的奖励和特征之间的系数。第三,我们在两种情况下研究预测力,单步预测和多步预测。特别地,我们通过计算DRL代理的特征权重和参考特征权重之间的线性相关性来量化预测力,并且类似于机器学习方法。最后,我们在01/01/2009年至09/01/201期间评估了Dow Jones 30 Constinuent Stocks的投资组合管理任务。我们的方法凭经验揭示了DRL代理表现出比机器学习方法更强的多步测预测能力。
translated by 谷歌翻译
无线电接入网络(RAN)技术继续见证巨大的增长,开放式运行越来越最近的势头。在O-RAN规范中,RAN智能控制器(RIC)用作自动化主机。本文介绍了对O-RAN堆栈相关的机器学习(ML)的原则,特别是加强学习(RL)。此外,我们审查无线网络的最先进的研究,并将其投入到RAN框架和O-RAN架构的层次结构上。我们在整个开发生命周期中提供ML / RL模型面临的挑战的分类:从系统规范到生产部署(数据采集,模型设计,测试和管理等)。为了解决挑战,我们将一组现有的MLOPS原理整合,当考虑RL代理时,具有独特的特性。本文讨论了系统的生命周期模型开发,测试和验证管道,称为:RLOPS。我们讨论了RLOP的所有基本部分,包括:模型规范,开发和蒸馏,生产环境服务,运营监控,安全/安全和数据工程平台。根据这些原则,我们提出了最佳实践,以实现自动化和可重复的模型开发过程。
translated by 谷歌翻译
With the breakthrough of AlphaGo, deep reinforcement learning becomes a recognized technique for solving sequential decision-making problems. Despite its reputation, data inefficiency caused by its trial and error learning mechanism makes deep reinforcement learning hard to be practical in a wide range of areas. Plenty of methods have been developed for sample efficient deep reinforcement learning, such as environment modeling, experience transfer, and distributed modifications, amongst which, distributed deep reinforcement learning has shown its potential in various applications, such as human-computer gaming, and intelligent transportation. In this paper, we conclude the state of this exciting field, by comparing the classical distributed deep reinforcement learning methods, and studying important components to achieve efficient distributed learning, covering single player single agent distributed deep reinforcement learning to the most complex multiple players multiple agents distributed deep reinforcement learning. Furthermore, we review recently released toolboxes that help to realize distributed deep reinforcement learning without many modifications of their non-distributed versions. By analyzing their strengths and weaknesses, a multi-player multi-agent distributed deep reinforcement learning toolbox is developed and released, which is further validated on Wargame, a complex environment, showing usability of the proposed toolbox for multiple players and multiple agents distributed deep reinforcement learning under complex games. Finally, we try to point out challenges and future trends, hoping this brief review can provide a guide or a spark for researchers who are interested in distributed deep reinforcement learning.
translated by 谷歌翻译
在我们的论文中,我们应用了深度加强学习方法,以优化投资组合管理中的投资决策。我们做出了几种创新,例如添加短机制并设计套利机制,并应用我们的模型来为几个随机选择的投资组合进行决策优化。实验结果表明,我们的模型能够优化投资决策,并有能力获得股票市场的超额回报,优化的代理在整个交易期间以固定价值维持资产权重,并以非常低的交易成本率交易。此外,我们还重新设计了用于计算持续交易过程中的投资组合资产权重的公式,这可以使杠杆交易填补了在短路时计算了组合重量的理论差距。
translated by 谷歌翻译