Solving portfolio management problems using deep reinforcement learning has been getting much attention in finance for a few years. We have proposed a new method using experts signals and historical price data to feed into our reinforcement learning framework. Although experts signals have been used in previous works in the field of finance, as far as we know, it is the first time this method, in tandem with deep RL, is used to solve the financial portfolio management problem. Our proposed framework consists of a convolutional network for aggregating signals, another convolutional network for historical price data, and a vanilla network. We used the Proximal Policy Optimization algorithm as the agent to process the reward and take action in the environment. The results suggested that, on average, our framework could gain 90 percent of the profit earned by the best expert.
translated by 谷歌翻译
The stock market prediction has been a traditional yet complex problem researched within diverse research areas and application domains due to its non-linear, highly volatile and complex nature. Existing surveys on stock market prediction often focus on traditional machine learning methods instead of deep learning methods. Deep learning has dominated many domains, gained much success and popularity in recent years in stock market prediction. This motivates us to provide a structured and comprehensive overview of the research on stock market prediction focusing on deep learning techniques. We present four elaborated subtasks of stock market prediction and propose a novel taxonomy to summarize the state-of-the-art models based on deep neural networks from 2011 to 2022. In addition, we also provide detailed statistics on the datasets and evaluation metrics commonly used in the stock market. Finally, we highlight some open issues and point out several future directions by sharing some new perspectives on stock market prediction.
translated by 谷歌翻译
在我们的论文中,我们应用了深度加强学习方法,以优化投资组合管理中的投资决策。我们做出了几种创新,例如添加短机制并设计套利机制,并应用我们的模型来为几个随机选择的投资组合进行决策优化。实验结果表明,我们的模型能够优化投资决策,并有能力获得股票市场的超额回报,优化的代理在整个交易期间以固定价值维持资产权重,并以非常低的交易成本率交易。此外,我们还重新设计了用于计算持续交易过程中的投资组合资产权重的公式,这可以使杠杆交易填补了在短路时计算了组合重量的理论差距。
translated by 谷歌翻译
资产分配(或投资组合管理)是确定如何最佳将有限预算的资金分配给一系列金融工具/资产(例如股票)的任务。这项研究调查了使用无模型的深RL代理应用于投资组合管理的增强学习(RL)的性能。我们培训了几个RL代理商的现实股票价格,以学习如何执行资产分配。我们比较了这些RL剂与某些基线剂的性能。我们还比较了RL代理,以了解哪些类别的代理表现更好。从我们的分析中,RL代理可以执行投资组合管理的任务,因为它们的表现明显优于基线代理(随机分配和均匀分配)。四个RL代理(A2C,SAC,PPO和TRPO)总体上优于最佳基线MPT。这显示了RL代理商发现更有利可图的交易策略的能力。此外,基于价值和基于策略的RL代理之间没有显着的性能差异。演员批评者的表现比其他类型的药物更好。同样,在政策代理商方面的表现要好,因为它们在政策评估方面更好,样品效率在投资组合管理中并不是一个重大问题。这项研究表明,RL代理可以大大改善资产分配,因为它们的表现优于强基础。基于我们的分析,在政策上,参与者批评的RL药物显示出最大的希望。
translated by 谷歌翻译
这篇科学论文提出了一种新型的投资组合优化模型,使用改进的深钢筋学习算法。优化模型的目标函数是投资组合累积回报的期望和价值的加权总和。所提出的算法基于参与者 - 批判性架构,其中关键网络的主要任务是使用分位数回归学习投资组合累积返回的分布,而Actor网络通过最大化上述目标函数来输出最佳投资组合权重。同时,我们利用线性转换功能来实现资产短销售。最后,使用了一种称为APE-X的多进程方法来加速深度强化学习训练的速度。为了验证我们提出的方法,我们对两个代表性的投资组合进行了重新测试,并观察到这项工作中提出的模型优于基准策略。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
本文提出了基于深度Q学习的金融投资组合交易深增强学习算法。该算法能够从任何大小的横截面数据集交易高维投资组合,其可以包括资产中的数据间隙和非唯一历史长度。我们通过对每种环境的一个资产进行采样,在每种环境中对所有环境进行投资来顺序设置环境,并通过“资产集合”的平均返回,从而奖励资产的退货和现金预订。这强制执行代理以战略性地将资本分配给其预测以上平均值的资产。我们在采样外部分析中应用我们的方法,以48美国股票的组合设置,在股票中的数量和交易成本水平中,在十辆高达500股的股票数量上变化。平均优势算法通过仅为所有投资组合使用一个超参数设置,通过大型边距所考虑被动和活动基准投资策略。
translated by 谷歌翻译
强化学习(RL)技术在许多具有挑战性的定量交易任务(例如投资组合管理和算法交易)中取得了巨大的成功。尤其是,由于金融市场的盘中行为反映了数十亿个快速波动的首都,所以盘中交易是最有利可图和风险的任务之一。但是,绝大多数现有的RL方法都集中在相对较低的频率交易方案(例如日级),并且由于两个主要挑战而无法捕获短暂的盘中投资机会:1)如何有效地培训额外的RL额外的RL代理,以供日盘培训。投资决策,涉及高维良好的动作空间; 2)如何学习有意义的多模式市场表示,以了解tick级金融市场的盘中行为。在专业人类盘中交易者的有效工作流程中,我们提出了DeepScalper,这是一个深入的加强学习框架,用于解决上述挑战。具体而言,DeepScalper包括四个组成部分:1)针对行动分支的决斗Q-Network,以应对日内交易的大型动作空间,以进行有效的RL优化; 2)带有事后奖励的新型奖励功能,以鼓励RL代理商在整个交易日的长期范围内做出交易决策; 3)一个编码器架构架构,用于学习多模式的临时市场嵌入,其中既包含宏观级别和微型市场信息; 4)在最大化利润和最小化风险之间保持惊人平衡的风险意识辅助任务。通过对六个金融期货的三年来真实世界数据的广泛实验,我们证明,在四个财务标准方面,DeepScalper显着优于许多最先进的基线。
translated by 谷歌翻译
我们探索在线感应转移学习,通过由高斯混合模型隐藏的加工单元形成的径向基函数网络转移到直接,经常性的加固学习剂。该代理商在实验中进行工作,交易主要的现货市场货币对,我们准确地占交易和资金成本。这些利润和损失来源,包括货币市场发生的价格趋势,通过二次实用程序向代理商提供,他们将直接学习瞄准职位。我们通过学习在在线转移学习背景下瞄准风险职位之前提前改进工作。我们的代理商实现了0.52的年度组合信息比例,复合返回率为9.3%,净的执行和资金成本,超过7年的测试集;尽管在交易成本在统计上最贵的价格是最昂贵的,但仍然迫使模型在5点在5点在5月5日的交易日结束。
translated by 谷歌翻译
最佳执行是算法交易中节省成本的顺序决策问题。研究发现,加强学习(RL)可以帮助确定订单分类的大小。但是,问题尚未解决:如何以适当的限制价格下达限额订单?关键挑战在于动作空间的“连续折叠双重性”。一方面,使用价格变化百分比变化的连续行动空间是概括。另一方面,交易者最终需要离散地选择限制价格,这是由于tick尺寸的存在,这需要对每个具有不同特征(例如流动性和价格范围)的单人进行专业化。因此,我们需要连续控制进行概括和离散控制以进行专业化。为此,我们提出了一种混合RL方法来结合两者的优势。我们首先使用连续的控制代理来范围范围,然后部署细粒代理以选择特定的限制价格。广泛的实验表明,与现有的RL算法相比,我们的方法具有更高的样本效率和更好的训练稳定性,并且显着优于先前基于学习的方法的订单执行方法。
translated by 谷歌翻译
提出了一个新颖的框架,用于使用模仿的增强学习(RL)解决最佳执行和放置问题。从拟议的框架中训练的RL代理商在执行成本中始终优于行业基准计时加权平均价格(TWAP)策略,并在样本外交易日期和股票方面表现出了巨大的概括。从三个方面实现了令人印象深刻的表现。首先,我们的RL网络架构称为双窗口Denoise PPO在嘈杂的市场环境中启用了有效的学习。其次,设计了模仿学习的奖励计划,并研究了一组全面的市场功能。第三,我们的灵活动作公式使RL代理能够解决最佳执行和放置,从而使性能更好地比分别解决个体问题。 RL代理的性能在我们的多代理现实历史限制顺序模拟器中进行了评估,在该模拟器中,对价格影响进行了准确评估。此外,还进行了消融研究,证实了我们框架的优势。
translated by 谷歌翻译
在人工智能区域中已经在人工智能区域进行了自主交易机器人。已经测试了许多AI技术,用于建立能够交易金融资产的自主代理。这些举措包括传统的神经网络,模糊逻辑,加固学习,而且还有更新的方法,如深神经网络和深度加强学习。许多开发人员声称在使用历史价格系列执行时,在模拟执行时,可以成功创建具有良好性能的机器人。然而,当这些机器人在真正的市场中使用时,通常它们在风险方面存在糟糕的表现并返回。在本文中,我们提出了一个名为MT5SE的开源框架,有助于开发,重新击退,实时测试和自主交易者的实际运作。我们使用MT5SE构建并测试了几个交易者。结果表明它可能有助于开发更好的交易者。此外,我们讨论了许多研究中使用的简单架构,并提出了一种替代的多层架构。这种架构将投资组合经理(PM)分开了两个主要问题:价格预测和资本分配。超过达到高精度,PM应该在正确的时候增加利润并减少损失。此外,价格预测高度依赖于资产的性质和历史,而资本分配仅依赖于分析师的预测性能和资产的相关性。最后,我们讨论了该地区的一些有前途的技术。
translated by 谷歌翻译
本文介绍了用于交易单一资产的双重Q网络算法,即E-MINI S&P 500连续期货合约。我们使用经过验证的设置作为我们环境的基础,并具有多个扩展。我们的贸易代理商的功能不断扩展,包括其他资产,例如商品,从而产生了四种型号。我们还应对环境条件,包括成本和危机。我们的贸易代理商首先接受了特定时间段的培训,并根据新数据进行了测试,并将其与长期策略(市场)进行了比较。我们分析了各种模型与样本中/样本外性能之间有关环境的差异。实验结果表明,贸易代理人遵循适当的行为。它可以将其政策调整为不同的情况,例如在存在交易成本时更广泛地使用中性位置。此外,净资产价值超过了基准的净值,代理商在测试集中的市场优于市场。我们使用DDQN算法对代理商在金融领域中的行为提供初步见解。这项研究的结果可用于进一步发展。
translated by 谷歌翻译
More and more stock trading strategies are constructed using deep reinforcement learning (DRL) algorithms, but DRL methods originally widely used in the gaming community are not directly adaptable to financial data with low signal-to-noise ratios and unevenness, and thus suffer from performance shortcomings. In this paper, to capture the hidden information, we propose a DRL based stock trading system using cascaded LSTM, which first uses LSTM to extract the time-series features from stock daily data, and then the features extracted are fed to the agent for training, while the strategy functions in reinforcement learning also use another LSTM for training. Experiments in DJI in the US market and SSE50 in the Chinese stock market show that our model outperforms previous baseline models in terms of cumulative returns and Sharp ratio, and this advantage is more significant in the Chinese stock market, a merging market. It indicates that our proposed method is a promising way to build a automated stock trading system.
translated by 谷歌翻译
在本文中,我们开发了一个模块化框架,用于将强化学习应用于最佳贸易执行问题。该框架的设计考虑了灵活性,以便简化不同的仿真设置的实现。我们不关注代理和优化方法,而是专注于环境,并分解必要的要求,以模拟在强化学习框架下的最佳贸易执行,例如数据预处理,观察结果的构建,行动处理,儿童订单执行,模拟,模拟我们给出了每个组件的示例,探索他们的各个实现\&它们之间的相互作用所带来的困难,并讨论每个组件在模拟中引起的不同现象,并突出了模拟与行为之间的分歧,并讨论了不同的现象。真正的市场。我们通过设置展示我们的模块化实施,该设置是按照时间加权的平均价格(TWAP)提交时间表,允许代理人专门放置限制订单,并通过迭代的迭代来模拟限制订单(LOB)(LOB)和根据相同的时间表,将奖励计算为TWAP基准算法所达到的价格的\ $改进。我们还制定了评估程序,以在培训视野的间隔内纳入给定代理的迭代重新训练和评估,并模仿代理在随着新市场数据的可用而连续再培训时的行为,并模拟算法提供者是限制的监测实践在当前的监管框架下执行。
translated by 谷歌翻译
近年来,使用人工智能创造了广泛的投资模式。人工智能自动交易可以扩大交易方式的范围,例如通过授权每天24小时运行的能力以及以高频交易的能力。如果可以充分考虑过去的数据,也可以预期自动交易比使用更多信息交易。在本文中,我们提出了一种基于深度加强学习模型的投资代理,这是一个人工智能模型。该模型考虑了实际交易中涉及的交易成本,并在很长一段时间内创建交易的框架,以便它可以在单一贸易上进行大量利润。在这样做时,它可以最大限度地提高利润,同时保持交易成本低。此外,考虑到实际操作,我们使用在线学习,以便系统可以通过不断更新最新的在线数据而不是使用静态数据来继续学习。这使得可以通过始终纳入当前的市场趋势信息来贸易非静止金融市场。
translated by 谷歌翻译
股票市场的不可预测性和波动性使得使用任何广义计划赚取可观的利润具有挑战性。许多先前的研究尝试了不同的技术来建立机器学习模型,这可以通过进行实时交易来在美国股票市场赚取可观的利润。但是,很少有研究重点是在特定交易期找到最佳功能的重要性。我们的顶级方法使用该性能将功能从总共148缩小到大约30。此外,在每次训练我们的机器学习模型之前,都会动态选择前25个功能。它与四个分类器一起使用合奏学习:高斯天真贝叶斯,决策树,带L1正则化的逻辑回归和随机梯度下降,以决定是长时间还是短的特定股票。我们的最佳模型在2011年7月至2019年1月之间进行的每日交易,可获得54.35%的利润。最后,我们的工作表明,加权分类器的混合物的表现要比任何在股票市场做出交易决策的个人预测指标更好。
translated by 谷歌翻译
随着可再生能源的延伸升幅,盘中电市场在交易商和电力公用事业中录得不断增长的普及,以应对能源供应的诱导波动。通过其短途交易地平线和持续的性质,盘中市场提供了调整日前市场的交易决策的能力,或者在短期通知中降低交易风险。通过根据当前预测修改其提供的能力,可再生能源的生产者利用盘中市场降低预测风险。然而,由于电网必须保持稳定,电力仅部分可存储,因此市场动态很复杂。因此,需要在盘区市场中运营的强大和智能交易策略。在这项工作中,我们提出了一种基于深度加强学习(DRL)算法的新型自主交易方法作为可能的解决方案。为此目的,我们将盘区贸易塑造为马尔可夫决策问题(MDP),并采用近端策略优化(PPO)算法作为我们的DRL方法。介绍了一种模拟框架,使得连续盘整价格的分辨率提供一分钟步骤。从风园运营商的角度来看,我们在案例研究中测试我们的框架。我们在普通贸易信息旁边包括价格和风险预测。在2018年德国盘区交易结果的测试场景中,我们能够以至少45.24%的改进优于多个基线,显示DRL算法的优势。但是,我们还讨论了DRL代理的局限性和增强功能,以便在未来的工作中提高性能。
translated by 谷歌翻译
Technical indicators use graphic representations of data sets by applying various mathematical formulas to financial time series of prices. These formulas comprise a set of rules and parameters whose values are not necessarily known and depend on many factors: the market in which it operates, the size of the time window, and others. This paper focuses on the real-time optimization of the parameters applied for analyzing time series of data. In particular, we optimize the parameters of technical and financial indicators and propose other applications, such as glucose time series. We propose the combination of several Multi-objective Evolutionary Algorithms (MOEAs). Unlike other approaches, this paper applies a set of different MOEAs, collaborating to construct a global Pareto Set of solutions. Solutions for financial problems seek high returns with minimal risk. The optimization process is continuous and occurs at the same frequency as the investment time interval. This technique permits the application of non-dominated solutions obtained with different MOEAs simultaneously. Experimental results show that this technique increases the returns of the commonly used Buy \& Hold strategy and other multi-objective strategies, even for daily operations.
translated by 谷歌翻译
我们将研究扩展到横断面动量交易策略。我们的主要结果是我们的新颖排名算法,天真的贝叶斯资产排名(NBAR),我们用来选择资产亚集的亚群来从标准普尔500指数进行交易。我们执行特征表示从径向基函数网络转移到凝乳和乳清(CAW)多元回归模型,该模型利用响应变量之间的相关性来提高预测精度。 NBAR通过计算单个资产排名高于其他投资组合成分的顺序后验概率来对此回归输出进行排名。与加权多数算法不同,该算法通过确保分配给每个专家的权重从不低于最低阈值来处理非平稳性,我们的排名算法使以前表现不佳的专家在开始表现良好时具有增加权重的专家。我们的算法胜过一项策略,该策略将在测试期间的指数欣赏205%,但持续持续的标准普尔500指数却是事后观察。它还胜过回归的基线,即CAW模型。
translated by 谷歌翻译