我们探索在线感应转移学习,通过由高斯混合模型隐藏的加工单元形成的径向基函数网络转移到直接,经常性的加固学习剂。该代理商在实验中进行工作,交易主要的现货市场货币对,我们准确地占交易和资金成本。这些利润和损失来源,包括货币市场发生的价格趋势,通过二次实用程序向代理商提供,他们将直接学习瞄准职位。我们通过学习在在线转移学习背景下瞄准风险职位之前提前改进工作。我们的代理商实现了0.52的年度组合信息比例,复合返回率为9.3%,净的执行和资金成本,超过7年的测试集;尽管在交易成本在统计上最贵的价格是最昂贵的,但仍然迫使模型在5点在5点在5月5日的交易日结束。
translated by 谷歌翻译
我们展示了在线转移学习作为数字资产交易代理的应用。该代理使用回波状态网络的形式使用强大的特征空间表示,其输出可用于直接,经常性的强化学习代理。代理商学会交易XBTUSD(比特币与美元)Perpetual Swap衍生品在Bitmex上合同。它学会在五个微微采样的数据上贸易盘中,避免过度交易,捕获资金利润,也能够预测市场的方向。总体而言,我们的加密代理商实现了350%的总回报,交易成本净额超过五年,其中71%是资金利润。它达到的年度信息比率为1.46。
translated by 谷歌翻译
在金融时序预测时,我们调查特征选择,非线性建模和在线学习的好处。我们考虑在线学习的顺序和持续学习子类型。我们进行的实验表明,以径向基函数网络的形式,在线转移学习存在益处,超出了递归最小二乘模型的顺序更新。我们表明,利用聚类算法构建核克矩阵的径向基函数网络比将每个训练矢量视为单独的基本函数,与内核脊回归发生的更有益。我们展示了定量程序来确定径向基函数网络的结构非常结构。最后,我们对金融时间序列的日志回报进行了实验,并表明在线学习模型,特别是径向基函数网络,能够优于随机的散步基线,而离线学习模型努力这样做。
translated by 谷歌翻译
我们将研究扩展到横断面动量交易策略。我们的主要结果是我们的新颖排名算法,天真的贝叶斯资产排名(NBAR),我们用来选择资产亚集的亚群来从标准普尔500指数进行交易。我们执行特征表示从径向基函数网络转移到凝乳和乳清(CAW)多元回归模型,该模型利用响应变量之间的相关性来提高预测精度。 NBAR通过计算单个资产排名高于其他投资组合成分的顺序后验概率来对此回归输出进行排名。与加权多数算法不同,该算法通过确保分配给每个专家的权重从不低于最低阈值来处理非平稳性,我们的排名算法使以前表现不佳的专家在开始表现良好时具有增加权重的专家。我们的算法胜过一项策略,该策略将在测试期间的指数欣赏205%,但持续持续的标准普尔500指数却是事后观察。它还胜过回归的基线,即CAW模型。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
资产分配(或投资组合管理)是确定如何最佳将有限预算的资金分配给一系列金融工具/资产(例如股票)的任务。这项研究调查了使用无模型的深RL代理应用于投资组合管理的增强学习(RL)的性能。我们培训了几个RL代理商的现实股票价格,以学习如何执行资产分配。我们比较了这些RL剂与某些基线剂的性能。我们还比较了RL代理,以了解哪些类别的代理表现更好。从我们的分析中,RL代理可以执行投资组合管理的任务,因为它们的表现明显优于基线代理(随机分配和均匀分配)。四个RL代理(A2C,SAC,PPO和TRPO)总体上优于最佳基线MPT。这显示了RL代理商发现更有利可图的交易策略的能力。此外,基于价值和基于策略的RL代理之间没有显着的性能差异。演员批评者的表现比其他类型的药物更好。同样,在政策代理商方面的表现要好,因为它们在政策评估方面更好,样品效率在投资组合管理中并不是一个重大问题。这项研究表明,RL代理可以大大改善资产分配,因为它们的表现优于强基础。基于我们的分析,在政策上,参与者批评的RL药物显示出最大的希望。
translated by 谷歌翻译
这篇科学论文提出了一种新型的投资组合优化模型,使用改进的深钢筋学习算法。优化模型的目标函数是投资组合累积回报的期望和价值的加权总和。所提出的算法基于参与者 - 批判性架构,其中关键网络的主要任务是使用分位数回归学习投资组合累积返回的分布,而Actor网络通过最大化上述目标函数来输出最佳投资组合权重。同时,我们利用线性转换功能来实现资产短销售。最后,使用了一种称为APE-X的多进程方法来加速深度强化学习训练的速度。为了验证我们提出的方法,我们对两个代表性的投资组合进行了重新测试,并观察到这项工作中提出的模型优于基准策略。
translated by 谷歌翻译
本文介绍了用于交易单一资产的双重Q网络算法,即E-MINI S&P 500连续期货合约。我们使用经过验证的设置作为我们环境的基础,并具有多个扩展。我们的贸易代理商的功能不断扩展,包括其他资产,例如商品,从而产生了四种型号。我们还应对环境条件,包括成本和危机。我们的贸易代理商首先接受了特定时间段的培训,并根据新数据进行了测试,并将其与长期策略(市场)进行了比较。我们分析了各种模型与样本中/样本外性能之间有关环境的差异。实验结果表明,贸易代理人遵循适当的行为。它可以将其政策调整为不同的情况,例如在存在交易成本时更广泛地使用中性位置。此外,净资产价值超过了基准的净值,代理商在测试集中的市场优于市场。我们使用DDQN算法对代理商在金融领域中的行为提供初步见解。这项研究的结果可用于进一步发展。
translated by 谷歌翻译
在我们的论文中,我们应用了深度加强学习方法,以优化投资组合管理中的投资决策。我们做出了几种创新,例如添加短机制并设计套利机制,并应用我们的模型来为几个随机选择的投资组合进行决策优化。实验结果表明,我们的模型能够优化投资决策,并有能力获得股票市场的超额回报,优化的代理在整个交易期间以固定价值维持资产权重,并以非常低的交易成本率交易。此外,我们还重新设计了用于计算持续交易过程中的投资组合资产权重的公式,这可以使杠杆交易填补了在短路时计算了组合重量的理论差距。
translated by 谷歌翻译
我们提出了一种方法,用于寻找任意初始投资组合和市场国家的最佳对冲政策。我们开发了一种新型的参与者评论算法,用于解决一般的规避风险随机控制问题,并使用它同时学习跨多种风险规避水平的对冲策略。我们在随机波动性环境中以数值示例来证明该方法的有效性。
translated by 谷歌翻译
More and more stock trading strategies are constructed using deep reinforcement learning (DRL) algorithms, but DRL methods originally widely used in the gaming community are not directly adaptable to financial data with low signal-to-noise ratios and unevenness, and thus suffer from performance shortcomings. In this paper, to capture the hidden information, we propose a DRL based stock trading system using cascaded LSTM, which first uses LSTM to extract the time-series features from stock daily data, and then the features extracted are fed to the agent for training, while the strategy functions in reinforcement learning also use another LSTM for training. Experiments in DJI in the US market and SSE50 in the Chinese stock market show that our model outperforms previous baseline models in terms of cumulative returns and Sharp ratio, and this advantage is more significant in the Chinese stock market, a merging market. It indicates that our proposed method is a promising way to build a automated stock trading system.
translated by 谷歌翻译
本文提出了基于深度Q学习的金融投资组合交易深增强学习算法。该算法能够从任何大小的横截面数据集交易高维投资组合,其可以包括资产中的数据间隙和非唯一历史长度。我们通过对每种环境的一个资产进行采样,在每种环境中对所有环境进行投资来顺序设置环境,并通过“资产集合”的平均返回,从而奖励资产的退货和现金预订。这强制执行代理以战略性地将资本分配给其预测以上平均值的资产。我们在采样外部分析中应用我们的方法,以48美国股票的组合设置,在股票中的数量和交易成本水平中,在十辆高达500股的股票数量上变化。平均优势算法通过仅为所有投资组合使用一个超参数设置,通过大型边距所考虑被动和活动基准投资策略。
translated by 谷歌翻译
The stock market prediction has been a traditional yet complex problem researched within diverse research areas and application domains due to its non-linear, highly volatile and complex nature. Existing surveys on stock market prediction often focus on traditional machine learning methods instead of deep learning methods. Deep learning has dominated many domains, gained much success and popularity in recent years in stock market prediction. This motivates us to provide a structured and comprehensive overview of the research on stock market prediction focusing on deep learning techniques. We present four elaborated subtasks of stock market prediction and propose a novel taxonomy to summarize the state-of-the-art models based on deep neural networks from 2011 to 2022. In addition, we also provide detailed statistics on the datasets and evaluation metrics commonly used in the stock market. Finally, we highlight some open issues and point out several future directions by sharing some new perspectives on stock market prediction.
translated by 谷歌翻译
强化学习(RL)技术在许多具有挑战性的定量交易任务(例如投资组合管理和算法交易)中取得了巨大的成功。尤其是,由于金融市场的盘中行为反映了数十亿个快速波动的首都,所以盘中交易是最有利可图和风险的任务之一。但是,绝大多数现有的RL方法都集中在相对较低的频率交易方案(例如日级),并且由于两个主要挑战而无法捕获短暂的盘中投资机会:1)如何有效地培训额外的RL额外的RL代理,以供日盘培训。投资决策,涉及高维良好的动作空间; 2)如何学习有意义的多模式市场表示,以了解tick级金融市场的盘中行为。在专业人类盘中交易者的有效工作流程中,我们提出了DeepScalper,这是一个深入的加强学习框架,用于解决上述挑战。具体而言,DeepScalper包括四个组成部分:1)针对行动分支的决斗Q-Network,以应对日内交易的大型动作空间,以进行有效的RL优化; 2)带有事后奖励的新型奖励功能,以鼓励RL代理商在整个交易日的长期范围内做出交易决策; 3)一个编码器架构架构,用于学习多模式的临时市场嵌入,其中既包含宏观级别和微型市场信息; 4)在最大化利润和最小化风险之间保持惊人平衡的风险意识辅助任务。通过对六个金融期货的三年来真实世界数据的广泛实验,我们证明,在四个财务标准方面,DeepScalper显着优于许多最先进的基线。
translated by 谷歌翻译
Solving portfolio management problems using deep reinforcement learning has been getting much attention in finance for a few years. We have proposed a new method using experts signals and historical price data to feed into our reinforcement learning framework. Although experts signals have been used in previous works in the field of finance, as far as we know, it is the first time this method, in tandem with deep RL, is used to solve the financial portfolio management problem. Our proposed framework consists of a convolutional network for aggregating signals, another convolutional network for historical price data, and a vanilla network. We used the Proximal Policy Optimization algorithm as the agent to process the reward and take action in the environment. The results suggested that, on average, our framework could gain 90 percent of the profit earned by the best expert.
translated by 谷歌翻译
近年来,许多定量金融领域的从业者试图使用深度强化学习(DRL)来建立更好的定量交易(QT)策略。然而,许多现有研究未能应对几个严重的挑战,例如非平稳财务环境以及在实际金融市场应用DRL时的偏见和差异权衡。在这项工作中,我们提出了Safe-Finrl,这是一种基于DRL的新型高FREQ股票交易策略,该策略通过近部财务环境以及低偏差和差异估算而增强。我们的主要贡献是双重的:首先,我们将漫长的财务时间序列分为近乎固定的短期环境;其次,我们通过将一般反探测器纳入软批评者中,在近部财务环境中实施Trace-SAC。对加密货币市场的广泛实验表明,避风势范围提供了稳定的价值估计,并稳定的政策改善,并在近部财务环境中显着降低了偏见和差异。
translated by 谷歌翻译
近年来,使用人工智能创造了广泛的投资模式。人工智能自动交易可以扩大交易方式的范围,例如通过授权每天24小时运行的能力以及以高频交易的能力。如果可以充分考虑过去的数据,也可以预期自动交易比使用更多信息交易。在本文中,我们提出了一种基于深度加强学习模型的投资代理,这是一个人工智能模型。该模型考虑了实际交易中涉及的交易成本,并在很长一段时间内创建交易的框架,以便它可以在单一贸易上进行大量利润。在这样做时,它可以最大限度地提高利润,同时保持交易成本低。此外,考虑到实际操作,我们使用在线学习,以便系统可以通过不断更新最新的在线数据而不是使用静态数据来继续学习。这使得可以通过始终纳入当前的市场趋势信息来贸易非静止金融市场。
translated by 谷歌翻译
动量策略是替代投资的重要组成部分,是商品交易顾问(CTA)的核心。然而,这些策略已被发现难以调整市场条件的快速变化,例如在2020年市场崩溃期间。特别是,在动量转向点之后,在趋势从上升趋势(下降趋势)逆转到下降趋势(上升趋势),时间序列动量(TSMOM)策略容易发生不良赌注。为了提高对政权变更的响应,我们介绍了一种新颖的方法,在那里我们将在线切换点检测(CPD)模块插入深势网络(DMN)[1904.04912]管道,它使用LSTM深度学习架构同时学习趋势估算与定位尺寸。此外,我们的模型能够优化它的平衡1)延迟延期的速度策略,它利用持续趋势,但没有过度反应到本地化价格移动,而且2)通过快速翻转其位置,这是一种快速平均转换策略制度,然后再次将其交换为利用本地化的价格。我们的CPD模块输出ChangePoint位置和严重性分数,允许我们的模型以数据驱动的方式学习响应变化的不平衡或更小,更局部化的变换点。在1995 - 2020年期间,在1995 - 2020年期间,添加CPD模块的添加导致夏普率的提高三分之一。该模块在显着的非间抗性期间特别有益,特别是在最近几年(2015-2020)中,性能提升大约三分之二。随着传统的动量策略在此期间的表现不佳,这很有趣。
translated by 谷歌翻译
Deep reinforcement learning is poised to revolutionise the field of AI and represents a step towards building autonomous systems with a higher level understanding of the visual world. Currently, deep learning is enabling reinforcement learning to scale to problems that were previously intractable, such as learning to play video games directly from pixels. Deep reinforcement learning algorithms are also applied to robotics, allowing control policies for robots to be learned directly from camera inputs in the real world. In this survey, we begin with an introduction to the general field of reinforcement learning, then progress to the main streams of value-based and policybased methods. Our survey will cover central algorithms in deep reinforcement learning, including the deep Q-network, trust region policy optimisation, and asynchronous advantage actor-critic. In parallel, we highlight the unique advantages of deep neural networks, focusing on visual understanding via reinforcement learning. To conclude, we describe several current areas of research within the field.
translated by 谷歌翻译
我们开发了一种利用无模型增强学习(RL)解决时间一致风险敏感随机优化问题的方法。具体地,我们假设代理商使用动态凸面风险措施评估一系列随机变量的风险。我们采用时间一致的动态编程原则来确定特定策略的值,并开发策略渐变更新规则。我们进一步开发了一个使用神经网络的演员批评风格算法,以优化策略。最后,我们通过将其应用于统计套利交易和障碍避免机器人控制中的优化问题来证明我们的方法的性能和灵活性。
translated by 谷歌翻译