产品和服务的个性化正在迅速成为银行和商业成功的驱动力。机器学习具有对客户需求和偏好的更深入了解和量身定制的希望。尽管对财务决策问题的传统解决方案经常依赖于模型假设,但强化学习能够利用大量数据,以改善具有更少假设的复杂财务环境中的客户建模和决策。从监管的角度来看,解释性和可解释性提出了挑战,要求接受透明度;他们还提供了改善对客户的了解和理解的机会。事后方法通常用于解释预贴紧的加固学习模型。基于我们以前对客户支出行为的建模,我们适应了最近的强化学习算法,这些学习算法本质地表征了理想的行为,并且我们过渡到资产管理问题。我们训练固有的可解释的强化学习代理,以提供与原型财务人格特征保持一致的投资建议,这些建议合并为最终建议。我们观察到,受过训练的代理商的建议遵守其预期特征,他们学习复合增长的价值,并且在没有任何明确的参考的情况下,风险的概念以及改善的政策融合。
translated by 谷歌翻译
将强化学习(RL)应用于资产管理的共同目的是利润的最大化。用于学习最佳策略的外部奖励功能通常不会考虑任何其他偏好或约束。我们已经开发了一种正则化方法,该方法可确保策略具有全球固有亲和力,即,不同的个性可能对某些资产可能会随着时间而改变。我们利用这些内在政策亲和力,使我们的RL模型固有地解释。我们演示了如何对RL代理进行培训,以为特定的个性概况编排此类政策,并仍然获得高回报。
translated by 谷歌翻译
人工智能的扩散越来越依赖于模型理解。理解既需要一种解释 - 关于模型行为的人类推理,又是解释 - 模型功能的象征性表示。尽管必须对安全性,信任和接受的透明度,但最先进的强化学习算法的不透明性掩盖了其学习策略的基础。我们已经开发了一种政策正规化方法,该方法主张了学识渊博的策略的全球固有亲和力。这些亲和力提供了一种关于政策行为的推理手段,从而使其固有地解释。我们已经在个性化的繁荣管理中展示了我们的方法,其中个人的支出行为及时决定了他们的投资策略,即不同的支出人物可能与不同的投资类别有不同的关联。现在,我们通过使用离散的Markov模型重现潜在的原型策略来解释我们的模型。这些全球替代物是原型政策的符号表示。
translated by 谷歌翻译
资产分配(或投资组合管理)是确定如何最佳将有限预算的资金分配给一系列金融工具/资产(例如股票)的任务。这项研究调查了使用无模型的深RL代理应用于投资组合管理的增强学习(RL)的性能。我们培训了几个RL代理商的现实股票价格,以学习如何执行资产分配。我们比较了这些RL剂与某些基线剂的性能。我们还比较了RL代理,以了解哪些类别的代理表现更好。从我们的分析中,RL代理可以执行投资组合管理的任务,因为它们的表现明显优于基线代理(随机分配和均匀分配)。四个RL代理(A2C,SAC,PPO和TRPO)总体上优于最佳基线MPT。这显示了RL代理商发现更有利可图的交易策略的能力。此外,基于价值和基于策略的RL代理之间没有显着的性能差异。演员批评者的表现比其他类型的药物更好。同样,在政策代理商方面的表现要好,因为它们在政策评估方面更好,样品效率在投资组合管理中并不是一个重大问题。这项研究表明,RL代理可以大大改善资产分配,因为它们的表现优于强基础。基于我们的分析,在政策上,参与者批评的RL药物显示出最大的希望。
translated by 谷歌翻译
从定义的福利到定义的缴款计划的过渡使从政府和机构退休的责任转移到了个人。确定个人的最佳储蓄和投资策略对于稳定的金融立场和避免在工作生活和退休期间避免贫困至关重要,这在一个世界上,这是一项特别具有挑战性的任务,在这个世界上,不同职业组经历的就业和收入轨迹是高度多样化的。我们介绍了一个模型,在该模型中,代理商学习最佳投资组合分配和储蓄策略,这些策略适合其异质概况。我们使用深度加强学习来训练代理。通过职业和年龄依赖收入演化动态校准环境。该研究的重点是取决于代理概况的异质收入轨迹,并结合了代理的行为参数化。该模型提供了一种灵活的方法,可在不同的情况下估算异构概况的终身消费和投资选择。
translated by 谷歌翻译
这篇科学论文提出了一种新型的投资组合优化模型,使用改进的深钢筋学习算法。优化模型的目标函数是投资组合累积回报的期望和价值的加权总和。所提出的算法基于参与者 - 批判性架构,其中关键网络的主要任务是使用分位数回归学习投资组合累积返回的分布,而Actor网络通过最大化上述目标函数来输出最佳投资组合权重。同时,我们利用线性转换功能来实现资产短销售。最后,使用了一种称为APE-X的多进程方法来加速深度强化学习训练的速度。为了验证我们提出的方法,我们对两个代表性的投资组合进行了重新测试,并观察到这项工作中提出的模型优于基准策略。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
我们建议将人工智能与学习最佳基金管理人员的最佳投资实践相结合的简单实用方法,并提供提出改进的建议。我们的方法是基于逆钢筋学习(IRL)和RL的组合。首先,IRL组件了解其交易历史建议的基金管理人员的意图,并恢复了其隐含的奖励功能。在第二步,直接RL算法使用该奖励功能来优化资产分配决策。我们表明我们的方法能够改善各个基金管理人员的表现。
translated by 谷歌翻译
由于需要确保安全可靠的人工智能(AI),因此在过去几年中,机器伦理学受到了越来越多的关注。这两种在机器伦理中使用的主要理论是道义和功利主义伦理。另一方面,美德伦理经常被称为另一种伦理理论。尽管这种有趣的方法比流行的道德理论具有一定的优势,但由于其形式化,编纂和解决道德困境以训练良性剂的挑战,工程人工贤惠的媒介几乎没有努力。我们建议通过使用充满道德困境的角色扮演游戏来弥合这一差距。有几种这样的游戏,例如论文,生活很奇怪,主要角色遇到的情况必须通过放弃对他们所珍视的其他东西来选择正确的行动方案。我们从此类游戏中汲取灵感,以展示如何设计系统的角色扮演游戏来发展人造代理中的美德。使用现代的AI技术,例如基于亲和力的强化学习和可解释的AI,我们激励了扮演这种角色扮演游戏的良性代理,以及通过美德道德镜头对他们的决策进行检查。这种代理和环境的发展是朝着实际上正式化和证明美德伦理在伦理代理发展的价值的第一步。
translated by 谷歌翻译
本文设计了一个由三种类型的代理人:个人,保险公司和政府的微型社会的连续重复游戏。对经济学文献的新生,我们使用加强学习(RL),与多军匪徒问题密切相关,以学习每花费1美元的拟议政策干预措施的福利影响。该论文严格讨论了提议的干预措施的可取性,通过逐案将它们相互比较。本文为校准的理论模型提供了算法政策评估的框架,该模型可以帮助可行性研究。
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
本文提出了基于深度Q学习的金融投资组合交易深增强学习算法。该算法能够从任何大小的横截面数据集交易高维投资组合,其可以包括资产中的数据间隙和非唯一历史长度。我们通过对每种环境的一个资产进行采样,在每种环境中对所有环境进行投资来顺序设置环境,并通过“资产集合”的平均返回,从而奖励资产的退货和现金预订。这强制执行代理以战略性地将资本分配给其预测以上平均值的资产。我们在采样外部分析中应用我们的方法,以48美国股票的组合设置,在股票中的数量和交易成本水平中,在十辆高达500股的股票数量上变化。平均优势算法通过仅为所有投资组合使用一个超参数设置,通过大型边距所考虑被动和活动基准投资策略。
translated by 谷歌翻译
本文为做市商在订单驱动的市场中的行动介绍了新的代表。该代表使用缩放的beta分布,并在人工智能中采用了三种用于市场创作文献的方法:单价选择,梯子策略和“接触市场的市场制作”。梯子策略在连续价格的间隔内放置统一的体积。基于beta分布的缩放策略将这些策略推广,从而使数量在整个价格间隔内偏斜。我们证明,这种灵活性对于库存管理很有用,库存管理是做市商面临的主要挑战之一。在本文中,我们进行了三个主要实验:首先,我们将基于Beta的动作与阶梯策略的特殊情况进行比较;然后,我们研究了简单固定分布的性能;最后,我们设计和评估了一种简单而直观的动态控制政策,该政策以营销商获得的签名库存来连续调整操作。所有经验评估都基于历史数据,每一侧都有50个级别的历史数据。
translated by 谷歌翻译
在我们的论文中,我们应用了深度加强学习方法,以优化投资组合管理中的投资决策。我们做出了几种创新,例如添加短机制并设计套利机制,并应用我们的模型来为几个随机选择的投资组合进行决策优化。实验结果表明,我们的模型能够优化投资决策,并有能力获得股票市场的超额回报,优化的代理在整个交易期间以固定价值维持资产权重,并以非常低的交易成本率交易。此外,我们还重新设计了用于计算持续交易过程中的投资组合资产权重的公式,这可以使杠杆交易填补了在短路时计算了组合重量的理论差距。
translated by 谷歌翻译
More and more stock trading strategies are constructed using deep reinforcement learning (DRL) algorithms, but DRL methods originally widely used in the gaming community are not directly adaptable to financial data with low signal-to-noise ratios and unevenness, and thus suffer from performance shortcomings. In this paper, to capture the hidden information, we propose a DRL based stock trading system using cascaded LSTM, which first uses LSTM to extract the time-series features from stock daily data, and then the features extracted are fed to the agent for training, while the strategy functions in reinforcement learning also use another LSTM for training. Experiments in DJI in the US market and SSE50 in the Chinese stock market show that our model outperforms previous baseline models in terms of cumulative returns and Sharp ratio, and this advantage is more significant in the Chinese stock market, a merging market. It indicates that our proposed method is a promising way to build a automated stock trading system.
translated by 谷歌翻译
Solving portfolio management problems using deep reinforcement learning has been getting much attention in finance for a few years. We have proposed a new method using experts signals and historical price data to feed into our reinforcement learning framework. Although experts signals have been used in previous works in the field of finance, as far as we know, it is the first time this method, in tandem with deep RL, is used to solve the financial portfolio management problem. Our proposed framework consists of a convolutional network for aggregating signals, another convolutional network for historical price data, and a vanilla network. We used the Proximal Policy Optimization algorithm as the agent to process the reward and take action in the environment. The results suggested that, on average, our framework could gain 90 percent of the profit earned by the best expert.
translated by 谷歌翻译
近年来,许多定量金融领域的从业者试图使用深度强化学习(DRL)来建立更好的定量交易(QT)策略。然而,许多现有研究未能应对几个严重的挑战,例如非平稳财务环境以及在实际金融市场应用DRL时的偏见和差异权衡。在这项工作中,我们提出了Safe-Finrl,这是一种基于DRL的新型高FREQ股票交易策略,该策略通过近部财务环境以及低偏差和差异估算而增强。我们的主要贡献是双重的:首先,我们将漫长的财务时间序列分为近乎固定的短期环境;其次,我们通过将一般反探测器纳入软批评者中,在近部财务环境中实施Trace-SAC。对加密货币市场的广泛实验表明,避风势范围提供了稳定的价值估计,并稳定的政策改善,并在近部财务环境中显着降低了偏见和差异。
translated by 谷歌翻译
我们考虑学习控制问题的最佳阈值策略的问题。阈值策略通过评估系统状态的元素是否超过一定阈值来做出控制决策,其值由系统状态的其他元素决定。通过利用阈值策略的单调特性,我们证明他们的政策梯度具有令人惊讶的简单表达方式。我们使用这种简单的表达方式来构建一种范围的演员批评算法,以学习最佳阈值策略。仿真结果表明,由于其能够利用单调属性的能力,我们的政策大大优于其他强化学习算法。此外,我们表明,Whittle Index是一种用于躁动的多臂匪徒问题的强大工具,相当于替代问题的最佳阈值策略。该观察结果导致了一种简单的算法,该算法通过学习替代问题中的最佳阈值策略来找到Whittle索引。仿真结果表明,我们的算法比最近通过间接手段学习小索引的一些研究快得多。
translated by 谷歌翻译
The decarbonization of buildings presents new challenges for the reliability of the electrical grid as a result of the intermittency of renewable energy sources and increase in grid load brought about by end-use electrification. To restore reliability, grid-interactive efficient buildings can provide flexibility services to the grid through demand response. Residential demand response programs are hindered by the need for manual intervention by customers. To maximize the energy flexibility potential of residential buildings, an advanced control architecture is needed. Reinforcement learning is well-suited for the control of flexible resources as it is able to adapt to unique building characteristics compared to expert systems. Yet, factors hindering the adoption of RL in real-world applications include its large data requirements for training, control security and generalizability. Here we address these challenges by proposing the MERLIN framework and using a digital twin of a real-world 17-building grid-interactive residential community in CityLearn. We show that 1) independent RL-controllers for batteries improve building and district level KPIs compared to a reference RBC by tailoring their policies to individual buildings, 2) despite unique occupant behaviours, transferring the RL policy of any one of the buildings to other buildings provides comparable performance while reducing the cost of training, 3) training RL-controllers on limited temporal data that does not capture full seasonality in occupant behaviour has little effect on performance. Although, the zero-net-energy (ZNE) condition of the buildings could be maintained or worsened as a result of controlled batteries, KPIs that are typically improved by ZNE condition (electricity price and carbon emissions) are further improved when the batteries are managed by an advanced controller.
translated by 谷歌翻译
通过提供流动性,市场制造商在金融市场中发挥着关键作用。他们通常填写订单书籍,以购买和出售限额订单,以便为交易员提供替代价格水平来运营。本文精确地侧重于从基于代理人的角度研究这些市场制造商战略的研究。特别是,我们提出了加强学习(RL)在模拟股市中创建智能市场标志的应用。本研究分析了RL市场制造商代理在非竞争性(同时只有一个RL市场制造商学习)和竞争方案(同时学习的多个RL市场标记)以及如何调整其在SIM2REAL范围内的策略有很有趣的结果。此外,它涵盖了不同实验之间的政策转移的应用,描述了竞争环境对RL代理表现的影响。 RL和Deep RL技术被证明是有利可图的市场制造商方法,从而更好地了解他们在股票市场的行为。
translated by 谷歌翻译