Automated Market Makers (AMMs) have cemented themselves as an integral part of the decentralized finance (DeFi) space. AMMs are a type of exchange that allows users to trade assets without the need for a centralized exchange. They form the foundation for numerous decentralized exchanges (DEXs), which help facilitate the quick and efficient exchange of on-chain tokens. All present-day popular DEXs are static protocols, with fixed parameters controlling the fee and the curvature - they suffer from invariance and cannot adapt to quickly changing market conditions. This characteristic may cause traders to stay away during high slippage conditions brought about by intractable market movements. We propose an RL framework to optimize the fees collected on an AMM protocol. In particular, we develop a Q-Learning Agent for Market Making Protocols (QLAMMP) that learns the optimal fee rates and leverage coefficients for a given AMM protocol and maximizes the expected fee collected under a range of different market conditions. We show that QLAMMP is consistently able to outperform its static counterparts under all the simulated test conditions.
translated by 谷歌翻译
我们考虑单个强化学习与基于事件驱动的代理商金融市场模型相互作用时学习最佳执行代理的学习动力。交易在事件时间内通过匹配引擎进行异步进行。最佳执行代理在不同级别的初始订单尺寸和不同尺寸的状态空间上进行考虑。使用校准方法考虑了对基于代理的模型和市场的影响,该方法探讨了经验性风格化事实和价格影响曲线的变化。收敛,音量轨迹和动作痕迹图用于可视化学习动力学。这表明了最佳执行代理如何在模拟的反应性市场框架内学习最佳交易决策,以及如何通过引入战略订单分类来改变模拟市场的反反应。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
本文为做市商在订单驱动的市场中的行动介绍了新的代表。该代表使用缩放的beta分布,并在人工智能中采用了三种用于市场创作文献的方法:单价选择,梯子策略和“接触市场的市场制作”。梯子策略在连续价格的间隔内放置统一的体积。基于beta分布的缩放策略将这些策略推广,从而使数量在整个价格间隔内偏斜。我们证明,这种灵活性对于库存管理很有用,库存管理是做市商面临的主要挑战之一。在本文中,我们进行了三个主要实验:首先,我们将基于Beta的动作与阶梯策略的特殊情况进行比较;然后,我们研究了简单固定分布的性能;最后,我们设计和评估了一种简单而直观的动态控制政策,该政策以营销商获得的签名库存来连续调整操作。所有经验评估都基于历史数据,每一侧都有50个级别的历史数据。
translated by 谷歌翻译
在本文中,我们开发了一个模块化框架,用于将强化学习应用于最佳贸易执行问题。该框架的设计考虑了灵活性,以便简化不同的仿真设置的实现。我们不关注代理和优化方法,而是专注于环境,并分解必要的要求,以模拟在强化学习框架下的最佳贸易执行,例如数据预处理,观察结果的构建,行动处理,儿童订单执行,模拟,模拟我们给出了每个组件的示例,探索他们的各个实现\&它们之间的相互作用所带来的困难,并讨论每个组件在模拟中引起的不同现象,并突出了模拟与行为之间的分歧,并讨论了不同的现象。真正的市场。我们通过设置展示我们的模块化实施,该设置是按照时间加权的平均价格(TWAP)提交时间表,允许代理人专门放置限制订单,并通过迭代的迭代来模拟限制订单(LOB)(LOB)和根据相同的时间表,将奖励计算为TWAP基准算法所达到的价格的\ $改进。我们还制定了评估程序,以在培训视野的间隔内纳入给定代理的迭代重新训练和评估,并模仿代理在随着新市场数据的可用而连续再培训时的行为,并模拟算法提供者是限制的监测实践在当前的监管框架下执行。
translated by 谷歌翻译
深度强化学习(RL)导致了许多最近和开创性的进步。但是,这些进步通常以培训的基础体系结构的规模增加以及用于训练它们的RL算法的复杂性提高,而均以增加规模的成本。这些增长反过来又使研究人员更难迅速原型新想法或复制已发表的RL算法。为了解决这些问题,这项工作描述了ACME,这是一个用于构建新型RL算法的框架,这些框架是专门设计的,用于启用使用简单的模块化组件构建的代理,这些组件可以在各种执行范围内使用。尽管ACME的主要目标是为算法开发提供一个框架,但第二个目标是提供重要或最先进算法的简单参考实现。这些实现既是对我们的设计决策的验证,也是对RL研究中可重复性的重要贡献。在这项工作中,我们描述了ACME内部做出的主要设计决策,并提供了有关如何使用其组件来实施各种算法的进一步详细信息。我们的实验为许多常见和最先进的算法提供了基准,并显示了如何为更大且更复杂的环境扩展这些算法。这突出了ACME的主要优点之一,即它可用于实现大型,分布式的RL算法,这些算法可以以较大的尺度运行,同时仍保持该实现的固有可读性。这项工作提出了第二篇文章的版本,恰好与模块化的增加相吻合,对离线,模仿和从演示算法学习以及作为ACME的一部分实现的各种新代理。
translated by 谷歌翻译
通过提供流动性,市场制造商在金融市场中发挥着关键作用。他们通常填写订单书籍,以购买和出售限额订单,以便为交易员提供替代价格水平来运营。本文精确地侧重于从基于代理人的角度研究这些市场制造商战略的研究。特别是,我们提出了加强学习(RL)在模拟股市中创建智能市场标志的应用。本研究分析了RL市场制造商代理在非竞争性(同时只有一个RL市场制造商学习)和竞争方案(同时学习的多个RL市场标记)以及如何调整其在SIM2REAL范围内的策略有很有趣的结果。此外,它涵盖了不同实验之间的政策转移的应用,描述了竞争环境对RL代理表现的影响。 RL和Deep RL技术被证明是有利可图的市场制造商方法,从而更好地了解他们在股票市场的行为。
translated by 谷歌翻译
资产分配(或投资组合管理)是确定如何最佳将有限预算的资金分配给一系列金融工具/资产(例如股票)的任务。这项研究调查了使用无模型的深RL代理应用于投资组合管理的增强学习(RL)的性能。我们培训了几个RL代理商的现实股票价格,以学习如何执行资产分配。我们比较了这些RL剂与某些基线剂的性能。我们还比较了RL代理,以了解哪些类别的代理表现更好。从我们的分析中,RL代理可以执行投资组合管理的任务,因为它们的表现明显优于基线代理(随机分配和均匀分配)。四个RL代理(A2C,SAC,PPO和TRPO)总体上优于最佳基线MPT。这显示了RL代理商发现更有利可图的交易策略的能力。此外,基于价值和基于策略的RL代理之间没有显着的性能差异。演员批评者的表现比其他类型的药物更好。同样,在政策代理商方面的表现要好,因为它们在政策评估方面更好,样品效率在投资组合管理中并不是一个重大问题。这项研究表明,RL代理可以大大改善资产分配,因为它们的表现优于强基础。基于我们的分析,在政策上,参与者批评的RL药物显示出最大的希望。
translated by 谷歌翻译
在这项工作中,我们提出了一种初步调查一种名为DYNA-T的新算法。在钢筋学习(RL)中,规划代理有自己的环境表示作为模型。要发现与环境互动的最佳政策,代理商会收集试验和错误时尚的经验。经验可用于学习更好的模型或直接改进价值函数和政策。通常是分离的,Dyna-Q是一种混合方法,在每次迭代,利用真实体验更新模型以及值函数,同时使用模拟数据从其模型中的应用程序进行行动。然而,规划过程是计算昂贵的并且强烈取决于国家行动空间的维度。我们建议在模拟体验上构建一个上置信树(UCT),并在在线学习过程中搜索要选择的最佳动作。我们证明了我们提出的方法对来自Open AI的三个测试平台环境的一系列初步测试的有效性。与Dyna-Q相比,Dyna-T通过选择更强大的动作选择策略来优于随机环境中的最先进的RL代理。
translated by 谷歌翻译
我向已知的数学问题提出了一个深入的加强学习(RL)解决方案,称为新闻温丹主模型,这旨在考虑到概率的需求分布。为了反映更现实和复杂的情况,需求分布可以改变本周不同的日子,从而改变了最佳行为。我使用了一个双延迟的深度确定性政策梯度代理(写为完全原始代码)与演员和批评网络来解决这个问题。该代理能够学习与问题的分析解决方案一致的最佳行为,并且可以识别本周不同日期的单独概率分布并相应地行事。
translated by 谷歌翻译
The Graph Protocol indexes historical blockchain transaction data and makes it available for querying. As the protocol is decentralized, there are many independent Indexers that index and compete with each other for serving queries to the Consumers. One dimension along which Indexers compete is pricing. In this paper, we propose a bandit-based algorithm for maximization of Indexers' revenue via Consumer budget discovery. We present the design and the considerations we had to make for a dynamic pricing algorithm being used by multiple agents simultaneously. We discuss the results achieved by our dynamic pricing bandits both in simulation and deployed into production on one of the Indexers operating on Ethereum. We have open-sourced both the simulation framework and tools we created, which other Indexers have since started to adapt into their own workflows.
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
本文介绍了用于交易单一资产的双重Q网络算法,即E-MINI S&P 500连续期货合约。我们使用经过验证的设置作为我们环境的基础,并具有多个扩展。我们的贸易代理商的功能不断扩展,包括其他资产,例如商品,从而产生了四种型号。我们还应对环境条件,包括成本和危机。我们的贸易代理商首先接受了特定时间段的培训,并根据新数据进行了测试,并将其与长期策略(市场)进行了比较。我们分析了各种模型与样本中/样本外性能之间有关环境的差异。实验结果表明,贸易代理人遵循适当的行为。它可以将其政策调整为不同的情况,例如在存在交易成本时更广泛地使用中性位置。此外,净资产价值超过了基准的净值,代理商在测试集中的市场优于市场。我们使用DDQN算法对代理商在金融领域中的行为提供初步见解。这项研究的结果可用于进一步发展。
translated by 谷歌翻译
Safe Reinforcement Learning can be defined as the process of learning policies that maximize the expectation of the return in problems in which it is important to ensure reasonable system performance and/or respect safety constraints during the learning and/or deployment processes. We categorize and analyze two approaches of Safe Reinforcement Learning. The first is based on the modification of the optimality criterion, the classic discounted finite/infinite horizon, with a safety factor. The second is based on the modification of the exploration process through the incorporation of external knowledge or the guidance of a risk metric. We use the proposed classification to survey the existing literature, as well as suggesting future directions for Safe Reinforcement Learning.
translated by 谷歌翻译
基本的多臂匪徒(mAb)问题是试图最大程度地利用从不同概率分布的土匪获得的奖励,因为只能进行有限数量的尝试。在研究市场上的交易算法时,我们正在研究mabs问题最复杂的变体之一,即非平稳连续体匪徒(NCBS)问题。布里斯托尔证券交易所(BSE)是基于通过限制订单的连续双拍卖来对电子金融交换的简单模拟。市场可以由具有不同交易算法的自动交易者填充。在其中,PRSH算法体现了解决NCBS问题的一些基本思想。但是,它面临调整超参数并适应复杂市场条件变化的困难。我们提出了一种称为PRB的新算法,该算法通过贝叶斯优化解决了连续的土匪问题,并通过一种新颖的“ Burnit-Bandit”框架解决了非平稳土匪问题。使用BSE,我们使用尽可能多的交易者代理商在两个不同的市场动态下模拟真实的市场环境。然后,我们分别在不同的市场动态下研究了PRSH算法和PRB算法的最佳超参数。最后,通过同时让交易者使用两种算法贸易,我们证明了PRB算法的性能优于两个市场动态下的PRSH算法。特别是,我们对所有实验结果进行严格的假设测试,以确保其正确性。
translated by 谷歌翻译
本文利用了强化学习和深度学习的最新发展来解决供应链库存管理(SCIM)问题,这是一个复杂的顺序决策问题,包括确定在给定时间范围内生产和运送到不同仓库的最佳产品数量。给出了随机两回波供应链环境的数学公式,该公式可以管理任意数量的仓库和产品类型。此外,开发了一个与深钢筋学习(DRL)算法接口的开源库,并公开可用于解决遇险问题。通过在合成生成的数据上进行了丰富的数值实验,比较了最新的DRL算法实现的性能。实验计划的设计和执行,包括供应链的不同结构,拓扑,需求,能力和成本。结果表明,PPO算法非常适合环境的不同特征。 VPG算法几乎总是会收敛到局部最大值,即使它通常达到可接受的性能水平。最后,A3C是最快的算法,但是就像VPG一样,与PPO相比,它从未取得最好的性能。总之,数值实验表明,DRL的性能始终如一,比标准的重新订购策略(例如静态(S,Q) - policy)更好。因此,它可以被认为是解决随机两回波问题的现实世界实例的实用和有效选择。
translated by 谷歌翻译
未来的互联网涉及几种新兴技术,例如5G和5G网络,车辆网络,无人机(UAV)网络和物联网(IOT)。此外,未来的互联网变得异质并分散了许多相关网络实体。每个实体可能需要做出本地决定,以在动态和不确定的网络环境下改善网络性能。最近使用标准学习算法,例如单药强化学习(RL)或深入强化学习(DRL),以使每个网络实体作为代理人通过与未知环境进行互动来自适应地学习最佳决策策略。但是,这种算法未能对网络实体之间的合作或竞争进行建模,而只是将其他实体视为可能导致非平稳性问题的环境的一部分。多机构增强学习(MARL)允许每个网络实体不仅观察环境,还可以观察其他实体的政策来学习其最佳政策。结果,MAL可以显着提高网络实体的学习效率,并且最近已用于解决新兴网络中的各种问题。在本文中,我们因此回顾了MAL在新兴网络中的应用。特别是,我们提供了MARL的教程,以及对MARL在下一代互联网中的应用进行全面调查。特别是,我们首先介绍单代机Agent RL和MARL。然后,我们回顾了MAL在未来互联网中解决新兴问题的许多应用程序。这些问题包括网络访问,传输电源控制,计算卸载,内容缓存,数据包路由,无人机网络的轨迹设计以及网络安全问题。
translated by 谷歌翻译
数字化和远程连接扩大了攻击面,使网络系统更脆弱。由于攻击者变得越来越复杂和资源丰富,仅仅依赖传统网络保护,如入侵检测,防火墙和加密,不足以保护网络系统。网络弹性提供了一种新的安全范式,可以使用弹性机制来补充保护不足。一种网络弹性机制(CRM)适应了已知的或零日威胁和实际威胁和不确定性,并对他们进行战略性地响应,以便在成功攻击时保持网络系统的关键功能。反馈架构在启用CRM的在线感应,推理和致动过程中发挥关键作用。强化学习(RL)是一个重要的工具,对网络弹性的反馈架构构成。它允许CRM提供有限或没有事先知识和攻击者的有限攻击的顺序响应。在这项工作中,我们审查了Cyber​​恢复力的RL的文献,并讨论了对三种主要类型的漏洞,即姿势有关,与信息相关的脆弱性的网络恢复力。我们介绍了三个CRM的应用领域:移动目标防御,防守网络欺骗和辅助人类安全技术。 RL算法也有漏洞。我们解释了RL的三个漏洞和目前的攻击模型,其中攻击者针对环境与代理商之间交换的信息:奖励,国家观察和行动命令。我们展示攻击者可以通过最低攻击努力来欺骗RL代理商学习邪恶的政策。最后,我们讨论了RL为基于RL的CRM的网络安全和恢复力和新兴应用的未来挑战。
translated by 谷歌翻译
在数学金融文献中,有一个丰富的数学模型目录,用于研究算法交易问题(例如营销和最佳执行)。本文介绍了\ MBTGYM,这是一个Python模块,该模块提供了一套健身环境,用于培训强化学习(RL)代理,以解决此类基于模型的交易问题。该模块以一种可扩展的方式设置,以允许不同模型不同方面的组合。它支持对矢量化环境的高效实现,以更快地训练RL代理。在本文中,我们激发了使用RL解决此类基于模型的限制订单书籍中的挑战,我们解释了我们的健身房环境的设计,然后展示其在解决文献中解决标准和非标准问题中的用途。最后,我们为进一步开发模块的路线图制定了路线图,我们将其作为GitHub上的开源存储库提供,以便它可以作为基于模型算法交易的RL研究的焦点。
translated by 谷歌翻译
脱机强化学习 - 从一批数据中学习策略 - 是难以努力的:如果没有制造强烈的假设,它很容易构建实体算法失败的校长。在这项工作中,我们考虑了某些现实世界问题的财产,其中离线强化学习应该有效:行动仅对一部分产生有限的行动。我们正规化并介绍此动作影响规律(AIR)财产。我们进一步提出了一种算法,该算法假定和利用AIR属性,并在MDP满足空气时绑定输出策略的子优相。最后,我们展示了我们的算法在定期保留的两个模拟环境中跨越不同的数据收集策略占据了现有的离线强度学习算法。
translated by 谷歌翻译