我们提出了一种基于有效的量化张量列表表示和广义最大矩阵音量原理的组合进行优化的新过程。我们证明了新的张量火车优化器(TTOPT)方法在各种任务中的适用性,从最小化多维功能到增强学习。我们的算法与流行的基于进化的方法进行了比较,并以函数评估或执行时间的数量(通常是大幅度的余量)优于它们。
translated by 谷歌翻译
许多数值优化技术的收敛性对提供给求解器的初始猜测高度敏感。我们提出了一种基于张量方法的方法,以初始化靠近全局Optima的现有优化求解器。该方法仅使用成本函数的定义,不需要访问任何良好解决方案的数据库。我们首先将成本函数(这是任务参数和优化变量的函数)转换为概率密度函数。与将任务参数设置为常数的现有方法不同,我们将它们视为另一组随机变量,并使用替代概率模型近似任务参数的关节概率分布和优化变量。对于给定的任务,我们就给定的任务参数从条件分布中生成样本,并将其用作优化求解器的初始化。由于调节和来自任意密度函数的调节和采样具有挑战性,因此我们使用张量列车分解来获得替代概率模型,我们可以从中有效地获得条件模型和样品。该方法可以为给定任务产生来自不同模式的多个解决方案。我们首先通过将其应用于各种具有挑战性的基准函数来评估该方法以进行数值优化,这些功能很难使用基于梯度的优化求解器以幼稚的初始化来求解,这表明所提出的方法可以生成靠近全局优化的样品,并且来自多种模式。 。然后,我们通过将所提出的方法应用于7-DOF操纵器来证明框架的通用性及其与机器人技术的相关性。
translated by 谷歌翻译
A simple nonrecursive form of the tensor decomposition in d dimensions is presented. It does not inherently suffer from the curse of dimensionality, it has asymptotically the same number of parameters as the canonical decomposition, but it is stable and its computation is based on lowrank approximation of auxiliary unfolding matrices. The new form gives a clear and convenient way to implement all basic operations efficiently. A fast rounding procedure is presented, as well as basic linear algebra operations. Examples showing the benefits of the decomposition are given, and the efficiency is demonstrated by the computation of the smallest eigenvalue of a 19-dimensional operator.
translated by 谷歌翻译
我们考虑在一个有限时间范围内的离散时间随机动力系统的联合设计和控制。我们将问题作为一个多步优化问题,在寻求识别系统设计和控制政策的不确定性下,共同最大化所考虑的时间范围内收集的预期奖励总和。转换函数,奖励函数和策略都是参数化的,假设与其参数有所不同。然后,我们引入了一种深度加强学习算法,将策略梯度方法与基于模型的优化技术相结合以解决这个问题。从本质上讲,我们的算法迭代地估计通过Monte-Carlo采样和自动分化的预期返回的梯度,并在环境和策略参数空间中投影梯度上升步骤。该算法称为直接环境和策略搜索(DEPS)。我们评估我们算法在三个环境中的性能,分别在三种环境中进行了一个群众弹簧阻尼系统的设计和控制,分别小型离网电力系统和无人机。此外,我们的算法是针对用于解决联合设计和控制问题的最先进的深增强学习算法的基准测试。我们表明,在所有三种环境中,DEPS至少在或更好地执行,始终如一地产生更高的迭代返回的解决方案。最后,通过我们的算法产生的解决方案也与由算法产生的解决方案相比,不共同优化环境和策略参数,突出显示在执行联合优化时可以实现更高返回的事实。
translated by 谷歌翻译
尽管加权套索回归具有吸引力的统计保障,但由于其复杂的搜索空间,通常避免了已有数千个Quand参与的。另一方面,具有用于黑盒功能的高维HPO方法的最新进展表明,高维应用确实可以有效地优化。尽管这一初步成功,但高维HPO方法通常应用于具有适度数量的合成问题,这些尺寸限制了其对科学和工程应用的影响。为了解决这一限制,我们提出了一个新的基准套件,这是一个在卢赛社区中的一个重要的开放研究主题量身定制的,这是加权套索回归。 Lassobench由受良好控制的合成设置(样本,SNR,环境和有效维度以及多维保真度)和现实世界数据集组成的基准,这使得能够利用许多HPO算法来改进和扩展到高维设置。我们评估了5种最先进的HPO方法和3个基线,并表明贝叶斯优化可以改善通常用于稀疏回归的方法,同时突出显示这些框架在非常高的框架中的限制。值得注意的是,贝叶斯优化分别将60,100,300和1000个尺寸问题的卢斯基线分别改善了45.7%,19.2%,19.7%和15.5%。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
混合精确的深神经网络达到了硬件部署所需的能源效率和吞吐量,尤其是在资源有限的情况下,而无需牺牲准确性。但是,不容易找到保留精度的最佳每层钻头精度,尤其是在创建巨大搜索空间的大量模型,数据集和量化技术中。为了解决这一困难,最近出现了一系列文献,并且已经提出了一些实现有希望的准确性结果的框架。在本文中,我们首先总结了文献中通常使用的量化技术。然后,我们对混合精液框架进行了彻底的调查,该调查是根据其优化技术进行分类的,例如增强学习和量化技术,例如确定性舍入。此外,讨论了每个框架的优势和缺点,我们在其中呈现并列。我们最终为未来的混合精液框架提供了指南。
translated by 谷歌翻译
这本数字本书包含在物理模拟的背景下与深度学习相关的一切实际和全面的一切。尽可能多,所有主题都带有Jupyter笔记本的形式的动手代码示例,以便快速入门。除了标准的受监督学习的数据中,我们将看看物理丢失约束,更紧密耦合的学习算法,具有可微分的模拟,以及加强学习和不确定性建模。我们生活在令人兴奋的时期:这些方法具有从根本上改变计算机模拟可以实现的巨大潜力。
translated by 谷歌翻译
Machine learning frameworks such as Genetic Programming (GP) and Reinforcement Learning (RL) are gaining popularity in flow control. This work presents a comparative analysis of the two, bench-marking some of their most representative algorithms against global optimization techniques such as Bayesian Optimization (BO) and Lipschitz global optimization (LIPO). First, we review the general framework of the model-free control problem, bringing together all methods as black-box optimization problems. Then, we test the control algorithms on three test cases. These are (1) the stabilization of a nonlinear dynamical system featuring frequency cross-talk, (2) the wave cancellation from a Burgers' flow and (3) the drag reduction in a cylinder wake flow. We present a comprehensive comparison to illustrate their differences in exploration versus exploitation and their balance between `model capacity' in the control law definition versus `required complexity'. We believe that such a comparison paves the way toward the hybridization of the various methods, and we offer some perspective on their future development in the literature on flow control problems.
translated by 谷歌翻译
近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加,我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始,显示一般非凸面问题无法在合理的时间内有效地解决。然后,我们提供了一个问题列表,可以通过利用问题的结构来有效地找到全球最小化器,因为可能的问题。处理非凸性的另一种方法是放宽目标,从找到全局最小,以找到静止点或局部最小值。对于该设置,我们首先为确定性一阶方法的收敛速率提出了已知结果,然后是最佳随机和随机梯度方案的一般理论分析,以及随机第一阶方法的概述。之后,我们讨论了非常一般的非凸面问题,例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能,这仍然允许获得一阶的理论融合保证方法。然后,我们考虑更高阶和零序/衍生物的方法及其收敛速率,以获得非凸优化问题。
translated by 谷歌翻译
张量火车的分解因其高维张量的简洁表示,因此在机器学习和量子物理学中广泛使用,克服了维度的诅咒。交叉近似 - 从近似形式开发用于从一组选定的行和列中表示矩阵,这是一种有效的方法,用于构建来自其少数条目的张量的张量列器分解。虽然张量列车交叉近似在实际应用中取得了显着的性能,但迄今为止缺乏其理论分析,尤其是在近似误差方面的理论分析。据我们所知,现有结果仅提供元素近似精度的保证,这会导致扩展到整个张量时的束缚非常松。在本文中,我们通过提供精确测量和嘈杂测量的整个张量来保证准确性来弥合这一差距。我们的结果说明了选定子观察器的选择如何影响交叉近似的质量,并且模型误差和/或测量误差引起的近似误差可能不会随着张量的顺序而指数增长。这些结果通过数值实验来验证,并且可能对高阶张量的交叉近似值(例如在量子多体状态的描述中遇到的)具有重要意义。
translated by 谷歌翻译
进化策略(ES)是一种基于自然进化概念的强大黑盒优化技术。在其每个迭代中,一个关键步骤都需要根据一些健身分数进行排名候选解决方案。对于增强学习的ES方法(RL),此排名步骤需要评估多个策略。目前是通过政策方法完成的:通过使用该策略与环境进行多次交互来估算每个政策的分数。这导致了很多浪费的互动,因为一旦排名完成,与排名最高的策略相关的数据仅用于后续学习。为了提高样品效率,我们基于适应性函数的局部近似,提出了一种新型的分支替代方案。我们在称为增强随机搜索(ARS)的最先进的ES方法的背景下演示了我们的想法。 Mujoco任务中的仿真表明,与原始ARS相比,我们的非政策变体具有相似的运行时间,即可达到奖励阈值,但仅需要70%左右的数据。它还胜过最近的信任区域。我们认为我们的想法也应该扩展到其他ES方法。
translated by 谷歌翻译
机器学习算法中多个超参数的最佳设置是发出大多数可用数据的关键。为此目的,已经提出了几种方法,例如进化策略,随机搜索,贝叶斯优化和启发式拇指规则。在钢筋学习(RL)中,学习代理在与其环境交互时收集的数据的信息内容严重依赖于许多超参数的设置。因此,RL算法的用户必须依赖于基于搜索的优化方法,例如网格搜索或Nelder-Mead单简单算法,这对于大多数R1任务来说是非常效率的,显着减慢学习曲线和离开用户的速度有目的地偏见数据收集的负担。在这项工作中,为了使RL算法更加用户独立,提出了一种使用贝叶斯优化的自主超参数设置的新方法。来自过去剧集和不同的超参数值的数据通过执行行为克隆在元学习水平上使用,这有助于提高最大化获取功能的加强学习变体的有效性。此外,通过紧密地整合在加强学习代理设计中的贝叶斯优化,还减少了收敛到给定任务的最佳策略所需的状态转换的数量。与其他手动调整和基于优化的方法相比,计算实验显示了有希望的结果,这突出了改变算法超级参数来增加所生成数据的信息内容的好处。
translated by 谷歌翻译
研究表明,进化策略(ES)是具有深层神经网络的强化学习(RL)的有前途的方法。但是,高样本复杂性的问题仍然存在于ES对深度RL的应用中。本文是第一个通过新颖的神经进化多任务处理(NUEMT)算法解决当今方法的缺点,该算法旨在将信息从一组(短情节长度)转移到目标(全长)的RL任务。从目标中提取的辅助任务允许代理更新并快速评估较短时间范围的策略。然后转移进化的技能,以指导更长,更艰巨的任务实现最佳政策。我们证明了NUEMT算法达到了数据叶进化RL,从而减少了昂贵的代理环境相互作用数据要求。在这种情况下,我们的主要算法贡献是首次基于统计重要性抽样技术引入多任务技能转移机制。此外,利用自适应资源分配策略将计算资源分配给基于其收集的实用性的辅助任务。关于OpenAI体育馆的一系列连续控制任务的实验证实,与最近的ES基线相比,我们提出的算法有效。
translated by 谷歌翻译
在本文中,我们在不同研究领域使用的三种模型之间存在联系:来自正式语言和语言学的加权有限自动机〜(WFA),机器学习中使用的经常性神经网络,以及张量网络,包括一组高处的优化技术量子物理学和数值分析中使用的顺序张量。我们首先介绍WFA与张力列车分解,特定形式的张量网络之间的内在关系。该关系允许我们展示由WFA计算的函数的Hankel矩阵的新型低级结构,并设计利用这种结构的有效光谱学习算法来扩展到非常大的Hankel矩阵。我们将解开基本连接在WFA和第二阶逆转神经网络之间〜(2-RNN):在离散符号的序列的情况下,具有线性激活功能的WFA和2-RNN是表现性的。利用该等效结果与加权自动机的经典频谱学习算法相结合,我们介绍了在连续输入向量序列上定义的线性2-RNN的第一可提供学习算法。本算法依赖于Hankel Tensor的低等级子块,可以从中可以从中恢复线性2-RNN的参数。在综合性和现实世界数据的仿真研究中评估了所提出的学习算法的性能。
translated by 谷歌翻译
在过去的几年中,有监督的学习(SL)已确立了自己的最新数据驱动湍流建模。在SL范式中,基于数据集对模型进行了训练,该数据集通常通过应用相应的滤波器函数来从高保真解决方案中计算出先验的模型,该函数将已分离的和未分辨的流量尺度分开。对于隐式过滤的大涡模拟(LES),此方法是不可行的,因为在这里,使用的离散化本身是隐式滤波器函数。因此,通常不知道确切的滤波器形式,因此,即使有完整的解决方案可用,也无法计算相应的闭合项。强化学习(RL)范式可用于避免通过先前获得的培训数据集训练,而是通过直接与动态LES环境本身进行交互来避免这种不一致。这允许通过设计将潜在复杂的隐式LES过滤器纳入训练过程中。在这项工作中,我们应用了一个增强学习框架,以找到最佳的涡流粘度,以隐式过滤强制均匀的各向同性湍流的大型涡流模拟。为此,我们将基于卷积神经网络的策略网络制定湍流建模的任务作为RL任务,该杂志神经网络仅基于局部流量状态在时空中动态地适应LES中的涡流效率。我们证明,受过训练的模型可以提供长期稳定的模拟,并且在准确性方面,它们的表现优于建立的分析模型。此外,这些模型可以很好地推广到其他决议和离散化。因此,我们证明RL可以为一致,准确和稳定的湍流建模提供一个框架,尤其是对于隐式过滤的LE。
translated by 谷歌翻译
强化学习(RL)旨在通过与环境的互动来找到最佳政策。因此,学习复杂行为需要大量的样本,这在实践中可能是持久的。然而,而不是系统地推理和积极选择信息样本,用于本地搜索的政策梯度通常从随机扰动获得。这些随机样品产生高方差估计,因此在样本复杂性方面是次优。积极选择内容性样本是贝叶斯优化的核心,它构成了过去样本的目标的概率替代物,以推理信息的后来的随后。在本文中,我们建议加入两个世界。我们利用目标函数的概率模型及其梯度开发算法。基于该模型,该算法决定查询嘈杂的零顺序oracle以提高梯度估计。生成的算法是一种新型策略搜索方法,我们与现有的黑盒算法进行比较。比较揭示了改进的样本复杂性和对合成目标的广泛实证评估的差异降低。此外,我们突出了主动抽样对流行的RL基准测试的好处。
translated by 谷歌翻译
参数适应性,即根据面临的问题自动调整算法的超参数的能力,是应用于数值优化的进化计算的主要趋势之一。多年来,已经提出了一些手工制作的适应政策来解决这个问题,但到目前为止,在应用机器学习以学习此类政策时,只有很少的尝试。在这里,我们介绍了一个通用框架,用于基于最新的增强学习算法在连续域元启发术中进行参数适应。我们证明了该框架在两种算法上的适用性,即协方差矩阵适应性进化策略(CMA-ES)和差异演化(DE),我们分别学习,我们分别学习了对阶梯大小(CMA-ES),CMA-ES的适应性策略,以及比例因子和交叉率(DE)。我们在不同维度的一组46个基准函数上训练这些策略,在两个设置中具有各种策略的投入:每个功能的一个策略,以及所有功能的全局策略。将分别与累积的阶梯尺寸适应(CSA)策略和两个众所周知的自适应DE变体(IDE和JDE)进行了比较,我们的政策能够在大多数情况下产生竞争成果,尤其是在DE的情况下。
translated by 谷歌翻译
Policies produced by deep reinforcement learning are typically characterised by their learning curves, but they remain poorly understood in many other respects. ReLU-based policies result in a partitioning of the input space into piecewise linear regions. We seek to understand how observed region counts and their densities evolve during deep reinforcement learning using empirical results that span a range of continuous control tasks and policy network dimensions. Intuitively, we may expect that during training, the region density increases in the areas that are frequently visited by the policy, thereby affording fine-grained control. We use recent theoretical and empirical results for the linear regions induced by neural networks in supervised learning settings for grounding and comparison of our results. Empirically, we find that the region density increases only moderately throughout training, as measured along fixed trajectories coming from the final policy. However, the trajectories themselves also increase in length during training, and thus the region densities decrease as seen from the perspective of the current trajectory. Our findings suggest that the complexity of deep reinforcement learning policies does not principally emerge from a significant growth in the complexity of functions observed on-and-around trajectories of the policy.
translated by 谷歌翻译
我们介绍了Netket的版本3,机器学习工具箱适用于许多身体量子物理学。Netket围绕神经网络量子状态构建,并为其评估和优化提供有效的算法。这个新版本是基于JAX的顶部,一个用于Python编程语言的可差分编程和加速的线性代数框架。最重要的新功能是使用机器学习框架的简明符号来定义纯Python代码中的任意神经网络ANS \“凝固的可能性,这允许立即编译以及渐变的隐式生成自动化。Netket 3还带来了GPU和TPU加速器的支持,对离散对称组的高级支持,块以缩放多程度的自由度,Quantum动态应用程序的驱动程序,以及改进的模块化,允许用户仅使用部分工具箱是他们自己代码的基础。
translated by 谷歌翻译