在各种现实世界应用中,组合优化问题作为混合整数线性程序(MILP)无处不在。规范的分支和结合算法通过构建越来越约束的子问题的搜索树来寻求精确解决MILP。实际上,其解决时间性能取决于启发式方法,例如选择下一个变量来约束(“分支”)。最近,机器学习(ML)已成为分支的有希望的范式。但是,先前的工作一直在努力应用强化学习(RL),理由是稀疏的奖励,艰难的探索和部分可观察性是重大挑战。取而代之的是,领先的ML方法论通过模仿学习(IL)近似高质量的手工启发式方法,这排除了新型政策的发现并需要昂贵的数据标签。在这项工作中,我们提出了复古分支。一种简单而有效的分支RL方法。通过回顾性将搜索树解构为子树中包含的多个路径,我们使代理能够从更短的轨迹中学习具有更可预测的下一步状态。在对四个组合任务的实验中,我们的方法可以在没有任何专家指导或预培训的情况下学习分支。我们的表现优于当前最新的RL分支算法,比最佳IL方法在MILPS上具有500个约束和1000个变量的最佳性能的20%以内,并验证了我们的回顾性构建轨迹对于实现的必要这些结果。
translated by 谷歌翻译
分支机构是一种用于组合优化的系统枚举方法,在该方法中,性能高度依赖于可变选择策略。最先进的手工启发式策略的推理时间相对较慢,而当前的机器学习方法需要大量的标记数据。我们提出了一种新方法,以根据使用强化学习(RL)范式来解决组合优化中的数据标记和推理潜伏期问题。我们使用模仿学习来引导RL代理,然后使用近端策略优化(PPO)进一步探索全球最佳动作。然后,一个值网络用于运行蒙特卡洛树搜索(MCT)以增强策略网络。我们评估了我们在四个不同类别的组合优化问题上的方法的性能,并表明我们的方法与最先进的机器学习和基于启发式方法的方法相比表现强劲。
translated by 谷歌翻译
符合使用机器学习的不断增长的趋势,帮助解决组合优化问题,一个有希望的想法是通过使用学习的策略来改善混合整数编程(MIP)分支和绑定树内的节点选择。以前使用模仿学习的工作指示通过学习自适应节点搜索顺序来获取节点选择策略的可行性。相比之下,我们的模仿学习策略仅专注于学习节点的孩子中的哪一个选择。我们介绍了一个脱机方法,用于在两个设置中学习这样的策略:一个通过致力于修剪节点的启发式;一个是从叶子精确和背溯以保证找到最佳整数解决方案的备用。前一个设置对应于困扰期间的儿童选择器,而后者则类似于潜水启发式。我们在热情和确切的设置中将策略应用于流行的开源求解器SCIP。五个MIP数据集的经验结果表明,我们的节点选择策略比文献中最先进的先例更快地导致解决方案。虽然我们在精确解决方案的时间内没有击败高度优化的SCIP状态基准节点选择器,但如果预测模型的准确性足够,我们的启发式政策比所有基线都具有始终如一的最佳最优性差距。此外,结果还表明,当应用时间限制时,我们的启发式方法发现比测试大多数问题中所有基线的更好的解决方案。我们通过表明学习的政策模仿了SCIP基线来解释结果,但没有后者早期的暴跌中止。我们的建议是,尽管对文献的清晰改进,但这种MIP儿童选择器在更广泛的方法中更好地使用MIP分支和束缚树决策。
translated by 谷歌翻译
This paper surveys the recent attempts, both from the machine learning and operations research communities, at leveraging machine learning to solve combinatorial optimization problems. Given the hard nature of these problems, state-of-the-art algorithms rely on handcrafted heuristics for making decisions that are otherwise too expensive to compute or mathematically not well defined. Thus, machine learning looks like a natural candidate to make such decisions in a more principled and optimized way. We advocate for pushing further the integration of machine learning and combinatorial optimization and detail a methodology to do so. A main point of the paper is seeing generic optimization problems as data points and inquiring what is the relevant distribution of problems to use for learning on a given task.
translated by 谷歌翻译
在分支机构和结合中得出良好的可变选择策略对于现代混合编程(MIP)求解器的效率至关重要。通过在先前的解决方案过程中收集的MIP分支数据,学习分支方法最近变得比启发式方法更好。由于分支机构自然是一项顺序决策任务,因此应该学会优化整个MIP求解过程的实用性,而不是在每个步骤上都是近视。在这项工作中,我们将学习作为离线增强学习(RL)问题进行分支,并提出了一种长期视线的混合搜索方案来构建离线MIP数据集,该数据集对分支决策的长期实用程序。在政策培训阶段,我们部署了基于排名的奖励分配计划,以将有希望的样本与长期或短期视图区分开,并通过离线政策学习训练名为分支排名的分支模型。合成MIP基准和现实世界任务的实验表明,与广泛使用的启发式方法和基于先进的学习分支模型相比,分支rankink更有效,更健壮,并且可以更好地概括为MIP实例的大型MIP实例。
translated by 谷歌翻译
组合优化是运营研究和计算机科学领域的一个公认领域。直到最近,它的方法一直集中在孤立地解决问题实例,而忽略了它们通常源于实践中的相关数据分布。但是,近年来,人们对使用机器学习,尤其是图形神经网络(GNN)的兴趣激增,作为组合任务的关键构件,直接作为求解器或通过增强确切的求解器。GNN的电感偏差有效地编码了组合和关系输入,因为它们对排列和对输入稀疏性的意识的不变性。本文介绍了对这个新兴领域的最新主要进步的概念回顾,旨在优化和机器学习研究人员。
translated by 谷歌翻译
回溯搜索算法通常用于解决约束满足问题(CSP)。回溯搜索的效率在很大程度上取决于可变排序启发式。目前,最常用的启发式是根据专家知识进行手工制作的。在本文中,我们提出了一种基于深度的加强学习方法,可以自动发现新的变量订购启发式,更好地适用于给定类CSP实例。我们显示,直接优化搜索成本很难用于自动启动,并建议优化在搜索树中到达叶节点的预期成本。为了捕获变量和约束之间的复杂关系,我们设计基于图形神经网络的表示方案,可以处理具有不同大小和约束的CSP实例。随机CSP实例上的实验结果表明,学习的政策在最小化搜索树大小的方面优于古典手工制作的启发式,并且可以有效地推广到比训练中使用的实例。
translated by 谷歌翻译
强化学习(RL)是人工智能中的核心问题。这个问题包括定义可以通过与环境交互学习最佳行为的人工代理 - 其中,在代理试图最大化的奖励信号的奖励信号中定义最佳行为。奖励机(RMS)提供了一种基于Automate的基于自动机的表示,该奖励功能使RL代理能够将RL问题分解为可以通过禁止策略学习有效地学习的结构化子问题。在这里,我们表明可以从经验中学习RMS,而不是由用户指定,并且可以使用所产生的问题分解来有效地解决部分可观察的RL问题。我们将学习RMS的任务作为离散优化问题构成,其中目标是找到将问题分解为一组子问题的RM,使得其最佳记忆策略的组合是原始问题的最佳策略。我们展示了这种方法在三个部分可观察的域中的有效性,在那里它显着优于A3C,PPO和宏碁,并讨论其优点,限制和更广泛的潜力。
translated by 谷歌翻译
Monte Carlo Tree Search (MCTS) is a recently proposed search method that combines the precision of tree search with the generality of random sampling. It has received considerable interest due to its spectacular success in the difficult problem of computer Go, but has also proved beneficial in a range of other domains. This paper is a survey of the literature to date, intended to provide a snapshot of the state of the art after the first five years of MCTS research. We outline the core algorithm's derivation, impart some structure on the many variations and enhancements that have been proposed, and summarise the results from the key game and non-game domains to which MCTS methods have been applied. A number of open research questions indicate that the field is ripe for future work.
translated by 谷歌翻译
强化学习和最近的深度增强学习是解决如Markov决策过程建模的顺序决策问题的流行方法。问题和选择算法和超参数的RL建模需要仔细考虑,因为不同的配置可能需要完全不同的性能。这些考虑因素主要是RL专家的任务;然而,RL在研究人员和系统设计师不是RL专家的其他领域中逐渐变得流行。此外,许多建模决策,例如定义状态和动作空间,批次的大小和批量更新的频率以及时间戳的数量通常是手动进行的。由于这些原因,RL框架的自动化不同组成部分具有重要意义,近年来它引起了很多关注。自动RL提供了一个框架,其中RL的不同组件包括MDP建模,算法选择和超参数优化是自动建模和定义的。在本文中,我们探讨了可以在自动化RL中使用的文献和目前的工作。此外,我们讨论了Autorl中的挑战,打开问题和研究方向。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
A long-standing challenge in artificial intelligence is lifelong learning. In lifelong learning, many tasks are presented in sequence and learners must efficiently transfer knowledge between tasks while avoiding catastrophic forgetting over long lifetimes. On these problems, policy reuse and other multi-policy reinforcement learning techniques can learn many tasks. However, they can generate many temporary or permanent policies, resulting in memory issues. Consequently, there is a need for lifetime-scalable methods that continually refine a policy library of a pre-defined size. This paper presents a first approach to lifetime-scalable policy reuse. To pre-select the number of policies, a notion of task capacity, the maximal number of tasks that a policy can accurately solve, is proposed. To evaluate lifetime policy reuse using this method, two state-of-the-art single-actor base-learners are compared: 1) a value-based reinforcement learner, Deep Q-Network (DQN) or Deep Recurrent Q-Network (DRQN); and 2) an actor-critic reinforcement learner, Proximal Policy Optimisation (PPO) with or without Long Short-Term Memory layer. By selecting the number of policies based on task capacity, D(R)QN achieves near-optimal performance with 6 policies in a 27-task MDP domain and 9 policies in an 18-task POMDP domain; with fewer policies, catastrophic forgetting and negative transfer are observed. Due to slow, monotonic improvement, PPO requires fewer policies, 1 policy for the 27-task domain and 4 policies for the 18-task domain, but it learns the tasks with lower accuracy than D(R)QN. These findings validate lifetime-scalable policy reuse and suggest using D(R)QN for larger and PPO for smaller library sizes.
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
在混合整数线性编程(MIP)中,A(强)后门是实例的整数变量的“小”子集,具有以下属性:在分支和结合过程中,可以通过仅通过分支来求解该实例到全局最优性。在后门中的变量上。为广泛使用的MIP基准集或特定问题构建预计的后门数据集,家庭可以在MIP的新结构属性上引起新的问题,或者解释为什么在理论上很难在实践中有效解决问题的问题。现有用于查找后门的算法依赖于以各种方式对候选变量子集进行采样,这种方法证明了MIPLIB2003和MIPLIB2010的某些实例的后门存在。但是,由于勘探和剥削之间的不平衡,这些算法在任务中始终取得成功。我们建议BAMCTS,这是一个蒙特卡洛树搜索框架,用于寻找MIPS的后门。广泛的算法工程,与传统MIP概念的杂交以及与CPLEX求解器的密切集成使我们的方法能够超过MIPLIB2017实例的基础线,从而更频繁,更有效地找到后门。
translated by 谷歌翻译
实际应用程序中的车辆路由问题(VRP)通常会带有各种限制,因此为精确的解决方案方法或启发式搜索方法带来了其他计算挑战。从样本数据中学习启发式移动模式的最新想法已变得越来越有希望减少解决方案发展成本。但是,使用基于学习的方法来解决更多类型的受限VRP仍然是一个挑战。困难在于在寻找最佳解决方案时控制约束违规。为了克服这一挑战,我们提出了一种基于加强学习的方法,通过纳入Lagrangian放松技术并使用受限的策略优化来解决软件限制的VRP。我们将该方法应用于三种常见类型的VRP,旅行推销员问题与时间窗口(TSPTW),电容性VRP(CVRP)和带有时间窗口(CVRPTW)的电容VRP,以显示所提出方法的普遍性。在与现有的基于RL的方法和开源启发式求解器进行比较之后,我们展示了其在旅行距离,违规距离和推理速度方面良好平衡的解决方案方面的竞争性能。
translated by 谷歌翻译
深度强化学习(RL)导致了许多最近和开创性的进步。但是,这些进步通常以培训的基础体系结构的规模增加以及用于训练它们的RL算法的复杂性提高,而均以增加规模的成本。这些增长反过来又使研究人员更难迅速原型新想法或复制已发表的RL算法。为了解决这些问题,这项工作描述了ACME,这是一个用于构建新型RL算法的框架,这些框架是专门设计的,用于启用使用简单的模块化组件构建的代理,这些组件可以在各种执行范围内使用。尽管ACME的主要目标是为算法开发提供一个框架,但第二个目标是提供重要或最先进算法的简单参考实现。这些实现既是对我们的设计决策的验证,也是对RL研究中可重复性的重要贡献。在这项工作中,我们描述了ACME内部做出的主要设计决策,并提供了有关如何使用其组件来实施各种算法的进一步详细信息。我们的实验为许多常见和最先进的算法提供了基准,并显示了如何为更大且更复杂的环境扩展这些算法。这突出了ACME的主要优点之一,即它可用于实现大型,分布式的RL算法,这些算法可以以较大的尺度运行,同时仍保持该实现的固有可读性。这项工作提出了第二篇文章的版本,恰好与模块化的增加相吻合,对离线,模仿和从演示算法学习以及作为ACME的一部分实现的各种新代理。
translated by 谷歌翻译
表达性和计算便宜的两分图神经网络(GNN)已被证明是基于深度学习的混合成分线性程序(MILP)求解器的重要组成部分。最近的工作证明了此类GNN在分支结合(B&B)求解器中取代分支(可变选择)启发式方面的有效性。这些GNN经过训练,离线和集合,以模仿一个非常好但计算昂贵的分支启发式,强大的分支。鉴于B&B会导致子隔间树,我们问(a)目标启发式启发式在B&B树的邻近节点之间是否存在很强的依赖性,并且(b)如果是这样,我们是否可以将它们合并到我们的培训程序。具体来说,我们发现,有了强大的分支启发式,孩子节点的最佳选择通常是父母的第二好的选择。我们将其称为“回顾”现象。令人惊讶的是,Gasse等人的典型分支GNN。 (2019年)经常错过这个简单的“答案”。为了通过将回顾现象纳入GNN来更紧密地模仿目标行为,我们提出了两种方法:(a)标准跨凝性损失函数的目标平滑,(b)添加父级(PAT)target(PAT)回顾量学期。最后,我们提出了一个模型选择框架,以结合更难构建的目标,例如在最终模型中解决时间。通过对标准基准实例进行广泛的实验,我们表明我们的提案导致B&B树大小的22%减少,并且在解决时间的解决方案中提高了15%。
translated by 谷歌翻译
机器学习算法中多个超参数的最佳设置是发出大多数可用数据的关键。为此目的,已经提出了几种方法,例如进化策略,随机搜索,贝叶斯优化和启发式拇指规则。在钢筋学习(RL)中,学习代理在与其环境交互时收集的数据的信息内容严重依赖于许多超参数的设置。因此,RL算法的用户必须依赖于基于搜索的优化方法,例如网格搜索或Nelder-Mead单简单算法,这对于大多数R1任务来说是非常效率的,显着减慢学习曲线和离开用户的速度有目的地偏见数据收集的负担。在这项工作中,为了使RL算法更加用户独立,提出了一种使用贝叶斯优化的自主超参数设置的新方法。来自过去剧集和不同的超参数值的数据通过执行行为克隆在元学习水平上使用,这有助于提高最大化获取功能的加强学习变体的有效性。此外,通过紧密地整合在加强学习代理设计中的贝叶斯优化,还减少了收敛到给定任务的最佳策略所需的状态转换的数量。与其他手动调整和基于优化的方法相比,计算实验显示了有希望的结果,这突出了改变算法超级参数来增加所生成数据的信息内容的好处。
translated by 谷歌翻译
The design of good heuristics or approximation algorithms for NP-hard combinatorial optimization problems often requires significant specialized knowledge and trial-and-error. Can we automate this challenging, tedious process, and learn the algorithms instead? In many real-world applications, it is typically the case that the same optimization problem is solved again and again on a regular basis, maintaining the same problem structure but differing in the data. This provides an opportunity for learning heuristic algorithms that exploit the structure of such recurring problems. In this paper, we propose a unique combination of reinforcement learning and graph embedding to address this challenge. The learned greedy policy behaves like a meta-algorithm that incrementally constructs a solution, and the action is determined by the output of a graph embedding network capturing the current state of the solution. We show that our framework can be applied to a diverse range of optimization problems over graphs, and learns effective algorithms for the Minimum Vertex Cover, Maximum Cut and Traveling Salesman problems.
translated by 谷歌翻译
文本冒险游戏由于其组合大的动作空间和稀疏奖励而导致加强学习方法具有独特的挑战。这两个因素的相互作用尤为苛刻,因为大型动作空间需要广泛的探索,而稀疏奖励提供有限的反馈。这项工作提出使用多级方法来解决探索 - 与利用困境,该方法明确地解除了每一集中的这两种策略。我们的算法称为Exploit-Dear-Descore(XTX),使用剥削策略开始每个剧集,该策略是从过去的一组有希望的轨迹开始,然后切换到旨在发现导致未经看不见状态空间的新动作的探索政策。该政策分解允许我们将全球决策结合在该空间中返回基于好奇的本地探索的全球决策,这是由人类可能接近这些游戏的情况。我们的方法在杰里科基准(Hausknecht等人,2020)中,在杰里科基准(Hausknecht等人,2020)中,在确定性和随机设置的比赛中显着优于27%和11%的平均正常化分数。在Zork1的游戏中,特别是,XTX获得103的得分,超过先前方法的2倍改善,并且在游戏中推过已经困扰先前的方法的游戏中的几个已知的瓶颈。
translated by 谷歌翻译