智能论文笔记

Deep Reinforcement Learning for Exact Combinatorial Optimization: Learning to Branch

Tianyu Zhang , Amin Banitalebi-Dehkordi , Yong Zhang

分类：机器学习 | 人工智能 | 机器人

2022-06-14

分支机构是一种用于组合优化的系统枚举方法，在该方法中，性能高度依赖于可变选择策略。最先进的手工启发式策略的推理时间相对较慢，而当前的机器学习方法需要大量的标记数据。我们提出了一种新方法，以根据使用强化学习（RL）范式来解决组合优化中的数据标记和推理潜伏期问题。我们使用模仿学习来引导RL代理，然后使用近端策略优化（PPO）进一步探索全球最佳动作。然后，一个值网络用于运行蒙特卡洛树搜索（MCT）以增强策略网络。我们评估了我们在四个不同类别的组合优化问题上的方法的性能，并表明我们的方法与最先进的机器学习和基于启发式方法的方法相比表现强劲。

translated by 谷歌翻译

Reinforcement Learning for Branch-and-Bound Optimisation using Retrospective Trajectories

Christopher W. F. Parsonson , Alexandre Laterre , Thomas D. Barrett

分类：机器学习

2022-05-28

在各种现实世界应用中，组合优化问题作为混合整数线性程序（MILP）无处不在。规范的分支和结合算法通过构建越来越约束的子问题的搜索树来寻求精确解决MILP。实际上，其解决时间性能取决于启发式方法，例如选择下一个变量来约束（“分支”）。最近，机器学习（ML）已成为分支的有希望的范式。但是，先前的工作一直在努力应用强化学习（RL），理由是稀疏的奖励，艰难的探索和部分可观察性是重大挑战。取而代之的是，领先的ML方法论通过模仿学习（IL）近似高质量的手工启发式方法，这排除了新型政策的发现并需要昂贵的数据标签。在这项工作中，我们提出了复古分支。一种简单而有效的分支RL方法。通过回顾性将搜索树解构为子树中包含的多个路径，我们使代理能够从更短的轨迹中学习具有更可预测的下一步状态。在对四个组合任务的实验中，我们的方法可以在没有任何专家指导或预培训的情况下学习分支。我们的表现优于当前最新的RL分支算法，比最佳IL方法在MILPS上具有500个约束和1000个变量的最佳性能的20％以内，并验证了我们的回顾性构建轨迹对于实现的必要这些结果。

translated by 谷歌翻译

Machine Learning for Combinatorial Optimization: a Methodological Tour d'Horizon

Yoshua Bengio , Andrea Lodi , Antoine Prouvost

分类：

2018-11-15

This paper surveys the recent attempts, both from the machine learning and operations research communities, at leveraging machine learning to solve combinatorial optimization problems. Given the hard nature of these problems, state-of-the-art algorithms rely on handcrafted heuristics for making decisions that are otherwise too expensive to compute or mathematically not well defined. Thus, machine learning looks like a natural candidate to make such decisions in a more principled and optimized way. We advocate for pushing further the integration of machine learning and combinatorial optimization and detail a methodology to do so. A main point of the paper is seeing generic optimization problems as data points and inquiring what is the relevant distribution of problems to use for learning on a given task.

translated by 谷歌翻译

Branch Ranking for Efficient Mixed-Integer Programming via Offline Ranking-based Policy Learning

Zeren Huang , Wenhao Chen , Weinan Zhang , Chuhan Shi , Furui Liu , Hui-Ling Zhen , Mingxuan Yuan , Jianye Hao , Yong Yu , Jun Wang

分类：机器学习 | 人工智能

2022-07-26

在分支机构和结合中得出良好的可变选择策略对于现代混合编程（MIP）求解器的效率至关重要。通过在先前的解决方案过程中收集的MIP分支数据，学习分支方法最近变得比启发式方法更好。由于分支机构自然是一项顺序决策任务，因此应该学会优化整个MIP求解过程的实用性，而不是在每个步骤上都是近视。在这项工作中，我们将学习作为离线增强学习（RL）问题进行分支，并提出了一种长期视线的混合搜索方案来构建离线MIP数据集，该数据集对分支决策的长期实用程序。在政策培训阶段，我们部署了基于排名的奖励分配计划，以将有希望的样本与长期或短期视图区分开，并通过离线政策学习训练名为分支排名的分支模型。合成MIP基准和现实世界任务的实验表明，与广泛使用的启发式方法和基于先进的学习分支模型相比，分支rankink更有效，更健壮，并且可以更好地概括为MIP实例的大型MIP实例。

translated by 谷歌翻译

A Study of Learning Search Approximation in Mixed Integer Branch and Bound: Node Selection in SCIP

Kaan Yilmaz , Neil Yorke-Smith

分类：神经与进化计算

2020-07-08

符合使用机器学习的不断增长的趋势，帮助解决组合优化问题，一个有希望的想法是通过使用学习的策略来改善混合整数编程（MIP）分支和绑定树内的节点选择。以前使用模仿学习的工作指示通过学习自适应节点搜索顺序来获取节点选择策略的可行性。相比之下，我们的模仿学习策略仅专注于学习节点的孩子中的哪一个选择。我们介绍了一个脱机方法，用于在两个设置中学习这样的策略：一个通过致力于修剪节点的启发式;一个是从叶子精确和背溯以保证找到最佳整数解决方案的备用。前一个设置对应于困扰期间的儿童选择器，而后者则类似于潜水启发式。我们在热情和确切的设置中将策略应用于流行的开源求解器SCIP。五个MIP数据集的经验结果表明，我们的节点选择策略比文献中最先进的先例更快地导致解决方案。虽然我们在精确解决方案的时间内没有击败高度优化的SCIP状态基准节点选择器，但如果预测模型的准确性足够，我们的启发式政策比所有基线都具有始终如一的最佳最优性差距。此外，结果还表明，当应用时间限制时，我们的启发式方法发现比测试大多数问题中所有基线的更好的解决方案。我们通过表明学习的政策模仿了SCIP基线来解释结果，但没有后者早期的暴跌中止。我们的建议是，尽管对文献的清晰改进，但这种MIP儿童选择器在更广泛的方法中更好地使用MIP分支和束缚树决策。

translated by 谷歌翻译

Combinatorial optimization and reasoning with graph neural networks

Quentin Cappart , Didier Chételat , Elias Khalil , Andrea Lodi , Christopher Morris , Petar Veličković

分类：机器学习 | 神经与进化计算 | (统计)机器学习

2021-02-18

组合优化是运营研究和计算机科学领域的一个公认领域。直到最近，它的方法一直集中在孤立地解决问题实例，而忽略了它们通常源于实践中的相关数据分布。但是，近年来，人们对使用机器学习，尤其是图形神经网络（GNN）的兴趣激增，作为组合任务的关键构件，直接作为求解器或通过增强确切的求解器。GNN的电感偏差有效地编码了组合和关系输入，因为它们对排列和对输入稀疏性的意识的不变性。本文介绍了对这个新兴领域的最新主要进步的概念回顾，旨在优化和机器学习研究人员。

translated by 谷歌翻译

Learning to Search in Local Branching

Defeng Liu , Matteo Fischetti , Andrea Lodi

分类：人工智能 | 机器学习

2021-12-03

为混合整数线性编程问题（MILLS）找到高质量解决方案对于许多实际应用非常重要。在这方面，提出了精炼启发式局部分支（LB）来生产改进解决方案，并且对MILP中的本地搜索方法的开发产生了高度影响力。该算法迭代地探索由所谓的本地分支约束定义的一系列解决方案邻域，即，限制与参考解决方案的距离的线性不等式。对于LB算法，邻域大小的选择对于性能至关重要。虽然它是由原始LB方案中的保守值初始化的，但我们的新观察是最佳规模强烈依赖于特定的MILP实例。在这项工作中，我们调查搜索附近的大小与底层LB算法的行为之间的关系，我们设计了一种基于倾斜的框架，用于引导LB启发式的邻居搜索。该框架由两阶段战略组成。对于第一阶段，训练缩放的回归模型以通过回归任务在第一迭代中预测LB邻域的大小。在第二阶段，我们利用加强学习和设计加强的邻域搜索策略，以动态调整随后的迭代处的大小。我们计算地表明，确实可以学习邻域大小，导致改进的性能，并且整个算法在实例大小相对于实例大小概括，并且显着地跨越实例概括。

translated by 谷歌翻译

Finding Backdoors to Integer Programs: A Monte Carlo Tree Search Framework

Elias B. Khalil , Pashootan Vaezipoor , Bistra Dilkina

分类：人工智能

2021-10-16

在混合整数线性编程（MIP）中，A（强）后门是实例的整数变量的“小”子集，具有以下属性：在分支和结合过程中，可以通过仅通过分支来求解该实例到全局最优性。在后门中的变量上。为广泛使用的MIP基准集或特定问题构建预计的后门数据集，家庭可以在MIP的新结构属性上引起新的问题，或者解释为什么在理论上很难在实践中有效解决问题的问题。现有用于查找后门的算法依赖于以各种方式对候选变量子集进行采样，这种方法证明了MIPLIB2003和MIPLIB2010的某些实例的后门存在。但是，由于勘探和剥削之间的不平衡，这些算法在任务中始终取得成功。我们建议BAMCTS，这是一个蒙特卡洛树搜索框架，用于寻找MIPS的后门。广泛的算法工程，与传统MIP概念的杂交以及与CPLEX求解器的密切集成使我们的方法能够超过MIPLIB2017实例的基础线，从而更频繁，更有效地找到后门。

translated by 谷歌翻译

Lookback for Learning to Branch

Prateek Gupta , Elias B. Khalil , Didier Chetélat , Maxime Gasse , Yoshua Bengio , Andrea Lodi , M. Pawan Kumar

分类：机器学习 | (统计)机器学习

2022-06-30

表达性和计算便宜的两分图神经网络（GNN）已被证明是基于深度学习的混合成分线性程序（MILP）求解器的重要组成部分。最近的工作证明了此类GNN在分支结合（B＆B）求解器中取代分支（可变选择）启发式方面的有效性。这些GNN经过训练，离线和集合，以模仿一个非常好但计算昂贵的分支启发式，强大的分支。鉴于B＆B会导致子隔间树，我们问（a）目标启发式启发式在B＆B树的邻近节点之间是否存在很强的依赖性，并且（b）如果是这样，我们是否可以将它们合并到我们的培训程序。具体来说，我们发现，有了强大的分支启发式，孩子节点的最佳选择通常是父母的第二好的选择。我们将其称为“回顾”现象。令人惊讶的是，Gasse等人的典型分支GNN。（2019年）经常错过这个简单的“答案”。为了通过将回顾现象纳入GNN来更紧密地模仿目标行为，我们提出了两种方法：（a）标准跨凝性损失函数的目标平滑，（b）添加父级（PAT）target（PAT）回顾量学期。最后，我们提出了一个模型选择框架，以结合更难构建的目标，例如在最终模型中解决时间。通过对标准基准实例进行广泛的实验，我们表明我们的提案导致B＆B树大小的22％减少，并且在解决时间的解决方案中提高了15％。

translated by 谷歌翻译

Solving the vehicle routing problem with deep reinforcement learning

Simone Foa , Corrado Coppola , Giorgio Grani , Laura Palagi

分类：人工智能

2022-07-30

最近，增强学习方法（RL）在NP-HARD组合优化问题上的应用已成为一个流行的话题。这本质上是由于传统组合算法的性质，通常是基于试验过程。 RL旨在自动化此过程。在这方面，本文着重于RL在车辆路由问题（VRP）中的应用，这是属于NP-HARD问题的著名组合问题。首先，在这项工作中，该问题被建模为马尔可夫决策过程（MDP），然后应用PPO方法（属于Actor-Critic-Critic cornforcion学习方法类别）。在第二阶段，已经建立了演员和评论家背后的神经建筑，选择采用基于卷积神经网络的神经建筑，包括演员和评论家。这种选择有效地解决了不同大小的问题。在各种实例上进行的实验表明该算法具有良好的概括能力，并且可以在短时间内达到良好的解决方案。提出的算法与最先进的求解器或最先进的求解器之间的比较表明，后者仍然优于强化学习算法。但是，有一些未来的研究观点，旨在升级提出的算法的当前性能。

translated by 谷歌翻译

Learning Variable Ordering Heuristics for Solving Constraint Satisfaction Problems

Wen Song , Zhiguang Cao , Jie Zhang , Andrew Lim

分类：人工智能 | 机器学习

2019-12-23

回溯搜索算法通常用于解决约束满足问题（CSP）。回溯搜索的效率在很大程度上取决于可变排序启发式。目前，最常用的启发式是根据专家知识进行手工制作的。在本文中，我们提出了一种基于深度的加强学习方法，可以自动发现新的变量订购启发式，更好地适用于给定类CSP实例。我们显示，直接优化搜索成本很难用于自动启动，并建议优化在搜索树中到达叶节点的预期成本。为了捕获变量和约束之间的复杂关系，我们设计基于图形神经网络的表示方案，可以处理具有不同大小和约束的CSP实例。随机CSP实例上的实验结果表明，学习的政策在最小化搜索树大小的方面优于古典手工制作的启发式，并且可以有效地推广到比训练中使用的实例。

translated by 谷歌翻译

Learning to Solve Soft-Constrained Vehicle Routing Problems with Lagrangian Relaxation

Qiaoyue Tang , Yangzhe Kong , Lemeng Pan , Choonmeng Lee

分类：人工智能 | 机器学习

2022-07-20

实际应用程序中的车辆路由问题（VRP）通常会带有各种限制，因此为精确的解决方案方法或启发式搜索方法带来了其他计算挑战。从样本数据中学习启发式移动模式的最新想法已变得越来越有希望减少解决方案发展成本。但是，使用基于学习的方法来解决更多类型的受限VRP仍然是一个挑战。困难在于在寻找最佳解决方案时控制约束违规。为了克服这一挑战，我们提出了一种基于加强学习的方法，通过纳入Lagrangian放松技术并使用受限的策略优化来解决软件限制的VRP。我们将该方法应用于三种常见类型的VRP，旅行推销员问题与时间窗口（TSPTW），电容性VRP（CVRP）和带有时间窗口（CVRPTW）的电容VRP，以显示所提出方法的普遍性。在与现有的基于RL的方法和开源启发式求解器进行比较之后，我们展示了其在旅行距离，违规距离和推理速度方面良好平衡的解决方案方面的竞争性能。

translated by 谷歌翻译

ML4CO: Is GCNN All You Need? Graph Convolutional Neural Networks Produce Strong Baselines For Combinatorial Optimization Problems, If Tuned and Trained Properly, on Appropriate Data

Amin Banitalebi-Dehkordi , Yong Zhang

分类：机器学习 | 人工智能 | 神经与进化计算

2021-12-22

对于组合优化（ML4CO）竞争的2021个内潜冲潮羊件机器学习是为了通过用机器学习模型替换关键启发式组件来改善最先进的组合优化求解器的目的。竞争的主要科学问题是以下内容：机器是在历史数据可用的特定问题分布时改进传统组合优化求解器的可行选择，是一种可行的选择这是因为在许多实际情况中，数据在组合优化问题的重复之间只会略微发生变化，这是机器学习模型特别强大的区域。本文总结了华为EI-ORAS团队在竞争对手的双重任务中汲取的解决方案和经验教训。我们团队的提交在最终排名中实现了第二位，距离第一点非常近距离。此外，在最终评估之前，我们的解决方案首先是持续的几周排行榜更新。我们提供从大量实验中获得的见解，并争辩说简单的图形卷积神经网络（GCNNS）可以在训练和调整正确的情况下实现最先进的结果。

translated by 谷歌翻译

Monte Carlo Tree Search: A Review of Recent Modifications and Applications

Maciej Świechowski , Konrad Godlewski , Bartosz Sawicki , Jacek Mańdziuk

分类：人工智能 | 机器学习

2021-03-08

蒙特卡洛树搜索（MCT）是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样，并存储动作的统计数据，以在每个随后的迭代中做出更有教育的选择。然而，该方法已成为组合游戏的最新技术，但是，在更复杂的游戏（例如那些具有较高的分支因素或实时系列的游戏）以及各种实用领域（例如，运输，日程安排或安全性）有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。

translated by 谷歌翻译

Learning To Cut By Looking Ahead: Cutting Plane Selection via Imitation Learning

Max B. Paulus , Giulia Zarpellon , Andreas Krause , Laurent Charlin , Chris J. Maddison

分类：机器学习 | (统计)机器学习

2022-06-27

切割平面对于解决混合企业线性问题（MILP）至关重要，因为它们促进了最佳解决方案值的界限。为了选择切割，现代求解器依靠手动设计的启发式方法来评估切割的潜在有效性。我们表明，一项贪婪的选择规则明确地寻求选择的剪裁，从而产生最佳的界限可以为切割选择提供强大的决策 - 但太贵了，无法在实践中部署。作为回应，我们提出了一种新的神经体系结构（神经曲），以模仿LookAhead专家。我们的模型优于标准基准，用于在几个合成的MILP基准上进行切割选择。使用B＆C求解器进行神经网络验证的实验进一步验证了我们的方法，并在这种情况下展示了学习方法的潜力。

translated by 谷歌翻译

Learning Reward Machines: A Study in Partially Observable Reinforcement Learning

Rodrigo Toro Icarte , Ethan Waldie , Toryn Q. Klassen , Richard Valenzano , Margarita P. Castro , Sheila A. McIlraith

分类：机器学习 | 人工智能

2021-12-17

强化学习（RL）是人工智能中的核心问题。这个问题包括定义可以通过与环境交互学习最佳行为的人工代理 - 其中，在代理试图最大化的奖励信号的奖励信号中定义最佳行为。奖励机（RMS）提供了一种基于Automate的基于自动机的表示，该奖励功能使RL代理能够将RL问题分解为可以通过禁止策略学习有效地学习的结构化子问题。在这里，我们表明可以从经验中学习RMS，而不是由用户指定，并且可以使用所产生的问题分解来有效地解决部分可观察的RL问题。我们将学习RMS的任务作为离散优化问题构成，其中目标是找到将问题分解为一组子问题的RM，使得其最佳记忆策略的组合是原始问题的最佳策略。我们展示了这种方法在三个部分可观察的域中的有效性，在那里它显着优于A3C，PPO和宏碁，并讨论其优点，限制和更广泛的潜力。

translated by 谷歌翻译

Learning Combinatorial Optimization Algorithms over Graphs

Hanjun Dai , Elias B. Khalil , Yuyu Zhang , Bistra Dilkina , Le Song

分类：

2017-04-05

The design of good heuristics or approximation algorithms for NP-hard combinatorial optimization problems often requires significant specialized knowledge and trial-and-error. Can we automate this challenging, tedious process, and learn the algorithms instead? In many real-world applications, it is typically the case that the same optimization problem is solved again and again on a regular basis, maintaining the same problem structure but differing in the data. This provides an opportunity for learning heuristic algorithms that exploit the structure of such recurring problems. In this paper, we propose a unique combination of reinforcement learning and graph embedding to address this challenge. The learned greedy policy behaves like a meta-algorithm that incrementally constructs a solution, and the action is determined by the output of a graph embedding network capturing the current state of the solution. We show that our framework can be applied to a diverse range of optimization problems over graphs, and learns effective algorithms for the Minimum Vertex Cover, Maximum Cut and Traveling Salesman problems.

translated by 谷歌翻译

Automated Reinforcement Learning: An Overview

Reza Refaei Afshar , Yingqian Zhang , Joaquin Vanschoren , Uzay Kaymak

分类：机器学习 | 人工智能

2022-01-13

强化学习和最近的深度增强学习是解决如Markov决策过程建模的顺序决策问题的流行方法。问题和选择算法和超参数的RL建模需要仔细考虑，因为不同的配置可能需要完全不同的性能。这些考虑因素主要是RL专家的任务;然而，RL在研究人员和系统设计师不是RL专家的其他领域中逐渐变得流行。此外，许多建模决策，例如定义状态和动作空间，批次的大小和批量更新的频率以及时间戳的数量通常是手动进行的。由于这些原因，RL框架的自动化不同组成部分具有重要意义，近年来它引起了很多关注。自动RL提供了一个框架，其中RL的不同组件包括MDP建模，算法选择和超参数优化是自动建模和定义的。在本文中，我们探讨了可以在自动化RL中使用的文献和目前的工作。此外，我们讨论了Autorl中的挑战，打开问题和研究方向。

translated by 谷歌翻译

Adaptive Cut Selection in Mixed-Integer Linear Programming

Mark Turner , Thorsten Koch , Felipe Serrano , Michael Winkler

分类：机器学习

2022-02-22

切割选择是所有现代混合企业线性编程求解器中使用的子例程，其目标是选择诱导最佳求解器性能的生成的切割子集。这些求解器具有数百万个参数组合，因此是参数调整的出色候选者。剪切选择评分规则通常是权重是参数的不同测量值的加权总和。我们提出了一个混合企业线性程序的参数家族，以及无限许多家庭范围的有效削减。这些切割中的一些可以在应用后直接诱导整数最佳解决方案，而另一些剪切也无法诱导整数，即使应用了无限量。我们为特定的剪切选择规则显示，对参数空间的任何有限网格搜索都将始终错过所有参数值，这些参数值选择了无限量的我们的问题。我们提出了现有图形卷积神经网络设计的变体，以适应它们以学习切割选择规则参数。我们提出了选择削减的强化学习框架，并使用Miplib 2017上的上述框架训练我们的设计。我们的框架和设计表明，自适应切割选择确实在各种实例上确实提高了性能，但是找到一个描述这样一个功能的功能规则很困难。复制所有实验的代码可在https://github.com/opt-mucca/adaptive-cutsel-milp上获得。

translated by 谷歌翻译

Reinforcement Learning Assisted Recursive QAOA

Yash J. Patel , Sofiene Jerbi , Thomas Bäck , Vedran Dunjko

分类：人工智能 | 机器学习

2022-07-13

近年来，变异量子算法（例如量子近似优化算法（QAOA））越来越受欢迎，因为它们提供了使用NISQ设备来解决硬组合优化问题的希望。但是，众所周知，在低深度，QAOA的某些位置限制限制了其性能。为了超越这些局限性，提出了QAOA的非本地变体，即递归QAOA（RQAOA），以提高近似溶液的质量。 RQAOA的研究比QAOA的研究较少，例如，对于哪种情况，它可能无法提供高质量的解决方案。但是，由于我们正在解决$ \ mathsf {np} $ - 硬问题（特别是Ising旋转模型），因此预计RQAOA确实会失败，这提出了设计更好的组合优化量子算法的问题。本着这种精神，我们识别和分析了RQAOA失败的情况，并基于此，提出了增强的学习增强的RQAOA变体（RL-RQAOA），从而改善了RQAOA。我们表明，RL-RQAOA的性能改善了RQAOA：RL-RQAOA在这些识别的实例中，RQAOA表现不佳，并且在RQAOA几乎是最佳的情况下也表现出色。我们的工作体现了增强学习与量子（启发）优化之间的潜在有益的协同作用，这是针对硬性问题的新的，甚至更好的启发式方法。

translated by 谷歌翻译