旅行销售人员问题(TSP)是一个经典的资源分配问题,用于找到完成一组任务的最佳顺序,同时最大程度地减少(或最大化)相关的目标函数。它被广泛用于机器人技术,用于诸如计划和计划之类的应用程序。在这项工作中,我们使用增强学习(RL)解决了TSP的两个目标。通常,在多目标优化问题中,相关的目标函数本质上可能是冲突的。在这种情况下,最优性是根据帕累托最优性定义的。目标空间中的这些帕累托最佳解决方案组成帕累托前部(或边境)。每个解决方案都有其权衡。我们介绍了Pareto Frontier近似网络(PA-NET),该网络为Bi-Objective旅行销售员问题(BTSP)生成了良好的Pareto前部近似值。首先,将BTSP转换为受约束的优化问题。然后,我们使用拉格朗日放松和政策梯度来训练我们的网络来解决这一受约束的问题。使用PA-NET,我们改善了现有基于RL的方法的性能。用于测量帕累托阵线最佳性的超量度量的平均改进为2.3%。同时,PA-NET的推理时间更快。最后,我们介绍了PA-NET的应用,以在机器人导航任务/覆盖范围计划中找到最佳的访问顺序。我们的代码可在项目网站上找到。
translated by 谷歌翻译
多目标定向运动问题(MO-OPS)是经典的多目标路由问题,在过去几十年中,人们一直受到很多关注。这项研究旨在通过问题分解框架解决MO-OPS,即MO-OP分解为多目标背包问题(MOKP)和旅行推销员问题(TSP)。然后,MOKP和TSP分别通过多目标进化算法(MOEA)和深钢筋学习(DRL)方法来解决。虽然MOEA模块用于选择城市,但DRL模块用于计划这些城市的哈密顿路径。这两个模块的迭代使用将人口驱动到Mo-ops的帕累托前沿。在各种类型的MO-OP实例上,将提出方法的有效性与NSGA-II和NSGA-III进行了比较。实验结果表明,我们的方法几乎在所有测试实例上表现出最佳性能,并且表现出强大的概括能力。
translated by 谷歌翻译
组合优化是运营研究和计算机科学领域的一个公认领域。直到最近,它的方法一直集中在孤立地解决问题实例,而忽略了它们通常源于实践中的相关数据分布。但是,近年来,人们对使用机器学习,尤其是图形神经网络(GNN)的兴趣激增,作为组合任务的关键构件,直接作为求解器或通过增强确切的求解器。GNN的电感偏差有效地编码了组合和关系输入,因为它们对排列和对输入稀疏性的意识的不变性。本文介绍了对这个新兴领域的最新主要进步的概念回顾,旨在优化和机器学习研究人员。
translated by 谷歌翻译
多个旅行推销员问题(MTSP)是众多现实世界应用的众所周知的NP硬性问题。特别是,这项工作涉及Minmax MTSP,其目的是最大程度地减少所有代理商之间的最大巡回演出长度。许多机器人部署需要经常重新计算潜在的大型MTSP实例,从而使计算时间和解决方案质量的自然权衡非常重要。但是,由于其计算复杂性,精确和启发式算法随着城市数量的增加而效率低下。在最新的深入学习学习(DRL)方面的鼓励下,这项工作将MTSP作为一项合作任务,并引入了Dan,Dan是一种分散的基于注意力的神经方法,旨在解决这一关键权衡。在丹中,代理商通过预测彼此的未来决策来学习完全分散的政策,以合作构建巡回演出。我们的模型依赖于变压器体系结构,并使用具有参数共享的多代理RL进行了训练,从而为代理和城市的数量提供了自然的可扩展性。我们对小型至大规模MTSP实例的实验结果($ 50至$ 1000 $的城市,$ 5 $至20美元的代理商)表明,Dan能够匹配或超越最先进的求解器,同时保持计划时间较低。特别是,在相同的计算时间预算的情况下,DAN在大规模实例(超过100个城市,超过5个代理商)上优于所有基于常规和DRL的基线,并展示了增强的代理协作。一段视频解释了我们的方法并介绍了我们的结果,请参见\ url {https://youtu.be/xi3clsdslvs}。
translated by 谷歌翻译
实际应用程序中的车辆路由问题(VRP)通常会带有各种限制,因此为精确的解决方案方法或启发式搜索方法带来了其他计算挑战。从样本数据中学习启发式移动模式的最新想法已变得越来越有希望减少解决方案发展成本。但是,使用基于学习的方法来解决更多类型的受限VRP仍然是一个挑战。困难在于在寻找最佳解决方案时控制约束违规。为了克服这一挑战,我们提出了一种基于加强学习的方法,通过纳入Lagrangian放松技术并使用受限的策略优化来解决软件限制的VRP。我们将该方法应用于三种常见类型的VRP,旅行推销员问题与时间窗口(TSPTW),电容性VRP(CVRP)和带有时间窗口(CVRPTW)的电容VRP,以显示所提出方法的普遍性。在与现有的基于RL的方法和开源启发式求解器进行比较之后,我们展示了其在旅行距离,违规距离和推理速度方面良好平衡的解决方案方面的竞争性能。
translated by 谷歌翻译
The design of good heuristics or approximation algorithms for NP-hard combinatorial optimization problems often requires significant specialized knowledge and trial-and-error. Can we automate this challenging, tedious process, and learn the algorithms instead? In many real-world applications, it is typically the case that the same optimization problem is solved again and again on a regular basis, maintaining the same problem structure but differing in the data. This provides an opportunity for learning heuristic algorithms that exploit the structure of such recurring problems. In this paper, we propose a unique combination of reinforcement learning and graph embedding to address this challenge. The learned greedy policy behaves like a meta-algorithm that incrementally constructs a solution, and the action is determined by the output of a graph embedding network capturing the current state of the solution. We show that our framework can be applied to a diverse range of optimization problems over graphs, and learns effective algorithms for the Minimum Vertex Cover, Maximum Cut and Traveling Salesman problems.
translated by 谷歌翻译
传感器节点(SNS)的部署总是在无线传感器网络(WSN)的系统性能中起决定性作用。在这项工作中,我们提出了一种实用异构WSN的最佳部署方法,该方法可以深入了解可靠性和部署成本之间的权衡。具体而言,这项工作旨在提供SNS的最佳部署,以最大程度地提高覆盖率和连接学位,同时最大程度地减少整体部署成本。此外,这项工作充分考虑了SNS的异质性(即差异化的传感范围和部署成本)和三维(3-D)部署方案。这是一个多目标优化问题,非凸,多模态和NP-HARD。为了解决它,我们开发了一种新型的基于群体的多目标优化算法,称为竞争性多目标海洋掠食者算法(CMOMPA),其性能通过与十种其他多个多目标优化的全面比较实验验证算法。计算结果表明,在收敛性和准确性方面,CMOMPA优于他人,并且在多模式多目标优化问题上表现出卓越的性能。还进行了足够的模拟来评估基于CMOMPA的最佳SNS部署方法的有效性。结果表明,优化的部署可以平衡部署成本,感知可靠性和网络可靠性之间的权衡平衡。源代码可在https://github.com/inet-wzu/cmompa上找到。
translated by 谷歌翻译
广泛研究和使用旅行推销员问题等图形问题,如旅行推销员问题,或发现最小的施泰纳树在数据工程和计算机科学中使用。通常,在现实世界应用中,图表的特征往往会随着时间的推移而变化,因此,找到问题的解决方案变得具有挑战性。许多图表问题的动态版本是运输,电信和社交网络中普遍世界问题的关键。近年来,利用深度学习技术来寻找NP-Hard图组合问题的启发式解决方案,因为这些学习的启发式可以有效地找到近最佳解决方案。但是,大多数现有的学习启发式方法都关注静态图问题。动态性质使NP-Hard图表问题更具挑战性,并且现有方法无法找到合理的解决方案。在本文中,我们提出了一种名为Cabl时间关注的新型建筑,并利用加固学习(GTA-RL)来学习基于图形的动态组合优化问题的启发式解决方案。 GTA-RL架构包括能够嵌入组合问题实例的时间特征的编码器和能够动态地关注嵌入功能的解码器,以找到给定组合问题实例的解决方案。然后,我们将架构扩展到学习HeuRistics的组合优化问题的实时版本,其中问题的所有输入特征是未知的,而是实时学习。我们针对几种最先进的基于学习的算法和最佳求解器的实验结果表明,我们的方法在动态和效率方面,在有效性和最佳求解器方面优于基于最先进的学习方法。实时图组合优化。
translated by 谷歌翻译
解决组合优化(CO)问题的传统求解器通常是由人类专家设计的。最近,人们对利用深度学习,尤其是深度强化学习的兴趣激增,自动为CO学习有效的求解器。由此产生的新范式称为神经组合优化(NCO)。但是,在经验或理论上,NCO的优势和缺点与其他方法的优势尚未得到很好的研究。在这项工作中,我们介绍了NCO求解器和替代求解器的全面比较研究。具体而言,将旅行推销员问题作为测试床问题,我们根据五个方面(即有效性,效率,稳定性,可扩展性和概括能力)评估求解器的性能。我们的结果表明,通常,NCO方法学到的求解器几乎在所有这些方面仍然没有传统求解器。前者的潜在好处将是在有足够的培训实例时,他们在小规模的问题实例上的卓越时间和能源效率。我们希望这项工作将有助于更好地理解NCO的优势和劣势,并提供全面的评估协议,以进一步对NCO进行针对其他方法的基准测试。
translated by 谷歌翻译
可以将多任务学习(MTL)范例追溯到Caruana(1997)的早期纸张中,其中表示可以使用来自多个任务的数据,其目的是在独立地学习每个任务的旨在获得更好的性能。 MTL与相互矛盾的目标的解决方案需要在它们中进行折衷,这通常超出了直线组合可以实现的。理论上原则和计算有效的策略正在寻找不受他人主导的解决方案,因为它在帕累托分析中解决了它。多任务学习环境中产生的多目标优化问题具有特定的功能,需要adhoc方法。对这些特征的分析和新的计算方法的提议代表了这项工作的重点。多目标进化算法(MOEAS)可以容易地包括优势的概念,因此可以分析。 MOEAS的主要缺点是关于功能评估的低样本效率。此缺点的关键原因是大多数进化方法不使用模型来近似于目标函数。贝叶斯优化采用基于代理模型的完全不同的方法,例如高斯过程。在本文中,输入空间中的解决方案表示为封装功能评估中包含的知识的概率分布。在这种概率分布的空间中,赋予由Wassersein距离给出的度量,可以设计一种新的算法MOEA / WST,其中模型不直接在目标函数上,而是在输入空间中的对象的中间信息空间中被映射成直方图。计算结果表明,MoEA / WST提供的样品效率和帕累托集的质量明显优于标准MoEa。
translated by 谷歌翻译
Pareto Front Learning (PFL) was recently introduced as an effective approach to obtain a mapping function from a given trade-off vector to a solution on the Pareto front, which solves the multi-objective optimization (MOO) problem. Due to the inherent trade-off between conflicting objectives, PFL offers a flexible approach in many scenarios in which the decision makers can not specify the preference of one Pareto solution over another, and must switch between them depending on the situation. However, existing PFL methods ignore the relationship between the solutions during the optimization process, which hinders the quality of the obtained front. To overcome this issue, we propose a novel PFL framework namely \ourmodel, which employs a hypernetwork to generate multiple solutions from a set of diverse trade-off preferences and enhance the quality of the Pareto front by maximizing the Hypervolume indicator defined by these solutions. The experimental results on several MOO machine learning tasks show that the proposed framework significantly outperforms the baselines in producing the trade-off Pareto front.
translated by 谷歌翻译
超参数优化构成了典型的现代机器学习工作流程的很大一部分。这是由于这样一个事实,即机器学习方法和相应的预处理步骤通常只有在正确调整超参数时就会产生最佳性能。但是在许多应用中,我们不仅有兴趣仅仅为了预测精度而优化ML管道;确定最佳配置时,必须考虑其他指标或约束,从而导致多目标优化问题。由于缺乏知识和用于多目标超参数优化的知识和容易获得的软件实现,因此通常在实践中被忽略。在这项工作中,我们向读者介绍了多个客观超参数优化的基础知识,并激励其在应用ML中的实用性。此外,我们从进化算法和贝叶斯优化的领域提供了现有优化策略的广泛调查。我们说明了MOO在几个特定ML应用中的实用性,考虑了诸如操作条件,预测时间,稀疏,公平,可解释性和鲁棒性之类的目标。
translated by 谷歌翻译
事件处理是动态和响应互联网(物联网)的基石。该领域的最近方法基于代表性状态转移(REST)原则,其允许将事件处理任务放置在遵循相同原理的任何设备上。但是,任务应在边缘设备之间正确分布,以确保公平资源利用率和保证无缝执行。本文调查了深入学习的使用,以公平分配任务。提出了一种基于关注的神经网络模型,在不同场景下产生有效的负载平衡解决方案。所提出的模型基于变压器和指针网络架构,并通过Advantage演员批评批评学习算法训练。该模型旨在缩放到事件处理任务的数量和边缘设备的数量,不需要重新调整甚至再刷新。广泛的实验结果表明,拟议的模型在许多关键绩效指标中优于传统的启发式。通用设计和所获得的结果表明,所提出的模型可能适用于几个其他负载平衡问题变化,这使得该提案是由于其可扩展性和效率而在现实世界场景中使用的有吸引力的选择。
translated by 谷歌翻译
许多现实世界优化问题,如工程最优设计,最终可以被建模为必须解决的相应多目标优化问题(MOPS),以获得近似帕累托最佳前端。基于分解(MOEA / D)的多目标进化算法被认为是解决MOP的明显有希望的方法。最近的研究表明,具有均匀重量载体的MoEA / D非常适合于普通帕累托最佳前端的拖把,但在多样性方面的性能通常会在解决带有不规则帕累托最佳方向时造成拖镜时劣化。以这种方式,通过该算法获得的解决方案集不能为决策者提供更合理的选择。为了有效地克服这一缺点,我们通过众所周知的Pascoletti-Serafini标定方法和多参考点的新策略提出了一种改进的MoA / D算法。具体地,该策略包括由等距分区和投影的技术产生的参考点的设置和调整组成。对于性能评估,将所提出的算法与现有的四个最先进的多目标进化算法进行比较,这些算法与各种类型的帕累托最优前锋和两个现实世界拖把的基准测试问题相比,包括舱口盖设计和火箭喷射器设计在工程优化中。根据实验结果,所提出的算法表现出比其他比较算法更好的分集性能。
translated by 谷歌翻译
雇用无人驾驶航空公司(无人机)吸引了日益增长的兴趣,并成为互联网(物联网)网络中的数据收集技术的最先进技术。在本文中,目的是最大限度地减少UAV-IOT系统的总能耗,我们制定了联合设计了UAV的轨迹和选择IOT网络中的群集头作为受约束的组合优化问题的问题,该问题被归类为NP-努力解决。我们提出了一种新的深度加强学习(DRL),其具有顺序模型策略,可以通过无监督方式有效地学习由UAV的轨迹设计来实现由序列到序列神经网络表示的策略。通过广泛的模拟,所获得的结果表明,与其他基线算法相比,所提出的DRL方法可以找到无人机的轨迹,这些轨迹需要更少的能量消耗,并实现近乎最佳性能。此外,仿真结果表明,我们所提出的DRL算法的训练模型具有出色的概括能力,对更大的问题尺寸而没有必要恢复模型。
translated by 谷歌翻译
由于强烈的非线性系统行为和多个竞争目标,能源系统优化问题很复杂,例如,经济增益与环境影响。此外,大量输入变量和不同的变量类型,例如,连续和分类,是现实世界应用中常见的挑战。在某些情况下,提出的最佳解决方案需要遵守与物理性质或安全关键操作条件相关的显式输入限制。本文提出了一种新的数据驱动策略,使用树集合用于对黑匣子问题的约束多目标优化,与模型或未知的基础系统动态太复杂的异构变量空间。在由合成基准和相关能源应用组成的广泛案例研究中,我们展示了与其他最先进的工具相比,所提出的算法的竞争性能和采样效率,使其成为一个有用的全能解决方案 - 世界申请有限评价预算。
translated by 谷歌翻译
在不同情况下,机器人有可能执行搜索各种应用程序。我们的工作是由人道主义助理和灾难救济(HADR)激发的,在存在冲突的标准,目标和信息的情况下,找到生命的迹象通常至关重要。我们认为,厄运搜索可以提供一个框架来利用可用信息,并为HADR等应用程序探索新信息,尤其是在时间本质上。千古搜索算法规划轨迹,使得在一个地区所花费的时间与该地区的信息量成正比,并且能够自然平衡剥削(近视搜索高信息搜索区域)和探索(访问搜索空间的所有位置以获取新的信息)。现有的Ergodic搜索算法以及其他基于信息的方法通常仅使用单个信息图考虑搜索。但是,在许多情况下,使用多个编码不同类型相关信息的多个信息图很常见。当前的厄运搜索方法没有同时的能力,也不具有平衡信息优先级的方法。这使我们提出了一个多目标的千古搜索(MOES)问题,旨在找到所谓的帕累托最佳解决方案,目的是为人类的决策者提供各种解决方案,这些解决方案在相互矛盾的标准之间进行贸易。为了有效地解决MOE,我们开发了一个称为顺序局部Ergodic搜索(SLE)的框架,该框架将MOES问题转换为“重量空间覆盖率”问题。它利用了厄隆搜索方法的最新进展以及局部优化的想法,以有效地近似帕累托最佳前沿。我们的数值结果表明,SLE的运行速度明显快于基线方法。
translated by 谷歌翻译
Many real-world continuous control problems are in the dilemma of weighing the pros and cons, multi-objective reinforcement learning (MORL) serves as a generic framework of learning control policies for different preferences over objectives. However, the existing MORL methods either rely on multiple passes of explicit search for finding the Pareto front and therefore are not sample-efficient, or utilizes a shared policy network for coarse knowledge sharing among policies. To boost the sample efficiency of MORL, we propose Q-Pensieve, a policy improvement scheme that stores a collection of Q-snapshots to jointly determine the policy update direction and thereby enables data sharing at the policy level. We show that Q-Pensieve can be naturally integrated with soft policy iteration with convergence guarantee. To substantiate this concept, we propose the technique of Q replay buffer, which stores the learned Q-networks from the past iterations, and arrive at a practical actor-critic implementation. Through extensive experiments and an ablation study, we demonstrate that with much fewer samples, the proposed algorithm can outperform the benchmark MORL methods on a variety of MORL benchmark tasks.
translated by 谷歌翻译
许多现实世界中的问题涉及多个可能相互矛盾的目标。多目标增强学习(MORL)方法已经出现了通过最大化偏好矢量加权的关节目标函数来解决这些问题。这些方法发现固定的定制策略对应于训练过程中指定的偏好向量。但是,设计约束和目标通常在现实生活中动态变化。此外,存储每个潜在偏好的策略是不可扩展的。因此,通过单个训练在给定域中获得整个偏好空间的一组Pareto前溶液至关重要。为此,我们提出了一种新颖的Morl算法,该算法训练一个通用网络以覆盖整个偏好空间。提出的方法是偏好驱动的MORL(PD-MORL),利用偏好作为更新网络参数的指导。在使用经典深海宝藏和果树导航基准测试的PD-MORL之后,我们评估了其在挑战多目标连续控制任务方面的性能。
translated by 谷歌翻译
图形上的组合优化问题(COP)是优化的基本挑战。强化学习(RL)最近成为解决这些问题的新框架,并证明了令人鼓舞的结果。但是,大多数RL解决方案都采用贪婪的方式来逐步构建解决方案,因此不可避免地对动作序列构成不必要的依赖性,并且需要许多特定于问题的设计。我们提出了一个通用的RL框架,该框架不仅表现出最先进的经验表现,而且还推广到各种各样的警察。具体而言,我们将状态定义为解决问题实例的解决方案,并将操作作为对该解决方案的扰动。我们利用图形神经网络(GNN)为给定的问题实例提取潜在表示,然后应用深Q学习以获得通过翻转或交换顶点标签逐渐完善解决方案的策略。实验是在最大$ k $ cut和旅行推销员问题上进行的,并且针对一系列基于学习的启发式基线实现了绩效改善。
translated by 谷歌翻译