多目标定向运动问题(MO-OPS)是经典的多目标路由问题,在过去几十年中,人们一直受到很多关注。这项研究旨在通过问题分解框架解决MO-OPS,即MO-OP分解为多目标背包问题(MOKP)和旅行推销员问题(TSP)。然后,MOKP和TSP分别通过多目标进化算法(MOEA)和深钢筋学习(DRL)方法来解决。虽然MOEA模块用于选择城市,但DRL模块用于计划这些城市的哈密顿路径。这两个模块的迭代使用将人口驱动到Mo-ops的帕累托前沿。在各种类型的MO-OP实例上,将提出方法的有效性与NSGA-II和NSGA-III进行了比较。实验结果表明,我们的方法几乎在所有测试实例上表现出最佳性能,并且表现出强大的概括能力。
translated by 谷歌翻译
旅行销售人员问题(TSP)是一个经典的资源分配问题,用于找到完成一组任务的最佳顺序,同时最大程度地减少(或最大化)相关的目标函数。它被广泛用于机器人技术,用于诸如计划和计划之类的应用程序。在这项工作中,我们使用增强学习(RL)解决了TSP的两个目标。通常,在多目标优化问题中,相关的目标函数本质上可能是冲突的。在这种情况下,最优性是根据帕累托最优性定义的。目标空间中的这些帕累托最佳解决方案组成帕累托前部(或边境)。每个解决方案都有其权衡。我们介绍了Pareto Frontier近似网络(PA-NET),该网络为Bi-Objective旅行销售员问题(BTSP)生成了良好的Pareto前部近似值。首先,将BTSP转换为受约束的优化问题。然后,我们使用拉格朗日放松和政策梯度来训练我们的网络来解决这一受约束的问题。使用PA-NET,我们改善了现有基于RL的方法的性能。用于测量帕累托阵线最佳性的超量度量的平均改进为2.3%。同时,PA-NET的推理时间更快。最后,我们介绍了PA-NET的应用,以在机器人导航任务/覆盖范围计划中找到最佳的访问顺序。我们的代码可在项目网站上找到。
translated by 谷歌翻译
本文研究了深入的增强学习(DRL),以解决多个无人驾驶汽车(UAV)的任务调度问题。当前的方法通常使用精确的启发式算法来解决该问题,而随着任务量表的增长,计算时间迅速增加,并且启发式规则需要手动设计。作为一种自学方法,DRL可以在没有手工设计的规则的情况下快速获得高质量的解决方案。但是,巨大的决策空间使得在大规模任务的情况下,对DRL模型的培训变得不稳定。在这项工作中,为了解决大规模的问题,我们开发了一个基于鸿沟和征服的框架(DCF),以将原始问题与任务分配和无人机路由计划子问题分配,并在上层和下层解决,分别。基于DCF,提出了双层深钢筋学习方法(DL-DRL),其中高层DRL模型被设计为将任务分配给适当的无人机和下层DRL模型[即广泛使用的注意力模型(AM)]应用于生成可行的无人机路由。由于上层模型确定了低层模型的输入数据分布,并且在培训期间通过低层模型计算其奖励,因此我们制定了交互式训练策略(ITS),其中整个训练过程由PRE组成 - 培训,强化培训和替代培训过程。实验结果表明,我们的DL-DRL胜过基于主流学习和大多数传统方法的主体,并且与最新的启发式方法[即OR-Tools]具有竞争力,尤其是在大规模问题上。通过测试针对较大较大的模型学习的模型,还可以验证DL-DRL的巨大概括性。此外,一项消融研究表明,我们的它可以达到模型性能和训练持续时间之间的妥协。
translated by 谷歌翻译
在某些研究中,无限的外部存档已用于存储通过进化多目标优化算法发现的所有非主导溶液。已经表明,从存储解决方案中选择的溶液子集通常比最终人群更好。但是,无限档案的使用并不总是现实的。当检查的解决方案数量很大时,我们必须预先指定存档尺寸。在这项研究中,我们检查了存档大小对三个方面的影响:(i)选定的最终解决方案集的质量,(ii)存档维护和最终解决方案集的总计算时间,以及(iii)所需的内存大小。毫不奇怪,存档尺寸的增加可提高最终解决方案集质量。有趣的是,中型存档的总计算时间比小型档案和庞大的档案库(例如,无限档案)大得多。为了减少计算时间,我们检查了两个想法:仅在后代进行定期档案更新和存档。与每一代更新档案库相比,第一个想法可以使用较短的计算时间以略有增加的记忆尺寸来获得几乎相同的最终解决方案设置质量。第二个想法大大减少了计算时间,而最终解决方案集质量的成本略有恶化。 Based on our experimental results, some suggestions are given about how to appropriately choose an archiving strategy and an archive size.
translated by 谷歌翻译
雇用无人驾驶航空公司(无人机)吸引了日益增长的兴趣,并成为互联网(物联网)网络中的数据收集技术的最先进技术。在本文中,目的是最大限度地减少UAV-IOT系统的总能耗,我们制定了联合设计了UAV的轨迹和选择IOT网络中的群集头作为受约束的组合优化问题的问题,该问题被归类为NP-努力解决。我们提出了一种新的深度加强学习(DRL),其具有顺序模型策略,可以通过无监督方式有效地学习由UAV的轨迹设计来实现由序列到序列神经网络表示的策略。通过广泛的模拟,所获得的结果表明,与其他基线算法相比,所提出的DRL方法可以找到无人机的轨迹,这些轨迹需要更少的能量消耗,并实现近乎最佳性能。此外,仿真结果表明,我们所提出的DRL算法的训练模型具有出色的概括能力,对更大的问题尺寸而没有必要恢复模型。
translated by 谷歌翻译
二进制矩阵优化通常是在现实世界中出现的,例如多微晶网络结构设计问题(MGNSDP),即在某些约束下最小化电源线的总长度。为这些问题找到全球最佳解决方案面临着一个巨大的挑战,因为此类问题可能是大规模,稀疏和多模式。传统的线性编程是耗时的,无法解决非线性问题。为了解决这个问题,提出了一种新颖的可行性规则基于差异进化算法,称为LBMDE。具体来说,首先提出了一种通用启发式溶液初始化方法来生成高质量的解决方案。然后,引入了基于二进制的DE操作员以生产后代。为了处理约束,我们提出了改进的基于可行性规则的环境选择策略。通过一组基准问题来检查LBMDE的性能和搜索行为。
translated by 谷歌翻译
解决组合优化(CO)问题的传统求解器通常是由人类专家设计的。最近,人们对利用深度学习,尤其是深度强化学习的兴趣激增,自动为CO学习有效的求解器。由此产生的新范式称为神经组合优化(NCO)。但是,在经验或理论上,NCO的优势和缺点与其他方法的优势尚未得到很好的研究。在这项工作中,我们介绍了NCO求解器和替代求解器的全面比较研究。具体而言,将旅行推销员问题作为测试床问题,我们根据五个方面(即有效性,效率,稳定性,可扩展性和概括能力)评估求解器的性能。我们的结果表明,通常,NCO方法学到的求解器几乎在所有这些方面仍然没有传统求解器。前者的潜在好处将是在有足够的培训实例时,他们在小规模的问题实例上的卓越时间和能源效率。我们希望这项工作将有助于更好地理解NCO的优势和劣势,并提供全面的评估协议,以进一步对NCO进行针对其他方法的基准测试。
translated by 谷歌翻译
多个旅行推销员问题(MTSP)是众多现实世界应用的众所周知的NP硬性问题。特别是,这项工作涉及Minmax MTSP,其目的是最大程度地减少所有代理商之间的最大巡回演出长度。许多机器人部署需要经常重新计算潜在的大型MTSP实例,从而使计算时间和解决方案质量的自然权衡非常重要。但是,由于其计算复杂性,精确和启发式算法随着城市数量的增加而效率低下。在最新的深入学习学习(DRL)方面的鼓励下,这项工作将MTSP作为一项合作任务,并引入了Dan,Dan是一种分散的基于注意力的神经方法,旨在解决这一关键权衡。在丹中,代理商通过预测彼此的未来决策来学习完全分散的政策,以合作构建巡回演出。我们的模型依赖于变压器体系结构,并使用具有参数共享的多代理RL进行了训练,从而为代理和城市的数量提供了自然的可扩展性。我们对小型至大规模MTSP实例的实验结果($ 50至$ 1000 $的城市,$ 5 $至20美元的代理商)表明,Dan能够匹配或超越最先进的求解器,同时保持计划时间较低。特别是,在相同的计算时间预算的情况下,DAN在大规模实例(超过100个城市,超过5个代理商)上优于所有基于常规和DRL的基线,并展示了增强的代理协作。一段视频解释了我们的方法并介绍了我们的结果,请参见\ url {https://youtu.be/xi3clsdslvs}。
translated by 谷歌翻译
物流运营商最近提出了一项技术,可以帮助降低城市货运分销中的交通拥堵和运营成本,最近提出了移动包裹储物柜(MPLS)。鉴于他们能够在整个部署领域搬迁,因此他们具有提高客户可访问性和便利性的潜力。在这项研究中,我们制定了移动包裹储物柜问题(MPLP),这是位置路由问题(LRP)的特殊情况,该案例确定了整天MPL的最佳中途停留位置以及计划相应的交付路线。开发了基于混合Q学习网络的方法(HQM),以解决所得大问题实例的计算复杂性,同时逃脱了本地Optima。此外,HQM与全球和局部搜索机制集成在一起,以解决经典强化学习(RL)方法所面临的探索和剥削困境。我们检查了HQM在不同问题大小(最多200个节点)下的性能,并根据遗传算法(GA)进行了基准测试。我们的结果表明,HQM获得的平均奖励比GA高1.96倍,这表明HQM具有更好的优化能力。最后,我们确定有助于车队规模要求,旅行距离和服务延迟的关键因素。我们的发现概述了MPL的效率主要取决于时间窗口的长度和MPL中断的部署。
translated by 谷歌翻译
Influence Maximization (IM) is a classical combinatorial optimization problem, which can be widely used in mobile networks, social computing, and recommendation systems. It aims at selecting a small number of users such that maximizing the influence spread across the online social network. Because of its potential commercial and academic value, there are a lot of researchers focusing on studying the IM problem from different perspectives. The main challenge comes from the NP-hardness of the IM problem and \#P-hardness of estimating the influence spread, thus traditional algorithms for overcoming them can be categorized into two classes: heuristic algorithms and approximation algorithms. However, there is no theoretical guarantee for heuristic algorithms, and the theoretical design is close to the limit. Therefore, it is almost impossible to further optimize and improve their performance. With the rapid development of artificial intelligence, the technology based on Machine Learning (ML) has achieved remarkable achievements in many fields. In view of this, in recent years, a number of new methods have emerged to solve combinatorial optimization problems by using ML-based techniques. These methods have the advantages of fast solving speed and strong generalization ability to unknown graphs, which provide a brand-new direction for solving combinatorial optimization problems. Therefore, we abandon the traditional algorithms based on iterative search and review the recent development of ML-based methods, especially Deep Reinforcement Learning, to solve the IM problem and other variants in social networks. We focus on summarizing the relevant background knowledge, basic principles, common methods, and applied research. Finally, the challenges that need to be solved urgently in future IM research are pointed out.
translated by 谷歌翻译
传感器节点(SNS)的部署总是在无线传感器网络(WSN)的系统性能中起决定性作用。在这项工作中,我们提出了一种实用异构WSN的最佳部署方法,该方法可以深入了解可靠性和部署成本之间的权衡。具体而言,这项工作旨在提供SNS的最佳部署,以最大程度地提高覆盖率和连接学位,同时最大程度地减少整体部署成本。此外,这项工作充分考虑了SNS的异质性(即差异化的传感范围和部署成本)和三维(3-D)部署方案。这是一个多目标优化问题,非凸,多模态和NP-HARD。为了解决它,我们开发了一种新型的基于群体的多目标优化算法,称为竞争性多目标海洋掠食者算法(CMOMPA),其性能通过与十种其他多个多目标优化的全面比较实验验证算法。计算结果表明,在收敛性和准确性方面,CMOMPA优于他人,并且在多模式多目标优化问题上表现出卓越的性能。还进行了足够的模拟来评估基于CMOMPA的最佳SNS部署方法的有效性。结果表明,优化的部署可以平衡部署成本,感知可靠性和网络可靠性之间的权衡平衡。源代码可在https://github.com/inet-wzu/cmompa上找到。
translated by 谷歌翻译
旅行推销员问题(TSP)是许多实用变体的经典NP-HARD组合优化问题。 Lin-Kernighan-Helsgaun(LKH)算法是TSP的最先进的本地搜索算法之一,LKH-3是LKH的强大扩展,可以解决许多TSP变体。 LKH和LKH-3都将一个候选人与每个城市相关联,以提高算法效率,并具有两种不同的方法,称为$ \ alpha $ - 计算和Popmusic,以决定候选人集。在这项工作中,我们首先提出了一种可变策略加强LKH(VSR-LKH)算法,该算法将三种强化学习方法(Q-Learning,SARSA和Monte Carlo)与LKH算法结合在一起,以解决TSP。我们进一步提出了一种称为VSR-LKH-3的新算法,该算法将可变策略强化学习方法与LKH-3结合在一起,用于典型的TSP变体,包括带有时间窗口(TSPTW)和彩色TSP(CTSP)的TSP。所提出的算法取代了LKH和LKH-3中的不灵活的遍历操作,并让算法学会通过增强学习在每个搜索步骤中做出选择。 LKH和LKH-3都具有$ \ alpha $量或Popmusic方法,我们的方法都可以显着改善。具体而言,对236个公共和广泛使用的TSP基准的经验结果具有多达85,900个城市,证明了VSR-LKH的出色表现,扩展的VSR-LKH-3也显着超过了TSPTW和TSPTW和TSPTW和TSPTW的最新启发式方法CTSP。
translated by 谷歌翻译
在多目标优化中,一组具有各种功能的可扩展测试问题使研究人员可以调查和评估不同优化算法的能力,因此可以帮助他们设计和开发更有效,更有效的方法。现有的测试问题套件主要集中在所有目标彼此完全冲突的情况下。在这种情况下,目标空间中的M-Obigntive优化问题具有(M-1)维帕累托前沿。但是,在某些优化问题中,目标之间可能存在意外的特征,例如冗余。某些目标的冗余可能会导致具有堕落的帕累托正面的多物镜问题,即,$ m $ - 目标问题的帕累托正面的尺寸小于(M-1)。在本文中,我们系统地研究了退化的多目标问题。我们抽象了退化问题的三个一般特征,这些特征未在文献中进行制定和系统地研究。基于这些特征,我们提出了一组测试问题,以支持在具有冗余目标的情况下对多目标优化算法进行研究。据我们所知,这项工作是第一项明确提出退化问题的三个特征,从而使所得的测试问题的一般性具有一般性的特征,与为特定目的设计的现有测试问题相比(例如,可视化),则允许所得的测试问题。 )。
translated by 谷歌翻译
许多现实世界优化问题,如工程最优设计,最终可以被建模为必须解决的相应多目标优化问题(MOPS),以获得近似帕累托最佳前端。基于分解(MOEA / D)的多目标进化算法被认为是解决MOP的明显有希望的方法。最近的研究表明,具有均匀重量载体的MoEA / D非常适合于普通帕累托最佳前端的拖把,但在多样性方面的性能通常会在解决带有不规则帕累托最佳方向时造成拖镜时劣化。以这种方式,通过该算法获得的解决方案集不能为决策者提供更合理的选择。为了有效地克服这一缺点,我们通过众所周知的Pascoletti-Serafini标定方法和多参考点的新策略提出了一种改进的MoA / D算法。具体地,该策略包括由等距分区和投影的技术产生的参考点的设置和调整组成。对于性能评估,将所提出的算法与现有的四个最先进的多目标进化算法进行比较,这些算法与各种类型的帕累托最优前锋和两个现实世界拖把的基准测试问题相比,包括舱口盖设计和火箭喷射器设计在工程优化中。根据实验结果,所提出的算法表现出比其他比较算法更好的分集性能。
translated by 谷歌翻译
In many domains such as transportation and logistics, search and rescue, or cooperative surveillance, tasks are pending to be allocated with the consideration of possible execution uncertainties. Existing task coordination algorithms either ignore the stochastic process or suffer from the computational intensity. Taking advantage of the weakly coupled feature of the problem and the opportunity for coordination in advance, we propose a decentralized auction-based coordination strategy using a newly formulated score function which is generated by forming the problem into task-constrained Markov decision processes (MDPs). The proposed method guarantees convergence and at least 50% optimality in the premise of a submodular reward function. Furthermore, for the implementation on large-scale applications, an approximate variant of the proposed method, namely Deep Auction, is also suggested with the use of neural networks, which is evasive of the troublesome for constructing MDPs. Inspired by the well-known actor-critic architecture, two Transformers are used to map observations to action probabilities and cumulative rewards respectively. Finally, we demonstrate the performance of the two proposed approaches in the context of drone deliveries, where the stochastic planning for the drone league is cast into a stochastic price-collecting Vehicle Routing Problem (VRP) with time windows. Simulation results are compared with state-of-the-art methods in terms of solution quality, planning efficiency and scalability.
translated by 谷歌翻译
Recently, evolutionary multitasking (EMT) has been successfully used in the field of high-dimensional classification. However, the generation of multiple tasks in the existing EMT-based feature selection (FS) methods is relatively simple, using only the Relief-F method to collect related features with similar importance into one task, which cannot provide more diversified tasks for knowledge transfer. Thus, this paper devises a new EMT algorithm for FS in high-dimensional classification, which first adopts different filtering methods to produce multiple tasks and then modifies a competitive swarm optimizer to efficiently solve these related tasks via knowledge transfer. First, a diversified multiple task generation method is designed based on multiple filtering methods, which generates several relevant low-dimensional FS tasks by eliminating irrelevant features. In this way, useful knowledge for solving simple and relevant tasks can be transferred to simplify and speed up the solution of the original high-dimensional FS task. Then, a competitive swarm optimizer is modified to simultaneously solve these relevant FS tasks by transferring useful knowledge among them. Numerous empirical results demonstrate that the proposed EMT-based FS method can obtain a better feature subset than several state-of-the-art FS methods on eighteen high-dimensional datasets.
translated by 谷歌翻译
多模式的多目标问题(MMOP)通常在现实世界中出现,而决策空间中遥远的解决方案对应于非常相似的目标值。为了获得MMOP的所有溶液,已经提出了许多多模式多模式的多模型进化算法(MMEAS)。目前,很少有研究涵盖了最近提出的大多数代表性MMEAS,并进行了比较。在这项研究中,我们首先回顾了过去二十年中相关作品。然后,我们选择了12种利用不同多样性维护技术的最先进的算法,并比较了它们在现有测试套件上的性能。实验结果表明,不同类型的MMOP上不同技术的优势和劣势,从而为如何在特定情况下选择/设计MMEAS提供指导。
translated by 谷歌翻译
最近的研究表明,神经组合优化(NCO)在许多组合优化问题(如路由)中具有优于传统算法的优点,但是对于涉及相互条件的动作空间的包装,诸如打包的更加复杂的优化任务的效率较低。在本文中,我们提出了一种经常性的条件查询学习(RCQL)方法来解决2D和3D包装问题。我们首先通过经常性编码器嵌入状态,然后采用先前操作的条件查询注意。条件查询机制填充了学习步骤之间的信息差距,将问题塑造为Markov决策过程。从复发中受益,单个RCQL模型能够处理不同尺寸的包装问题。实验结果表明,RCQL可以有效地学习用于离线和在线条带包装问题(SPP)的强烈启发式,优于空间利用率范围广泛的基线。 RCQL与最先进的方法相比,在离线2D 40盒案例中将平均箱间隙比率降低1.83%,3.84%。同时,我们的方法还实现了5.64%的空间利用率,对于1000件物品的空间利用率比现有技术更高。
translated by 谷歌翻译
Network structure evolves with time in the real world, and the discovery of changing communities in dynamic networks is an important research topic that poses challenging tasks. Most existing methods assume that no significant change in the network occurs; namely, the difference between adjacent snapshots is slight. However, great change exists in the real world usually. The great change in the network will result in the community detection algorithms are difficulty obtaining valuable information from the previous snapshot, leading to negative transfer for the next time steps. This paper focuses on dynamic community detection with substantial changes by integrating higher-order knowledge from the previous snapshots to aid the subsequent snapshots. Moreover, to improve search efficiency, a higher-order knowledge transfer strategy is designed to determine first-order and higher-order knowledge by detecting the similarity of the adjacency matrix of snapshots. In this way, our proposal can better keep the advantages of previous community detection results and transfer them to the next task. We conduct the experiments on four real-world networks, including the networks with great or minor changes. Experimental results in the low-similarity datasets demonstrate that higher-order knowledge is more valuable than first-order knowledge when the network changes significantly and keeps the advantage even if handling the high-similarity datasets. Our proposal can also guide other dynamic optimization problems with great changes.
translated by 谷歌翻译