Pareto Front Learning (PFL) was recently introduced as an effective approach to obtain a mapping function from a given trade-off vector to a solution on the Pareto front, which solves the multi-objective optimization (MOO) problem. Due to the inherent trade-off between conflicting objectives, PFL offers a flexible approach in many scenarios in which the decision makers can not specify the preference of one Pareto solution over another, and must switch between them depending on the situation. However, existing PFL methods ignore the relationship between the solutions during the optimization process, which hinders the quality of the obtained front. To overcome this issue, we propose a novel PFL framework namely \ourmodel, which employs a hypernetwork to generate multiple solutions from a set of diverse trade-off preferences and enhance the quality of the Pareto front by maximizing the Hypervolume indicator defined by these solutions. The experimental results on several MOO machine learning tasks show that the proposed framework significantly outperforms the baselines in producing the trade-off Pareto front.
translated by 谷歌翻译
最近,已证明有监督的对比度学习(SCL)在大多数分类任务中都能取得出色的表现。在SCL中,对神经网络进行了训练,可以优化两个目标:在嵌入空间中将锚定和阳性样品一起拉在一起,并将锚点推开。但是,这两个不同的目标可能需要冲突,需要在优化期间之间进行权衡。在这项工作中,我们将SCL问题作为Roberta语言模型的微调阶段的多目标优化问题。使用两种方法来解决优化问题:(i)线性标量(LS)方法,该方法可最大程度地减少持久性损失的加权线性组合; (ii)确切的帕累托最佳(EPO)方法,该方法找到了帕累托正面与给定优先矢量的相交。我们在不使用数据增强,内存库或生成对抗性示例的情况下评估了几个胶合基准任务的方法。经验结果表明,提出的学习策略大大优于强大的竞争性学习基线
translated by 谷歌翻译
许多现代的机器学习应用程序,例如多任务学习,都需要查找最佳模型参数来权衡多个可能相互冲突的目标功能。帕累托集的概念使我们能够专注于不能严格改进的(通常是无限的)模型集。但是,它不能为选择一个或几个特殊型号返回实际用户提供可行的程序。在本文中,我们考虑\ emph {在Pareto Set(Opt-In-Pareto)中进行优化,这是找到Pareto模型,以优化Pareto集中的额外参考标准函数。此功能可以编码从用户的特定偏好,也可以代表代表整个帕累托集的一组多元化的帕累托模型来代表一组多元化的帕累托模型。不幸的是,尽管是一个非常有用的框架,但在深度学习中,尤其是对于大规模,非凸面和非线性目标而言,对选择性pareto的有效算法已经很大程度上遗失了。一种幼稚的方法是将Riemannian歧管梯度下降应用于帕累托集,该片段由于需要对Hessian矩阵的本征估计而产生高计算成本。我们提出了一种一阶算法,该算法仅使用梯度信息近似求解pareto,具有高实用效率和理论上保证的收敛属性。从经验上讲,我们证明我们的方法在各种具有挑战性的多任务相关问题方面有效地工作。
translated by 谷歌翻译
从非规范目标分布中抽样是概率推断中许多应用的基本问题。 Stein变异梯度下降(SVGD)已被证明是一种强大的方法,它迭代地更新一组粒子以近似关注的分布。此外,在分析其渐近性特性时,SVGD会准确地减少到单目标优化问题,并可以看作是此单目标优化问题的概率版本。然后出现一个自然的问题:“我们可以得出多目标优化的概率版本吗?”。为了回答这个问题,我们提出了随机多重目标采样梯度下降(MT-SGD),从而使我们能够从多个非差异目标分布中采样。具体而言,我们的MT-SGD进行了中间分布的流动,逐渐取向多个目标分布,这使采样颗粒可以移动到目标分布的关节高样区域。有趣的是,渐近分析表明,正如预期的那样,我们的方法准确地减少了多级下降算法以进行多目标优化。最后,我们进行全面的实验,以证明我们进行多任务学习方法的优点。
translated by 谷歌翻译
超参数优化构成了典型的现代机器学习工作流程的很大一部分。这是由于这样一个事实,即机器学习方法和相应的预处理步骤通常只有在正确调整超参数时就会产生最佳性能。但是在许多应用中,我们不仅有兴趣仅仅为了预测精度而优化ML管道;确定最佳配置时,必须考虑其他指标或约束,从而导致多目标优化问题。由于缺乏知识和用于多目标超参数优化的知识和容易获得的软件实现,因此通常在实践中被忽略。在这项工作中,我们向读者介绍了多个客观超参数优化的基础知识,并激励其在应用ML中的实用性。此外,我们从进化算法和贝叶斯优化的领域提供了现有优化策略的广泛调查。我们说明了MOO在几个特定ML应用中的实用性,考虑了诸如操作条件,预测时间,稀疏,公平,可解释性和鲁棒性之类的目标。
translated by 谷歌翻译
如今,学习排名(LTR)技术在信息检索系统中无处不在,尤其是在搜索排名应用程序中。通常用于训练排名模型的查询项目相关性标签通常是对人类行为的嘈杂测量,例如产品搜索的产品评级。粗略的测量使地面真理对单个相关标准进行了非唯一的排名。为了解决歧义,希望使用许多相关标准训练模型,从而产生多标签LTR(MLLTR)。此外,它制定了多个目标,这些目标可能同时优化,例如,在产品搜索中,可以根据产品质量和购买可能性来增加收入来培训排名模型。在这项研究中,我们利用了MLLTR问题的多目标优化(MOO)方面,并采用了最近开发的MOO算法来解决它。具体而言,我们建议一个一般框架,可以通过多种方式将标签的信息组合在一起,以有意义地表征目标之间的权衡。我们的框架允许使用任何基于梯度的MOO算法来解决MLLTR问题。我们在两个公开可用的LTR数据集和一个电子商务数据集上测试了提出的框架,以显示其功效。
translated by 谷歌翻译
在多任务学习(MTL)中,对联合模型进行了培训,可以同时对几个任务进行预测。联合培训降低了计算成本并提高数据效率;但是,由于这些不同任务的梯度可能需要冲突,因此训练MTL的联合模型通常比其相应的单任务对应人员产生的性能较低。减轻此问题的一种常见方法是使用特定的启发式方法将每个任务梯度组合到联合更新方向上。在本文中,我们建议将梯度组合步骤视为一个议价游戏,在该游戏中,任务就达成了有关参数更新联合方向的协议。在某些假设下,议价问题具有独特的解决方案,称为NASH讨价还价解决方案,我们建议将其用作多任务学习的原则方法。我们描述了一种新的MTL优化程序NASH-MTL,并为其收敛性得出了理论保证。从经验上讲,我们表明NASH-MTL在各个域中的多个MTL基准上实现了最新的结果。
translated by 谷歌翻译
可以将多任务学习(MTL)范例追溯到Caruana(1997)的早期纸张中,其中表示可以使用来自多个任务的数据,其目的是在独立地学习每个任务的旨在获得更好的性能。 MTL与相互矛盾的目标的解决方案需要在它们中进行折衷,这通常超出了直线组合可以实现的。理论上原则和计算有效的策略正在寻找不受他人主导的解决方案,因为它在帕累托分析中解决了它。多任务学习环境中产生的多目标优化问题具有特定的功能,需要adhoc方法。对这些特征的分析和新的计算方法的提议代表了这项工作的重点。多目标进化算法(MOEAS)可以容易地包括优势的概念,因此可以分析。 MOEAS的主要缺点是关于功能评估的低样本效率。此缺点的关键原因是大多数进化方法不使用模型来近似于目标函数。贝叶斯优化采用基于代理模型的完全不同的方法,例如高斯过程。在本文中,输入空间中的解决方案表示为封装功能评估中包含的知识的概率分布。在这种概率分布的空间中,赋予由Wassersein距离给出的度量,可以设计一种新的算法MOEA / WST,其中模型不直接在目标函数上,而是在输入空间中的对象的中间信息空间中被映射成直方图。计算结果表明,MoEA / WST提供的样品效率和帕累托集的质量明显优于标准MoEa。
translated by 谷歌翻译
旅行销售人员问题(TSP)是一个经典的资源分配问题,用于找到完成一组任务的最佳顺序,同时最大程度地减少(或最大化)相关的目标函数。它被广泛用于机器人技术,用于诸如计划和计划之类的应用程序。在这项工作中,我们使用增强学习(RL)解决了TSP的两个目标。通常,在多目标优化问题中,相关的目标函数本质上可能是冲突的。在这种情况下,最优性是根据帕累托最优性定义的。目标空间中的这些帕累托最佳解决方案组成帕累托前部(或边境)。每个解决方案都有其权衡。我们介绍了Pareto Frontier近似网络(PA-NET),该网络为Bi-Objective旅行销售员问题(BTSP)生成了良好的Pareto前部近似值。首先,将BTSP转换为受约束的优化问题。然后,我们使用拉格朗日放松和政策梯度来训练我们的网络来解决这一受约束的问题。使用PA-NET,我们改善了现有基于RL的方法的性能。用于测量帕累托阵线最佳性的超量度量的平均改进为2.3%。同时,PA-NET的推理时间更快。最后,我们介绍了PA-NET的应用,以在机器人导航任务/覆盖范围计划中找到最佳的访问顺序。我们的代码可在项目网站上找到。
translated by 谷歌翻译
许多现实世界优化问题,如工程最优设计,最终可以被建模为必须解决的相应多目标优化问题(MOPS),以获得近似帕累托最佳前端。基于分解(MOEA / D)的多目标进化算法被认为是解决MOP的明显有希望的方法。最近的研究表明,具有均匀重量载体的MoEA / D非常适合于普通帕累托最佳前端的拖把,但在多样性方面的性能通常会在解决带有不规则帕累托最佳方向时造成拖镜时劣化。以这种方式,通过该算法获得的解决方案集不能为决策者提供更合理的选择。为了有效地克服这一缺点,我们通过众所周知的Pascoletti-Serafini标定方法和多参考点的新策略提出了一种改进的MoA / D算法。具体地,该策略包括由等距分区和投影的技术产生的参考点的设置和调整组成。对于性能评估,将所提出的算法与现有的四个最先进的多目标进化算法进行比较,这些算法与各种类型的帕累托最优前锋和两个现实世界拖把的基准测试问题相比,包括舱口盖设计和火箭喷射器设计在工程优化中。根据实验结果,所提出的算法表现出比其他比较算法更好的分集性能。
translated by 谷歌翻译
与单目标优化(SOO)相反,多目标优化(MOO)需要优化器才能找到Pareto Frontier,这是不受其他可行解决方案主导的可行解决方案的子集。在本文中,我们提出了Lamoo,这是一种新型的多目标优化器,它从观察到的样品中学习模型,以分区搜索空间,然后专注于可能包含帕累托前沿子集的有希望的区域。该分区基于优势数,该数字衡量了一个数据点与现有样本之间的帕累托边境的“多么近”。为了说明由于样本有限和模型不匹配而导致的可能分区错误,我们利用蒙特卡洛树搜索(MCT)利用有希望的区域,同时探索次优的区域,这些区域可能会以后可能包含良好的解决方案。从理论上讲,我们在某些假设下通过Lamoo证明了通过Lamoo进行学习空间分配的功效。从经验上讲,在Hypervolume(HV)基准上,一种受欢迎的MOO指标,Lamoo在多个现实世界中的MOO任务上大大优于强大的基线,在NASBENCH上,在NASBENCH上的神经体系结构的样品效率高达225%,对于Molecular,最高可用于10%设计。
translated by 谷歌翻译
多目标梯度方法正在成为解决多目标问题的标准。其中,他们表现出有希望开发具有相关和相互矛盾的目标的多目标推荐系统。经典多梯度〜下降通常依赖于梯度的组合,而不是梯度的第一和第二矩的计算。这导致了脆性行为,并错过了解决方案空间中的重要区域。在这项工作中,我们创建了一种多目标模型 - 不可知的暗示方法,利用ADAM优化器在单目标问题中的优势。这将校正和稳定〜在计算常见的梯度下降载体之前〜〜〜梯度,同时优化所有目标。我们评估多目标的好处对两个多目标推荐系统和三种不同的客观组合,两者都相关或相互矛盾。我们报告了大量改进,用三种不同的Pareto正面指标测量:超凡镜,覆盖范围和间距。最后,我们展示了\ Textit {adamized} Pareto Front严格地占据了前一个目标对的前一个。
translated by 谷歌翻译
最近的多任务学习研究旨在反对单一的标准化,其中培训只需最大限度地减少任务损失的总和。代替了几种Ad-hoc多任务优化算法,它受到各种假设的启发,关于使多任务设置困难的原因。这些优化器中的大多数都需要每个任务渐变,并引入重要的内存,运行时和实现开销。我们提出了一个理论分析,表明许多专业的多任务优化器可以被解释为正规化的形式。此外,我们表明,当与单任务学习的标准正则化和稳定技术耦合时,单一的标定化匹配或改善在监督和加固学习设置中复杂的多任务优化器的性能。我们相信我们的结果要求对该地区最近的研究进行关键重新评估。
translated by 谷歌翻译
多目标优化(MOO)旨在同时优化多个冲突的目标,并在机器学习中发现了重要的应用,例如最大程度地减少分类损失和差异,以在处理不同的人群方面以保持公平。最佳性,进一步优化一个目标至少将至少损害另一个目标,而决策者需要全面探索多个Optima(称为Pareto Front),以确定一个最终解决方案。我们解决了寻找帕累托阵线的效率。首先,使用随机多偏差下降(SMGD)从头开始寻找前部,对于大型神经网络和数据集很昂贵。我们建议基于预测器 - 校正方法来探索帕累托阵线作为一些初始Optima的歧管。其次,对于每个探索步骤,预测变量求解一个大规模的线性系统,该系统在模型参数数量中二次缩放,并且需要一个反向传播来评估求解器的二阶Hessian-vector产品。我们提出了一个只能线性缩放的高斯 - 纽顿近似,并且只需要每次迭代的一阶内产物。这还允许在大约求解线性系统时,在微小和共轭梯度方法之间进行选择。这些创新使大型网络成为可能的预测器 - 校准。关于多目标(公平和准确性)错误信息检测任务的实验表明,1)预测器 - 矫正器方法可以在更少的时间内找到比或与SMGD更好或与SMGD相似的方法; 2)提出的一阶方法不会损害二阶方法识别的帕累托前沿的质量,同时进一步缩短了运行时间。
translated by 谷歌翻译
HyperParameter Optimization(HPO)是一种确保机器学习(ML)算法最佳性能的必要步骤。已经开发了几种方法来执行HPO;其中大部分都集中在优化一个性能措施(通常是基于错误的措施),并且在这种单一目标HPO问题上的文献是巨大的。然而,最近似乎似乎侧重于同时优化多个冲突目标的算法。本文提出了对2014年至2020年的文献的系统调查,在多目标HPO算法上发布,区分了基于成逐的算法,Metamodel的算法以及使用两者混合的方法。我们还讨论了用于比较多目标HPO程序和今后的研究方向的质量指标。
translated by 谷歌翻译
In multi-task learning, multiple tasks are solved jointly, sharing inductive bias between them. Multi-task learning is inherently a multi-objective problem because different tasks may conflict, necessitating a trade-off. A common compromise is to optimize a proxy objective that minimizes a weighted linear combination of pertask losses. However, this workaround is only valid when the tasks do not compete, which is rarely the case. In this paper, we explicitly cast multi-task learning as multi-objective optimization, with the overall objective of finding a Pareto optimal solution. To this end, we use algorithms developed in the gradient-based multiobjective optimization literature. These algorithms are not directly applicable to large-scale learning problems since they scale poorly with the dimensionality of the gradients and the number of tasks. We therefore propose an upper bound for the multi-objective loss and show that it can be optimized efficiently. We further prove that optimizing this upper bound yields a Pareto optimal solution under realistic assumptions. We apply our method to a variety of multi-task deep learning problems including digit classification, scene understanding (joint semantic segmentation, instance segmentation, and depth estimation), and multilabel classification. Our method produces higher-performing models than recent multi-task learning formulations or per-task training.
translated by 谷歌翻译
由于其数据效率,贝叶斯优化已经出现在昂贵的黑盒优化的最前沿。近年来,关于新贝叶斯优化算法及其应用的发展的研究激增。因此,本文试图对贝叶斯优化的最新进展进行全面和更新的调查,并确定有趣的开放问题。我们将贝叶斯优化的现有工作分为九个主要群体,并根据所提出的算法的动机和重点。对于每个类别,我们介绍了替代模型的构建和采集功能的适应的主要进步。最后,我们讨论了开放的问题,并提出了有希望的未来研究方向,尤其是在分布式和联合优化系统中的异质性,隐私保护和公平性方面。
translated by 谷歌翻译
Multi-task learning (MTL) models have demonstrated impressive results in computer vision, natural language processing, and recommender systems. Even though many approaches have been proposed, how well these approaches balance different tasks on each parameter still remains unclear. In this paper, we propose to measure the task dominance degree of a parameter by the total updates of each task on this parameter. Specifically, we compute the total updates by the exponentially decaying Average of the squared Updates (AU) on a parameter from the corresponding task.Based on this novel metric, we observe that many parameters in existing MTL methods, especially those in the higher shared layers, are still dominated by one or several tasks. The dominance of AU is mainly due to the dominance of accumulative gradients from one or several tasks. Motivated by this, we propose a Task-wise Adaptive learning rate approach, AdaTask in short, to separate the \emph{accumulative gradients} and hence the learning rate of each task for each parameter in adaptive learning rate approaches (e.g., AdaGrad, RMSProp, and Adam). Comprehensive experiments on computer vision and recommender system MTL datasets demonstrate that AdaTask significantly improves the performance of dominated tasks, resulting SOTA average task-wise performance. Analysis on both synthetic and real-world datasets shows AdaTask balance parameters in every shared layer well.
translated by 谷歌翻译
Explicitly accounting for uncertainties is paramount to the safety of engineering structures. Optimization which is often carried out at the early stage of the structural design offers an ideal framework for this task. When the uncertainties are mainly affecting the objective function, robust design optimization is traditionally considered. This work further assumes the existence of multiple and competing objective functions that need to be dealt with simultaneously. The optimization problem is formulated by considering quantiles of the objective functions which allows for the combination of both optimality and robustness in a single metric. By introducing the concept of common random numbers, the resulting nested optimization problem may be solved using a general-purpose solver, herein the non-dominated sorting genetic algorithm (NSGA-II). The computational cost of such an approach is however a serious hurdle to its application in real-world problems. We therefore propose a surrogate-assisted approach using Kriging as an inexpensive approximation of the associated computational model. The proposed approach consists of sequentially carrying out NSGA-II while using an adaptively built Kriging model to estimate the quantiles. Finally, the methodology is adapted to account for mixed categorical-continuous parameters as the applications involve the selection of qualitative design parameters as well. The methodology is first applied to two analytical examples showing its efficiency. The third application relates to the selection of optimal renovation scenarios of a building considering both its life cycle cost and environmental impact. It shows that when it comes to renovation, the heating system replacement should be the priority.
translated by 谷歌翻译
算法公平旨在识别和校正机器学习算法中的偏差源。混淆,确保公平往往以准确性为止。我们在这项工作中提供正式工具,以便在算法公平中调和这一基本紧张。具体而言,我们将帕累托最优性的概念从多目标优化中寻求神经网络分类器的公平准确性帕累托。我们证明许多现有的算法公平方法正在执行所谓的线性标定方案,其具有恢复帕累托最佳解决方案的严重限制。相反,与线性方案相比,我们将Chebyshev标准化方案从理论上提供优越,并且在恢复Pareto最佳解决方案时没有更加计算繁重。
translated by 谷歌翻译