以决策为中心的学习(DFL)是为下游优化任务量身定制预测模型的范式,该任务使用其预测以更好地执行该特定任务。与DFL相关的主要技术挑战是,它需要能够通过优化问题进行区分,这由于不连续的解决方案和其他挑战很难。过去的工作主要通过手工制作特定于任务的替代物来解决这个问题,这些替代品可以在区分时提供信息丰富的梯度。但是,需要为每个新任务进行手工替代的需要限制了DFL的可用性。此外,通常无法保证产生的替代物的凸度,因此,训练使用它们的预测模型会导致局部优势较低。在本文中,我们完全消除了代孕,而是学习捕获特定于任务信息的损失功能。据我们所知,我们的方法是第一种完全替代以决策为中心学习的优化组成部分,自动学习的损失。我们的方法(a)仅需要访问可以解决优化问题并因此可以推广的黑盒甲骨文,并且(b)可以通过构造传播,因此可以轻松地优化。我们对文献中三个资源分配问题进行评估,发现我们的方法在没有考虑到所有三个领域的任务结构,甚至是文献中手工制作的代理人的情况下都优于学习的方法。
translated by 谷歌翻译
在确定性优化中,通常假定问题的所有参数都是固定和已知的。但是,实际上,某些参数可能是未知的先验参数,但可以从历史数据中估算。典型的预测 - 优化方法将预测和优化分为两个阶段。最近,端到端的预测到优化已成为有吸引力的替代方法。在这项工作中,我们介绍了PYEPO软件包,这是一个基于Pytorch的端到端预测,然后在Python中进行了优化的库。据我们所知,PYEPO(发音为“带有静音” n“”的“菠萝”)是线性和整数编程的第一个通用工具,具有预测的目标函数系数。它提供了两种基本算法:第一种基于Elmachtoub&Grigas(2021)的开创性工作的凸替代损失函数,第二个基于Vlastelica等人的可区分黑盒求解器方法。 (2019)。 PYEPO提供了一个简单的接口,用于定义新的优化问题,最先进的预测 - 优化训练算法,自定义神经网络体系结构的使用以及端到端方法与端到端方法与与端到端方法的比较两阶段的方法。 PYEPO使我们能够进行一系列全面的实验,以比较沿轴上的多种端到端和两阶段方法,例如预测准确性,决策质量和运行时间,例如最短路径,多个背包和旅行等问题销售人员问题。我们讨论了这些实验中的一些经验见解,这些见解可以指导未来的研究。 PYEPO及其文档可在https://github.com/khalil-research/pyepo上找到。
translated by 谷歌翻译
在过去几年预测和优化的方法(Elmachtoub和Grigas 2021; Wilder,Dilkina和Tambe 2019)受到了不断的关注。这些问题具有预测机器学习(ML)模型的预测的设置,馈送到下游优化问题以进行决策。预测和优化方法建议培训ML模型,通常通过直接优化优化求解器所制作的决策质量。但是,预测和优化方法的一个主要瓶颈正在为每个时代的每个训练实例解决优化问题。为了解决这一挑战,Mulamba等。 (2021)通过缓存可行的解决方案提出噪声对比估计。在这项工作中,我们显示噪声对比估计可以被认为是学习对解决方案缓存进行排名的情况。我们还开发成对和列表排名损失函数,可以以封闭式形式区分,而无需解决优化问题。通过关于这些替代损失职能的培训,我们经验证明我们能够最大限度地减少预测的遗憾。
translated by 谷歌翻译
代理,模拟程序行为的模型,形成各种开发工作流程的基础。我们研究了三种基于代理的设计模式,在大规模CPU模拟器上进行评估。通过替代汇编,程序员开发了一种模拟程序的代理,以模仿程序的行为部署到最终用户代替原始程序。代理编译加速了CPU模拟器的研究1.6美元。通过代理适应,程序员开发一个程序的代理,然后重新培训在不同的任务上代理。代理适应将模拟器的错误减少到50美元\%$。通过代理优化,程序员开发了一个程序的代理,优化代理的输入参数,然后将优化的输入参数插回原始程序。替代优化查找模拟参数,与专业集参数引起的错误相比,将模拟器的错误减少5 \%$ 5 \%。在本文中,我们将这种基于代理的设计模式的分类形式正规化。我们进一步描述了所有三种设计模式共有的编程方法。我们的工作基于与计划代理人的编程为基础的新兴工作流程。
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译
我们为投资组合构建提供了一个端到端分配稳健的系统,该系统将资产返回预测模型与分配强大的投资组合优化模型集成在一起。我们还展示了如何直接从数据中学习易耐受性参数和鲁棒性程度。端到端系统在培训期间可以在预测层和决策层之间传达该信息的优势,从而使参数可以接受最终任务的培训,而不仅仅是用于预测性能。但是,现有的端到端系统无法量化和纠正模型风险对决策层的影响。我们提出的分配在良好的端到端投资组合选择系统明确说明了模型风险的影响。决策层通过解决最小值问题来选择投资组合,其中假定资产返回的分布属于围绕名义分布的歧义集。使用凸双重性,我们以一种允许对端到端系统进行有效训练的形式重新阐述了最小问题。
translated by 谷歌翻译
预测+优化是一个常见的真实范式,在那里我们必须在解决优化问题之前预测问题参数。然而,培训预测模型的标准通常与下游优化问题的目标不一致。最近,已经提出了集中的预测方法,例如Spo +和直接优化,以填补这种差距。但是,它们不能直接处理许多真实目标所需的$最大$算子的软限制。本文提出了一种用于现实世界线性和半定义负二次编程问题的新型分析微弱的代理目标框架,具有软线和非负面的硬度约束。该框架给出了约束乘法器上的理论界限,并导出了关于预测参数的闭合形式解决方案,从而导出问题中的任何变量的梯度。我们在使用软限制扩展的三个应用程序中评估我们的方法:合成线性规划,产品组合优化和资源供应,表明我们的方法优于传统的双阶段方法和其他集中决定的方法。
translated by 谷歌翻译
许多实际优化问题涉及不确定的参数,这些参数具有概率分布,可以使用上下文特征信息来估算。与首先估计不确定参数的分布然后基于估计优化目标的标准方法相反,我们提出了一个\ textIt {集成条件估计 - 优化}(ICEO)框架,该框架估计了随机参数的潜在条件分布同时考虑优化问题的结构。我们将随机参数的条件分布与上下文特征之间的关系直接建模,然后以与下游优化问题对齐的目标估算概率模型。我们表明,我们的ICEO方法在适度的规律性条件下渐近一致,并以概括范围的形式提供有限的性能保证。在计算上,使用ICEO方法执行估计是一种非凸面且通常是非差异的优化问题。我们提出了一种通用方法,用于近似从估计的条件分布到通过可区分函数的最佳决策的潜在非差异映射,这极大地改善了应用于非凸问题的基于梯度的算法的性能。我们还提供了半代理案例中的多项式优化解决方案方法。还进行了数值实验,以显示我们在不同情况下的方法的经验成功,包括数据样本和模型不匹配。
translated by 谷歌翻译
在预测 - 优化框架中,目的是训练预测模型,从环境特征映射到优化问题的参数,这使得当优化被求解时最大化判定质量。最近的决定学习的工作表明,与依赖于用于评估预测质量的中间损耗功能相比,嵌入训练管道中的优化问题可以提高判定质量,并帮助更好地提高未经任务的任务。我们研究了通过增强学习解决的顺序决策问题(制定为MDP)的上下文中的预测 - 优化框架。特别是,我们是给予的环境特征和来自训练MDP的一组轨迹,我们用于训练推广的预测模型,无需轨迹。在将决策的学习应用于MDPS上,出现了两个重要的计算挑战:(i)大状态和行动空间使现有技术可行,以区分通过MDP问题,并且(ii)是由神经的参数化的高维策略空间网络,通过昂贵的政策进行区分。我们通过采样可释放的无偏见的衍生物来解决第一挑战,以通过最优条件近似和分辨,并通过使用基于高维样本的衍生物的低秩近似来分辨。我们在缺少参数的三个不同MDP问题上实现了基于Bellman的基于政策梯度的决定学习,并表明,决定的学习在概括任务中表现更好。
translated by 谷歌翻译
深度学习在广泛的AI应用方面取得了有希望的结果。较大的数据集和模型一致地产生更好的性能。但是,我们一般花费更长的培训时间,以更多的计算和沟通。在本调查中,我们的目标是在模型精度和模型效率方面提供关于大规模深度学习优化的清晰草图。我们调查最常用于优化的算法,详细阐述了大批量培训中出现的泛化差距的可辩论主题,并审查了解决通信开销并减少内存足迹的SOTA策略。
translated by 谷歌翻译
制定现实世界优化问题通常从历史数据中的预测开始(例如,旨在推荐快速路线在旅行时间预测上依赖的优化器)。通常,学习用于生成优化问题的预测模型并解决该问题的在两个单独的阶段中执行。最近的工作表明,通过通过优化任务区分,如何通过差异来学习这些预测模型。这些方法通常会产生经验改进,通常归因于端到端,比两级解决方案中使用的标准损耗功能更好地制作更好的误差权衡。我们优化这种解释,更精确地表征端到端可以提高性能。当预测目标是随机时,两级解决方案必须先验到模型的目标分布的统计数据 - 我们考虑对预测目标的预期 - 而端到端解决方案可以自适应地使这一选择。我们表明,两阶段和端到端方法之间的性能差距与随机优化中相关概念的价格密切相关,并显示了一些现有的POC结果对预测的优化问题的影响。然后,我们考虑一种新颖且特别实际的设置,其中组合多种预测目标以获得每个目标函数的系数。我们给出了明确的结构,其中(1)两级表现不足低于端到端; (2)两级是最佳的。我们使用模拟来通过实验量化性能差距,并从文献中确定各种现实世界应用,其客观函数依赖于多种预测目标,表明端到端学习可以产生重大改进。
translated by 谷歌翻译
This paper surveys the recent attempts, both from the machine learning and operations research communities, at leveraging machine learning to solve combinatorial optimization problems. Given the hard nature of these problems, state-of-the-art algorithms rely on handcrafted heuristics for making decisions that are otherwise too expensive to compute or mathematically not well defined. Thus, machine learning looks like a natural candidate to make such decisions in a more principled and optimized way. We advocate for pushing further the integration of machine learning and combinatorial optimization and detail a methodology to do so. A main point of the paper is seeing generic optimization problems as data points and inquiring what is the relevant distribution of problems to use for learning on a given task.
translated by 谷歌翻译
度量启发是最新的框架,用于启发分类性能指标,可以根据任务和上下文最好地反映隐性用户偏好。但是,可用的启发策略仅限于预测率的线性(或准线性)函数,这实际上对包括公平性在内的许多应用可能是限制的。本文制定了一种策略,以引发由二次功能定义的更灵活的多类指标,旨在更好地反映人类的偏好。我们展示了它在启发基于二次违规的集体 - fair量指标中的应用。我们的策略仅需要相对的偏好反馈,对噪声是强大的,并且达到了近乎最佳的查询复杂性。我们将此策略进一步扩展到启发多项式指标,从而扩大了用例以进行度量启发。
translated by 谷歌翻译
了解黑盒机器学习模型对于广泛采用至关重要。学习全球可解释的模型是一种方法,但是与他们一起实现高性能是具有挑战性的。另一种方法是使用本地解释的模型来解释个人预测。对于本地可解释的建模,已经提出了各种方法,并且确实使用了常用,但是它们的保真度低,即它们的解释不能很好地近似预测。在本文中,我们的目标是推动高保真性的本地解释建模。我们提出了一个新颖的框架,使用实例的亚采样(LIMIS)进行局部解释的建模。 Limis利用策略梯度选择少数实例,并使用这些选定的实例将黑框模型提炼成一个低容量的本地解释模型。培训是通过衡量本地可解释模型的保真度直接获得的奖励来指导的。我们在多个表格数据集上显示了LIMIS接近匹配黑框模型的预测准确性,从忠诚度和预测准确性方面大大优于最先进的本地解释模型。
translated by 谷歌翻译
超参数优化构成了典型的现代机器学习工作流程的很大一部分。这是由于这样一个事实,即机器学习方法和相应的预处理步骤通常只有在正确调整超参数时就会产生最佳性能。但是在许多应用中,我们不仅有兴趣仅仅为了预测精度而优化ML管道;确定最佳配置时,必须考虑其他指标或约束,从而导致多目标优化问题。由于缺乏知识和用于多目标超参数优化的知识和容易获得的软件实现,因此通常在实践中被忽略。在这项工作中,我们向读者介绍了多个客观超参数优化的基础知识,并激励其在应用ML中的实用性。此外,我们从进化算法和贝叶斯优化的领域提供了现有优化策略的广泛调查。我们说明了MOO在几个特定ML应用中的实用性,考虑了诸如操作条件,预测时间,稀疏,公平,可解释性和鲁棒性之类的目标。
translated by 谷歌翻译
我们查看模型可解释性的特定方面:模型通常需要限制在大小上才能被认为是可解释的,例如,深度5的决策树比深度50中的一个更容易解释。但是,较小的模型也倾向于高偏见。这表明可解释性和准确性之间的权衡。我们提出了一种模型不可知论技术,以最大程度地减少这种权衡。我们的策略是首先学习甲骨文,这是培训数据上高度准确的概率模型。 Oracle预测的不确定性用于学习培训数据的抽样分布。然后,对使用此分布获得的数据样本进行了可解释的模型,通常会导致精确度明显更高。我们将抽样策略作为优化问题。我们的解决方案1具有以下关键的有利属性:(1)它使用固定数量的七个优化变量,而与数据的维度(2)无关,它是模型不可知的 - 因为可解释的模型和甲骨文都可能属于任意性模型家族(3)它具有模型大小的灵活概念,并且可以容纳向量大小(4)它是一个框架,使其能够从优化领域的进度中受益。我们还提出了以下有趣的观察结果:(a)通常,小型模型大小的最佳训练分布与测试分布不同; (b)即使可解释的模型和甲骨文来自高度截然不同的模型家族,也存在这种效果:我们通过使用封闭的复发单位网络作为甲骨文来提高决策树的序列分类精度,从而在文本分类任务上显示此效果。使用字符n-grams; (c)对于模型,我们的技术可用于确定给定样本量的最佳训练样本。
translated by 谷歌翻译
Decision-making problems are commonly formulated as optimization problems, which are then solved to make optimal decisions. In this work, we consider the inverse problem where we use prior decision data to uncover the underlying decision-making process in the form of a mathematical optimization model. This statistical learning problem is referred to as data-driven inverse optimization. We focus on problems where the underlying decision-making process is modeled as a convex optimization problem whose parameters are unknown. We formulate the inverse optimization problem as a bilevel program and propose an efficient block coordinate descent-based algorithm to solve large problem instances. Numerical experiments on synthetic datasets demonstrate the computational advantage of our method compared to standard commercial solvers. Moreover, the real-world utility of the proposed approach is highlighted through two realistic case studies in which we consider estimating risk preferences and learning local constraint parameters of agents in a multiplayer Nash bargaining game.
translated by 谷歌翻译
近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加,我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始,显示一般非凸面问题无法在合理的时间内有效地解决。然后,我们提供了一个问题列表,可以通过利用问题的结构来有效地找到全球最小化器,因为可能的问题。处理非凸性的另一种方法是放宽目标,从找到全局最小,以找到静止点或局部最小值。对于该设置,我们首先为确定性一阶方法的收敛速率提出了已知结果,然后是最佳随机和随机梯度方案的一般理论分析,以及随机第一阶方法的概述。之后,我们讨论了非常一般的非凸面问题,例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能,这仍然允许获得一阶的理论融合保证方法。然后,我们考虑更高阶和零序/衍生物的方法及其收敛速率,以获得非凸优化问题。
translated by 谷歌翻译
组合优化是运营研究和计算机科学领域的一个公认领域。直到最近,它的方法一直集中在孤立地解决问题实例,而忽略了它们通常源于实践中的相关数据分布。但是,近年来,人们对使用机器学习,尤其是图形神经网络(GNN)的兴趣激增,作为组合任务的关键构件,直接作为求解器或通过增强确切的求解器。GNN的电感偏差有效地编码了组合和关系输入,因为它们对排列和对输入稀疏性的意识的不变性。本文介绍了对这个新兴领域的最新主要进步的概念回顾,旨在优化和机器学习研究人员。
translated by 谷歌翻译
许多度量学习任务,例如三胞胎学习,最近的邻居检索和可视化,主要是将最终度量是欧几里得距离的某种变体(例如余弦或玛哈拉诺省)的嵌入任务,并且算法必须学会嵌入点进入预选空间。通常不探索对非欧国人几何形状或适当性的研究,我们认为这是由于缺乏学习非欧盟距离距离的工具所致。在认为使用不对称方法特别研究的情况下,我们提出了一种通过输入凸神经网络以可微分方式学习任意伯格曼分歧的新方法。在一组新的和先前研究的任务中,包括不对称回归,排名和聚类,我们证明我们的方法比以前的布雷格曼学习方法更忠实地学习分歧。为此,我们获得了学习神经差异的第一种方法,并继承了布雷格曼分歧的许多不错的数学特性,为更好地发展和研究不对称距离学习提供了基础和工具。
translated by 谷歌翻译