智能论文笔记

Careful! Training Relevance is Real

Chenbo Shi , Mohsen Emadikhiav , Leonardo Lozano , David Bergman

分类：机器学习

2022-01-12

最近关于机器学习和优化集成的研究的扩散。该研究流中的一个膨胀区域是预测模型嵌入式优化，其使用预先接受训练的预测模型来实现优化问题的目标函数，因此预测模型的特征成为优化问题中的决策变量。尽管该领域最近出版物飙升，但这一决策管道的一个方面已经很大程度上被忽视的是培训相关性，即确保对优化问题的解决方案应该类似于用于训练预测模型的数据。在本文中，我们提出了旨在实施培训相关性的限制，并通过集合来展示添加建议的约束显着提高所获得的溶液质量。

translated by 谷歌翻译

Acceleration techniques for optimization over trained neural network ensembles

Keliang Wang , Leonardo Lozano , Carlos Cardonha , David Bergman

分类：机器学习

2021-12-13

我们研究了通过具有整流线性单元（Relu）激活的前馈神经网络建模目标函数的优化问题。最近的文献已经探讨了单一神经网络的使用来模拟目标函数内的不确定或复杂元素。然而，众所周知，神经网络的集合产生更稳定的预测，并且具有比具有单个神经网络的模型更好的普遍性，这表明在决策管道中应用神经网络的集合。我们研究如何将神经网络集合纳入优化模型的客观函数，并探索随后的问题的计算方法。我们基于现有流行的大量M $配方提供了一种混合整数线性程序，以优化单个神经网络。我们为我们的模型开发了两个加速技术，首先是一种预处理程序，用于拧紧神经网络中的关键神经元的界限，而第二个是基于弯曲分解的一组有效的不等式。我们解决方案方法的实验评估在一个全球优化问题和两个现实世界数据集中进行;结果表明，我们的优化算法在计算时间和最优性间隙方面优于最先进的方法的适应。

translated by 谷歌翻译

Optimization with Constraint Learning: A Framework and Survey

Adejuyigbe Fajemisin , Donato Maragno , Dick den Hertog

分类：机器学习

2021-10-05

许多现实生活中的优化问题通常包含一个或多个没有明确公式的约束或目标。但是，如果可用数据，这些数据可用于学习约束。清楚地看到了这种方法的好处，但是需要以结构化的方式进行此过程。因此，本文提供了一个使用约束学习（OCL）进行优化的框架，我们认为这将有助于正式化和指导从数据中学习的过程。该框架包括以下步骤：（i）设置概念优化模型，（ii）数据收集和预处理，（iii）选择和培训预测模型，（iv）解决优化模型以及（v）验证和验证和验证和验证改进优化模型。然后，我们根据该框架回顾了最近的OCL文献，并强调了当前的趋势以及未来研究的领域。

translated by 谷歌翻译

Mixed-Integer Optimization with Constraint Learning

Donato Maragno , Holly Wiberg , Dimitris Bertsimas , S. Ilker Birbil , Dick den Hertog , Adejuyigbe Fajemisin

分类：机器学习 | (统计)机器学习

2021-11-04

我们为学习限制建立了混合整数优化的广泛方法论基础。我们提出了一种用于数据驱动决策的端到端管道，其中使用机器学习直接从数据中学习限制和目标，并且培训的模型嵌入在优化配方中。我们利用许多机器学习方法的混合整数优化 - 焦点，包括线性模型，决策树，集合和多层的感知。对多种方法的考虑允许我们捕获决策，上下文变量和结果之间的各种潜在关系。我们还使用观察结果的凸船体来表征决策信任区域，以确保可信的建议并避免推断。我们有效地使用列生成和聚类来纳入这个表示。结合域驱动的约束和客观术语，嵌入式模型和信任区域定义了处方生成的混合整数优化问题。我们将此框架实施为从业者的Python包（OptiCl）。我们展示了化疗优化和世界食物计划规划中的方法。案例研究说明了在生成高质量处方的框架中的框架，由信任区域添加的值，加入多个机器学习方法以及包含多个学习约束的框架。

translated by 谷歌翻译

PyEPO: A PyTorch-based End-to-End Predict-then-Optimize Library for Linear and Integer Programming

Bo Tang , Elias B. Khalil

分类：机器学习

2022-06-28

在确定性优化中，通常假定问题的所有参数都是固定和已知的。但是，实际上，某些参数可能是未知的先验参数，但可以从历史数据中估算。典型的预测 - 优化方法将预测和优化分为两个阶段。最近，端到端的预测到优化已成为有吸引力的替代方法。在这项工作中，我们介绍了PYEPO软件包，这是一个基于Pytorch的端到端预测，然后在Python中进行了优化的库。据我们所知，PYEPO（发音为“带有静音” n“”的“菠萝”）是线性和整数编程的第一个通用工具，具有预测的目标函数系数。它提供了两种基本算法：第一种基于Elmachtoub＆Grigas（2021）的开创性工作的凸替代损失函数，第二个基于Vlastelica等人的可区分黑盒求解器方法。（2019）。 PYEPO提供了一个简单的接口，用于定义新的优化问题，最先进的预测 - 优化训练算法，自定义神经网络体系结构的使用以及端到端方法与端到端方法与与端到端方法的比较两阶段的方法。 PYEPO使我们能够进行一系列全面的实验，以比较沿轴上的多种端到端和两阶段方法，例如预测准确性，决策质量和运行时间，例如最短路径，多个背包和旅行等问题销售人员问题。我们讨论了这些实验中的一些经验见解，这些见解可以指导未来的研究。 PYEPO及其文档可在https://github.com/khalil-research/pyepo上找到。

translated by 谷歌翻译

Integrated Conditional Estimation-Optimization

Paul Grigas , Meng Qi , Zuo-Jun , Shen

分类： (统计)机器学习 | 机器学习

2021-10-24

许多实际优化问题涉及不确定的参数，这些参数具有概率分布，可以使用上下文特征信息来估算。与首先估计不确定参数的分布然后基于估计优化目标的标准方法相反，我们提出了一个\ textIt {集成条件估计 - 优化}（ICEO）框架，该框架估计了随机参数的潜在条件分布同时考虑优化问题的结构。我们将随机参数的条件分布与上下文特征之间的关系直接建模，然后以与下游优化问题对齐的目标估算概率模型。我们表明，我们的ICEO方法在适度的规律性条件下渐近一致，并以概括范围的形式提供有限的性能保证。在计算上，使用ICEO方法执行估计是一种非凸面且通常是非差异的优化问题。我们提出了一种通用方法，用于近似从估计的条件分布到通过可区分函数的最佳决策的潜在非差异映射，这极大地改善了应用于非凸问题的基于梯度的算法的性能。我们还提供了半代理案例中的多项式优化解决方案方法。还进行了数值实验，以显示我们在不同情况下的方法的经验成功，包括数据样本和模型不匹配。

translated by 谷歌翻译

A Machine Learning Approach to Solving Large Bilevel and Stochastic Programs: Application to Cycling Network Design

Timothy C. Y. Chan , Bo Lin , Shoshanna Saxe

分类：机器学习

2022-09-20

我们提出了一种基于机器学习的新型方法来解决涉及大量独立关注者的二重性程序，作为一种特殊情况，其中包括两阶段随机编程。我们提出了一个优化模型，该模型明确考虑了追随者的采样子集，并利用机器学习模型来估计未采样关注者的客观值。与现有方法不同，我们将机器学习模型培训嵌入到优化问题中，这使我们能够采用无法使用领导者决策来表示的一般追随者功能。我们证明了由原始目标函数衡量的生成领导者决策的最佳差距，该目标函数考虑了整个追随者集。然后，我们开发追随者采样算法来收紧界限和一种表示追随者功能的表示方法，可以用作嵌入式机器学习模型的输入。使用骑自行车网络设计问题的合成实例，我们比较方法的计算性能与基线方法。我们的方法为追随者的目标价值观提供了更准确的预测，更重要的是，产生了更高质量的领导者决策。最后，我们对骑自行车基础设施计划进行了现实世界中的案例研究，我们采用方法来解决超过一百万关注者的网络设计问题。与当前的自行车网络扩展实践相比，我们的方法提出了有利的性能。

translated by 谷歌翻译

Predictive Machine Learning of Objective Boundaries for Solving COPs

Helge Spieker , Arnaud Gotlieb

分类：人工智能 | 机器学习

2021-11-04

通过边界估计可以显着简化求解约束优化问题（COP），即提供成本函数的紧密边界。通过使用由已知边界的数据组成的数据以及COMPS提取的特征来馈送监督机器学习（ML）模型，可以训练模型以估计新COP实例的边界。在本文中，我们首先概述了来自问题实例的约束编程（CP）的ML的现有知识体系。其次，我们介绍了应用于支持CP解算器的工具的边界估计框架。在该框架内，讨论并评估了不同的ML模型，并评估其对边界估计的适用性，并避免避免求解器找到最佳解决方案的不可行估计的对策。第三，我们在七个警察中提出了一种实验研究，与不同的CP溶剂。我们的结果表明，可以仅限于这些警察的近似最佳边界。这些估计的边界将客观域大小减少60-88％，可以帮助求解器在搜索期间提前找到近乎最佳解决方案。

translated by 谷歌翻译

Efficient Learning of Decision-Making Models: A Penalty Block Coordinate Descent Algorithm for Data-Driven Inverse Optimization

Rishabh Gupta , Qi Zhang

分类：机器学习

2022-10-27

Decision-making problems are commonly formulated as optimization problems, which are then solved to make optimal decisions. In this work, we consider the inverse problem where we use prior decision data to uncover the underlying decision-making process in the form of a mathematical optimization model. This statistical learning problem is referred to as data-driven inverse optimization. We focus on problems where the underlying decision-making process is modeled as a convex optimization problem whose parameters are unknown. We formulate the inverse optimization problem as a bilevel program and propose an efficient block coordinate descent-based algorithm to solve large problem instances. Numerical experiments on synthetic datasets demonstrate the computational advantage of our method compared to standard commercial solvers. Moreover, the real-world utility of the proposed approach is highlighted through two realistic case studies in which we consider estimating risk preferences and learning local constraint parameters of agents in a multiplayer Nash bargaining game.

translated by 谷歌翻译

On data-driven chance constraint learning for mixed-integer optimization problems

Antonio Alcántara , Carlos Ruiz

分类： (统计)机器学习

2022-07-08

在处理现实世界优化问题时，决策者通常会面临与部分信息，未知参数或这些问题之间的复杂关系与问题决策变量相关的高度不确定性。在这项工作中，我们开发了一种新颖的机会限制学习（CCL）方法，重点是混合组合线性优化问题，该问题结合了机会约束和约束学习文献的思想。机会约束为要实现的单个或一组约束设定了概率置信度，而约束学习方法旨在通过预测模型对问题变量之间的功能关系进行建模。当我们需要为其响应变量设定进一步的界限时，就会出现一个主要问题之一：实现这些变量直接与预测模型的准确性及其概率行为有关。从这个意义上讲，CCL利用可线化的机器学习模型来估计学习变量的条件分位数，从而为机会约束提供了数据驱动的解决方案。已经开发了一个开放式软件，可以由从业人员使用。此外，在两个现实世界中的案例研究中已经测试了CCL的益处，证明当设定概率界限以进行学习的约束时，如何将鲁棒性添加到最佳解决方案中。

translated by 谷歌翻译

Decomposition and Adaptive Sampling for Data-Driven Inverse Linear Optimization

Rishabh Gupta , Qi Zhang

分类：机器学习

2020-09-16

这项工作解决了逆线优化，其中目标是推断线性程序的未知成本向量。具体地，我们考虑数据驱动的设置，其中可用数据是对应于线性程序的不同实例的最佳解决方案的嘈杂的观察。我们介绍了一个问题的新配方，与其他现有方法相比，允许恢复较少的限制性和一般更适当的可允许成本估算。可以表明，该逆优化问题产生有限数量的解决方案，并且我们开发了一个精确的两相算法来确定所有此类解决方案。此外，我们提出了一种有效的分解算法来解决问题的大实例。该算法自然地扩展到在线学习环境，可以用于提供成本估计的快速更新，因为新数据随着时间的推移可用。对于在线设置，我们进一步开发了一种有效的自适应采样策略，指导下一个样本的选择。所提出的方法的功效在涉及两种应用，客户偏好学习和生产计划的成本估算的计算实验中进行了证明。结果表明计算和采样努力的显着减少。

translated by 谷歌翻译

Data-driven Prediction of Relevant Scenarios for Robust Combinatorial Optimization

Marc Goerigk , Jannis Kurtz

分类：机器学习

2022-03-30

We study iterative methods for (two-stage) robust combinatorial optimization problems with discrete uncertainty. We propose a machine-learning-based heuristic to determine starting scenarios that provide strong lower bounds. To this end, we design dimension-independent features and train a Random Forest Classifier on small-dimensional instances. Experiments show that our method improves the solution process for larger instances than contained in the training set and also provides a feature importance-score which gives insights into the role of scenario properties.

translated by 谷歌翻译

Hyperparameter Optimization: Foundations, Algorithms, Best Practices and Open Challenges

Bernd Bischl , Martin Binder , Michel Lang , Tobias Pielok , Jakob Richter , Stefan Coors , Janek Thomas , Theresa Ullmann , Marc Becker , Anne-Laure Boulesteix

分类： (统计)机器学习 | 机器学习

2021-07-13

大多数机器学习算法由一个或多个超参数配置，必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置，可以采用各种自动超参数优化（HPO）方法，例如，基于监督机器学习的重新采样误差估计。本文介绍了HPO后，本文审查了重要的HPO方法，如网格或随机搜索，进化算法，贝叶斯优化，超带和赛车。它给出了关于进行HPO的重要选择的实用建议，包括HPO算法本身，性能评估，如何将HPO与ML管道，运行时改进和并行化结合起来。这项工作伴随着附录，其中包含关于R和Python的特定软件包的信息，以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑，这些笔记本展示了这项工作的概念作为补充文件。

translated by 谷歌翻译

A Framework for Inherently Interpretable Optimization Models

Marc Goerigk , Michael Hartisch

分类：机器学习

2022-08-26

随着优化软件的显着改进，几十年前似乎棘手的大规模问题的解决方案现在已成为日常任务。这将更多的现实应用程序纳入了优化器的范围。同时，解决优化问题通常是将解决方案付诸实践时较小的困难之一。一个主要的障碍是，可以将优化软件视为黑匣子，它可能会产生高质量的解决方案，但是当情况发生变化时，可以创建完全不同的解决方案，从而导致对优化解决方案的接受率低。这种可解释性和解释性的问题在其他领域（例如机器学习）引起了极大的关注，但在优化方面却不那么关注。在本文中，我们提出了一个优化框架，以得出本质上具有易于理解的解释性规则的解决方案，在哪些情况下应选择解决方案。我们专注于代表解释性规则的决策树，我们提出了整数编程公式以及一种启发式方法，以确保我们的方法即使在大规模问题上也适用。使用随机和现实世界数据的计算实验表明，固有的可解释性成本可能很小。

translated by 谷歌翻译

HTML版本

A Survey of Open Source Automation Tools for Data Science Predictions

Nicholas Hoell

分类：机器学习

2022-08-24

我们介绍了数据科学预测生命周期中各个阶段开发和采用自动化的技术和文化挑战的说明概述，从而将重点限制为使用结构化数据集的监督学习。此外，我们回顾了流行的开源Python工具，这些工具实施了针对自动化挑战的通用解决方案模式，并突出了我们认为进步仍然需要的差距。

translated by 谷歌翻译

HTML版本

Comparison and Evaluation of Methods for a Predict+Optimize Problem in Renewable Energy

Christoph Bergmeir , Frits de Nijs , Abishek Sriramulu , Mahdi Abolghasemi , Richard Bean , John Betts , Quang Bui , Nam Trong Dinh , Nils Einecke , Rasul Esmaeilbeigi

分类：人工智能

2022-12-21

Algorithms that involve both forecasting and optimization are at the core of solutions to many difficult real-world problems, such as in supply chains (inventory optimization), traffic, and in the transition towards carbon-free energy generation in battery/load/production scheduling in sustainable energy systems. Typically, in these scenarios we want to solve an optimization problem that depends on unknown future values, which therefore need to be forecast. As both forecasting and optimization are difficult problems in their own right, relatively few research has been done in this area. This paper presents the findings of the ``IEEE-CIS Technical Challenge on Predict+Optimize for Renewable Energy Scheduling," held in 2021. We present a comparison and evaluation of the seven highest-ranked solutions in the competition, to provide researchers with a benchmark problem and to establish the state of the art for this benchmark, with the aim to foster and facilitate research in this area. The competition used data from the Monash Microgrid, as well as weather data and energy market data. It then focused on two main challenges: forecasting renewable energy production and demand, and obtaining an optimal schedule for the activities (lectures) and on-site batteries that lead to the lowest cost of energy. The most accurate forecasts were obtained by gradient-boosted tree and random forest models, and optimization was mostly performed using mixed integer linear and quadratic programming. The winning method predicted different scenarios and optimized over all scenarios jointly using a sample average approximation method.

translated by 谷歌翻译

Machine Learning for K-adaptability in Two-stage Robust Optimization

Esther Julien , Krzysztof Postek , Ş. İlker Birbil

分类：机器学习

2022-10-20

Two-stage robust optimization problems constitute one of the hardest optimization problem classes. One of the solution approaches to this class of problems is K-adaptability. This approach simultaneously seeks the best partitioning of the uncertainty set of scenarios into K subsets, and optimizes decisions corresponding to each of these subsets. In general case, it is solved using the K-adaptability branch-and-bound algorithm, which requires exploration of exponentially-growing solution trees. To accelerate finding high-quality solutions in such trees, we propose a machine learning-based node selection strategy. In particular, we construct a feature engineering scheme based on general two-stage robust optimization insights that allows us to train our machine learning tool on a database of resolved B&B trees, and to apply it as-is to problems of different sizes and/or types. We experimentally show that using our learned node selection strategy outperforms a vanilla, random node selection strategy when tested on problems of the same type as the training problems, also in case the K-value or the problem size differs from the training ones.

translated by 谷歌翻译

A review on longitudinal data analysis with random forest in precision medicine

Jianchang Hu , Silke Szymczak

分类： (统计)机器学习 | 机器学习

2022-08-08

Precision Medicine根据患者的特征为患者提供定制的治疗方法，是提高治疗效率的一种有希望的方法。大规模的OMICS数据对于患者表征很有用，但是它们的测量经常会随着时间而变化，从而导致纵向数据。随机森林是用于构建预测模型的最先进的机器学习方法之一，并且可以在精密医学中发挥关键作用。在本文中，我们回顾了标准随机森林方法的扩展，以进行纵向数据分析。扩展方法根据其设计的数据结构进行分类。我们考虑单变量和多变量响应，并根据时间效应是否相关，进一步对重复测量进行分类。还提供了审查扩展程序的可用软件实现信息。最后，我们讨论了我们审查的局限性和一些未来的研究指示。

translated by 谷歌翻译

Leak Detection in Natural Gas Pipeline Using Machine Learning Models

Adebayo Oshingbesan

分类：机器学习

2022-09-21

天然气管道中的泄漏检测是石油和天然气行业的一个重要且持续的问题。这尤其重要，因为管道是运输天然气的最常见方法。这项研究旨在研究数据驱动的智能模型使用基本操作参数检测天然气管道的小泄漏的能力，然后使用现有的性能指标比较智能模型。该项目应用观察者设计技术，使用回归分类层次模型来检测天然气管道中的泄漏，其中智能模型充当回归器，并且修改后的逻辑回归模型充当分类器。该项目使用四个星期的管道数据流研究了五个智能模型（梯度提升，决策树，随机森林，支持向量机和人工神经网络）。结果表明，虽然支持向量机和人工神经网络比其他网络更好，但由于其内部复杂性和所使用的数据量，它们并未提供最佳的泄漏检测结果。随机森林和决策树模型是最敏感的，因为它们可以在大约2小时内检测到标称流量的0.1％的泄漏。所有智能模型在测试阶段中具有高可靠性，错误警报率为零。将所有智能模型泄漏检测的平均时间与文献中的实时短暂模型进行了比较。结果表明，智能模型在泄漏检测问题中的表现相对较好。该结果表明，可以与实时瞬态模型一起使用智能模型，以显着改善泄漏检测结果。

translated by 谷歌翻译

Bilevel Optimization for Feature Selection in the Data-Driven Newsvendor Problem

Breno Serrano , Stefan Minner , Maximilian Schiffer , Thibaut Vidal

分类：机器学习

2022-09-12

我们研究了基于功能的新闻企业问题，其中决策者可以访问包括需求观察和外源特征组成的历史数据。在这种情况下，我们研究了功能选择，旨在得出具有改进样本外部性能的稀疏，可解释的模型。到目前为止，最新的方法利用正则化，这会惩罚所选特征的数量或解决方案向量的规范。作为替代方案，我们介绍了一种新型的双层编程公式。高级问题选择了一部分功能，这些功能将基于固定验证集的订购决策的样本外成本估算最小化。下层问题仅使用上层选择的功能，了解训练集中决策功能的最佳系数。我们为Bilevel程序提供了混合整数线性程序重新制定，可以通过标准优化求解器求解为最佳性。我们的计算实验表明，该方法准确地恢复了几百个观察结果的实例中的基础真相。相反，基于正则化的技术通常在功能恢复时失败，或者需要数千个观察值才能获得相似的准确性。关于样本外的概括，我们实现了改进或可比的成本绩效。

translated by 谷歌翻译