智能论文笔记

Efficient differentiable quadratic programming layers: an ADMM approach

Andrew Butler , Roy Kwon

分类：人工智能 | 机器学习 | (统计)机器学习

2021-12-14

神经网络架构的最新进展允许凸优化问题的无缝集成作为端到端可训练神经网络中的可差异层。然而，将中型和大规模二次程序集成到深度神经网络架构中是具有挑战性的，因为通过内部点方法究竟求解了二次程序，在变量的数量中具有最差的立方复杂性。在本文中，我们介绍了一种基于乘法器（ADMM）的交替方向方法的替代网络层体系结构，其能够缩放到中等大量变量的问题。通过修改的固定点迭代的残差映射的隐式分化来执行向后区分。模拟结果证明了ADMM层的计算优势，用于中等缩放问题的速度大约比OptNet二次编程层更快的峰值。此外，与基于展开的展差或kKt最优性条件的隐含分化的标准方法相比，我们的新型反向传递例程是高效的，从内存和计算角度来看。我们与综合预测和优化范例中的组合优化的实例结束。

translated by 谷歌翻译

OptNet: Differentiable Optimization as a Layer in Neural Networks

Brandon Amos , J. Zico Kolter

分类：机器学习 | 人工智能 | (统计)机器学习

2017-03-01

本文介绍了OptNet，该网络架构集成了优化问题（这里，专门以二次程序的形式），作为较大端到端可训练的深网络中的单个层。这些层在隐藏状态之间编码约束和复杂依赖性，传统的卷积和完全连接的层通常无法捕获。我们探索这种架构的基础：我们展示了如何使用敏感性分析，彼得优化和隐式差分的技术如何通过这些层和相对于层参数精确地区分;我们为这些层开发了一种高效的解算器，用于利用基于GPU的基于GPU的批处理在原始 - 双内部点法中解决，并且在求解的顶部几乎没有额外的成本提供了反向衰减梯度;我们突出了这些方法在几个问题中的应用。在一个值得注意的示例中，该方法学习仅在输入和输出游戏中播放Mini-sudoku（4x4），没有关于游戏规则的a-priori信息;这突出了OptNet比其他神经架构更好地学习硬限制的能力。

translated by 谷歌翻译

Theseus: A Library for Differentiable Nonlinear Optimization

Luis Pineda , Taosha Fan , Maurizio Monge , Shobha Venkataraman , Paloma Sodhi , Ricky Chen , Joseph Ortiz , Daniel DeTone , Austin Wang , Stuart Anderson

分类：机器人 | 计算机视觉 | 机器学习

2022-07-19

我们提出了Theseus，这是一个有效的应用程序不合时宜的开源库，用于在Pytorch上构建的可区分非线性最小二乘（DNL）优化，为机器人技术和视觉中的端到端结构化学习提供了一个共同的框架。现有的DNLS实施是特定应用程序的，并且并不总是纳入许多对效率重要的成分。 Theseus是应用程序不可静止的，正如我们使用的几个示例应用程序所用的，这些应用程序是使用相同的基础可区分组件构建的，例如二阶优化器，标准成本功能和Lie组。为了提高效率，TheseUS纳入了对稀疏求解器，自动矢量化，批处理，GPU加速度和梯度计算的支持，并具有隐式分化和直接损耗最小化。我们在一组应用程序中进行了广泛的性能评估，显示出这些功能时显示出明显的效率提高和更好的可扩展性。项目页面：https：//sites.google.com/view/theseus-ai

translated by 谷歌翻译

PyEPO: A PyTorch-based End-to-End Predict-then-Optimize Library for Linear and Integer Programming

Bo Tang , Elias B. Khalil

分类：机器学习

2022-06-28

在确定性优化中，通常假定问题的所有参数都是固定和已知的。但是，实际上，某些参数可能是未知的先验参数，但可以从历史数据中估算。典型的预测 - 优化方法将预测和优化分为两个阶段。最近，端到端的预测到优化已成为有吸引力的替代方法。在这项工作中，我们介绍了PYEPO软件包，这是一个基于Pytorch的端到端预测，然后在Python中进行了优化的库。据我们所知，PYEPO（发音为“带有静音” n“”的“菠萝”）是线性和整数编程的第一个通用工具，具有预测的目标函数系数。它提供了两种基本算法：第一种基于Elmachtoub＆Grigas（2021）的开创性工作的凸替代损失函数，第二个基于Vlastelica等人的可区分黑盒求解器方法。（2019）。 PYEPO提供了一个简单的接口，用于定义新的优化问题，最先进的预测 - 优化训练算法，自定义神经网络体系结构的使用以及端到端方法与端到端方法与与端到端方法的比较两阶段的方法。 PYEPO使我们能够进行一系列全面的实验，以比较沿轴上的多种端到端和两阶段方法，例如预测准确性，决策质量和运行时间，例如最短路径，多个背包和旅行等问题销售人员问题。我们讨论了这些实验中的一些经验见解，这些见解可以指导未来的研究。 PYEPO及其文档可在https://github.com/khalil-research/pyepo上找到。

translated by 谷歌翻译

Optimal Diagonal Preconditioning: Theory and Practice

Zhaonan Qu , Wenzhi Gao , Oliver Hinder , Yinyu Ye , Zhengyuan Zhou

分类：机器学习 | (统计)机器学习

2022-09-02

预处理一直是优化和机器学习方面的主食技术。它通常会减少其应用于矩阵的条件数，从而加快优化算法的收敛性。尽管实践中有许多流行的预处理技术，但大多数人缺乏降低病数的理论保证。在本文中，我们研究了最佳对角线预处理的问题，以分别或同时分别或同时缩放其行或列来实现任何全级矩阵的条件数量的最大降低。我们首先将问题重新将问题重新制定为一个准凸出问题，并提供了一种基线一分配算法，该算法在实践中易于实现，其中每次迭代都包含SDP可行性问题。然后，我们建议使用$ o（\ log（\ frac {1} {\ epsilon}）））$迭代复杂度提出多项式时间潜在的降低算法，其中每个迭代均由基于Nesterov-todd方向的牛顿更新组成。我们的算法基于该问题的表述，该问题是von Neumann最佳生长问题的广义版本。接下来，我们专注于单方面的最佳对角线预处理问题，并证明它们可以作为标准双SDP问题配方，我们应用了有效的定制求解器并研究我们最佳的对角线预处理的经验性能。我们在大型矩阵上进行的广泛实验表明，与基于启发式的预处理相比，最佳对角线预处理在减少条件数方面的实际吸引力。

translated by 谷歌翻译

Fixed-Point Automatic Differentiation of Forward--Backward Splitting Algorithms for Partly Smooth Functions

Sheheryar Mehmood , Peter Ochs

分类：机器学习

2022-08-05

一类非平滑实践优化问题可以写成，以最大程度地减少平滑且部分平滑的功能。我们考虑了这种结构化问题，这些问题也取决于参数矢量，并研究了将其解决方案映射相对于参数的问题，该参数在灵敏度分析和参数学习选择材料问题中具有很大的应用。我们表明，在部分平滑度和其他温和假设下，近端分裂算法产生的序列的自动分化（AD）会收敛于溶液映射的衍生物。对于一种自动分化的变体，我们称定点自动分化（FPAD），我们纠正了反向模式AD的内存开销问题，此外，理论上提供了更快的收敛。我们从数值上说明了套索和组套索问题的AD和FPAD的收敛性和收敛速率，并通过学习正则化项来证明FPAD在原型实用图像deoise问题上的工作。

translated by 谷歌翻译

Flexible Differentiable Optimization via Model Transformations

Akshay Sharma , Mathieu Besançon , Joaquim Dias Garcia , Benoît Legat

分类：机器学习

2022-06-10

我们介绍了Julia库Diffopt.jl，以通过凸优化问题解决目标和/或约束中存在的任意参数来区分。该库建立在数学上的基础上，因此利用了丰富的求解器生态系统，并用跳跃等建模语言很好地组成。DIFFOPT提供了前向和反向分化模式，从而使多个用例从高参数优化到反向传播和灵敏度分析，桥接受约束优化和端到端可区分编程。

translated by 谷歌翻译

A Surrogate Objective Framework for Prediction+Optimization with Soft Constraints

Kai Yan , Jie Yan , Chuan Luo , Liting Chen , Qingwei Lin , Dongmei Zhang

分类：机器学习 | 人工智能

2021-11-22

预测+优化是一个常见的真实范式，在那里我们必须在解决优化问题之前预测问题参数。然而，培训预测模型的标准通常与下游优化问题的目标不一致。最近，已经提出了集中的预测方法，例如Spo +和直接优化，以填补这种差距。但是，它们不能直接处理许多真实目标所需的$最大$算子的软限制。本文提出了一种用于现实世界线性和半定义负二次编程问题的新型分析微弱的代理目标框架，具有软线和非负面的硬度约束。该框架给出了约束乘法器上的理论界限，并导出了关于预测参数的闭合形式解决方案，从而导出问题中的任何变量的梯度。我们在使用软限制扩展的三个应用程序中评估我们的方法：合成线性规划，产品组合优化和资源供应，表明我们的方法优于传统的双阶段方法和其他集中决定的方法。

translated by 谷歌翻译

Optimizing Neural Networks with Kronecker-factored Approximate Curvature

James Martens , Roger Grosse

分类：

2015-03-19

We propose an efficient method for approximating natural gradient descent in neural networks which we call Kronecker-factored Approximate Curvature (K-FAC). K-FAC is based on an efficiently invertible approximation of a neural network's Fisher information matrix which is neither diagonal nor low-rank, and in some cases is completely non-sparse. It is derived by approximating various large blocks of the Fisher (corresponding to entire layers) as being the Kronecker product of two much smaller matrices. While only several times more expensive to compute than the plain stochastic gradient, the updates produced by K-FAC make much more progress optimizing the objective, which results in an algorithm that can be much faster than stochastic gradient descent with momentum in practice. And unlike some previously proposed approximate natural-gradient/Newton methods which use high-quality non-diagonal curvature matrices (such as Hessian-free optimization), K-FAC works very well in highly stochastic optimization regimes. This is because the cost of storing and inverting K-FAC's approximation to the curvature matrix does not depend on the amount of data used to estimate it, which is a feature typically associated only with diagonal or low-rank approximations to the curvature matrix.

translated by 谷歌翻译

Adversarially Robust Learning for Security-Constrained Optimal Power Flow

Priya L. Donti , Aayushya Agarwal , Neeraj Vijay Bedmutha , Larry Pileggi , J. Zico Kolter

分类：机器学习

2021-11-12

近年来，ML社区已经看到对普遍稳健的学习和隐式层次的兴趣飙升，但这两个领域之间的联系很少被探索。在这项工作中，我们将来自这些领域的创新结合起来解决N-K安全受限的最佳功率流量（SCOPF）的问题。 N-K SCOPF是用于电网操作的核心问题，并旨在以稳健的方式调度发电，以潜在的K同步设备中断。灵感来自对逆势稳健的培训中的方法，我们将n-k scopf框架作为最低限度优化问题 - 将发电设置视为可调节参数和设备中断作为（对抗性）攻击 - 并通过基于梯度的技术来解决这个问题。此Minimax问题的丢失函数涉及解析表示网格物理和操作决策的隐式方程，我们通过隐式功能定理来区分。我们展示了我们在解决N-3 SCOPF方面的框架的功效，传统上被认为是对解决问题规模的昂贵昂贵的昂贵，因为问题规模在组合上取决于潜在的中断的数量。

translated by 谷歌翻译

Differentiable Bilevel Programming for Stackelberg Congestion Games

Jiayang Li , Jing Yu , Qianni Wang , Boyi Liu , Zhaoran Wang , Yu Marco Nie

分类：人工智能

2022-09-15

一场堆放堡拥堵游戏（SCG）是一个双重计划，领导者的目标是通过预测和操纵均衡状态来最大程度地提高自己的收益，在该状态下，追随者通过玩拥堵游戏而定居。大规模的SCG以其顽固性和复杂性而闻名。这项研究通过可区分的编程来处理SCG，该编程将机器学习的最新发展与常规方法结合在一起。核心思想以模仿logit动力学形成的进化路径代表低级平衡问题。它可以在朝着平衡的演化路径上使用自动分化，从而导致双环梯度下降算法。我们进一步表明，对低级平衡的固定可能是一个自我强加的计算障碍。取而代之的是，领导者只能沿着追随者的演变路径向前看几个步骤，同时通过共同进化过程更新其决策。启示产生了一种单循环算法，该算法在记忆消耗和计算时间方面都更有效。通过涵盖广泛基准问题的数值实验，我们发现单循环算法始终达到解决方案质量和效率之间的良好平衡，不仅优于标准的双环实现，而且优于文献中的其他方法。重要的是，我们的结果既突出了“充分期待”的浪费和“零预期”的危险。如果需要快速启发术来解决一个非常大的SCG，则提议的单环算法具有一步的外观，使其成为理想的候选人。

translated by 谷歌翻译

Efficient Learning of Decision-Making Models: A Penalty Block Coordinate Descent Algorithm for Data-Driven Inverse Optimization

Rishabh Gupta , Qi Zhang

分类：机器学习

2022-10-27

Decision-making problems are commonly formulated as optimization problems, which are then solved to make optimal decisions. In this work, we consider the inverse problem where we use prior decision data to uncover the underlying decision-making process in the form of a mathematical optimization model. This statistical learning problem is referred to as data-driven inverse optimization. We focus on problems where the underlying decision-making process is modeled as a convex optimization problem whose parameters are unknown. We formulate the inverse optimization problem as a bilevel program and propose an efficient block coordinate descent-based algorithm to solve large problem instances. Numerical experiments on synthetic datasets demonstrate the computational advantage of our method compared to standard commercial solvers. Moreover, the real-world utility of the proposed approach is highlighted through two realistic case studies in which we consider estimating risk preferences and learning local constraint parameters of agents in a multiplayer Nash bargaining game.

translated by 谷歌翻译

Fast Convex Optimization for Two-Layer ReLU Networks: Equivalent Model Classes and Cone Decompositions

Aaron Mishkin , Arda Sahiner , Mert Pilanci

分类：机器学习

2022-02-02

我们开发了快速算法和可靠软件，以凸出具有Relu激活功能的两层神经网络的凸优化。我们的工作利用了标准的重量罚款训练问题作为一组组-YELL_1 $调查的数据本地模型的凸重新印度，其中局部由多面体锥体约束强制执行。在零规范化的特殊情况下，我们表明此问题完全等同于凸“ Gated Relu”网络的不受约束的优化。对于非零正则化的问题，我们表明凸面式relu模型获得了RELU训练问题的数据依赖性近似范围。为了优化凸的重新制定，我们开发了一种加速的近端梯度方法和实用的增强拉格朗日求解器。我们表明，这些方法比针对非凸问题（例如SGD）和超越商业内部点求解器的标准训练启发式方法要快。在实验上，我们验证了我们的理论结果，探索组-ELL_1 $正则化路径，并对神经网络进行比例凸的优化，以在MNIST和CIFAR-10上进行图像分类。

translated by 谷歌翻译

On Constraints in First-Order Optimization: A View from Non-Smooth Dynamical Systems

Michael Muehlebach , Michael I. Jordan

分类：机器学习

2021-07-17

We introduce a class of first-order methods for smooth constrained optimization that are based on an analogy to non-smooth dynamical systems. Two distinctive features of our approach are that (i) projections or optimizations over the entire feasible set are avoided, in stark contrast to projected gradient methods or the Frank-Wolfe method, and (ii) iterates are allowed to become infeasible, which differs from active set or feasible direction methods, where the descent motion stops as soon as a new constraint is encountered. The resulting algorithmic procedure is simple to implement even when constraints are nonlinear, and is suitable for large-scale constrained optimization problems in which the feasible set fails to have a simple structure. The key underlying idea is that constraints are expressed in terms of velocities instead of positions, which has the algorithmic consequence that optimizations over feasible sets at each iteration are replaced with optimizations over local, sparse convex approximations. In particular, this means that at each iteration only constraints that are violated are taken into account. The result is a simplified suite of algorithms and an expanded range of possible applications in machine learning.

translated by 谷歌翻译

On Training Implicit Models

Zhengyang Geng , Xin-Yu Zhang , Shaojie Bai , Yisen Wang , Zhouchen Lin

分类：机器学习

2021-11-09

本文侧重于培训无限层的隐含模型。具体而言，以前的作品采用隐式差分，并解决后向传播的精确梯度。但是，是否有必要计算训练的这种精确但昂贵的渐变？在这项工作中，我们提出了一种新颖的梯度估计，用于隐式模型，命名为Phantom梯度，1）用于精确梯度的昂贵计算; 2）提供了对隐式模型培训的凭经质优选的更新方向。理论上，理论上可以分析可以找到损失景观的上升方向的条件，并基于阻尼展开和Neumann系列提供幻象梯度的两个特定实例化。大规模任务的实验表明，这些轻质幻像梯度大大加快了培训隐式模型中的后向往大约1.7倍，甚至基于想象成上的精确渐变来提高对方法的性能。

translated by 谷歌翻译

Efficient Global Optimization of Two-layer ReLU Networks: Quadratic-time Algorithms and Adversarial Training

Yatong Bai , Tanmay Gautam , Somayeh Sojoudi

分类：机器学习

2022-01-06

人工神经网络（ANN）训练景观的非凸起带来了固有的优化困难。虽然传统的背传播随机梯度下降（SGD）算法及其变体在某些情况下是有效的，但它们可以陷入杂散的局部最小值，并且对初始化和普通公共表敏感。最近的工作表明，随着Relu激活的ANN的培训可以重新重整为凸面计划，使希望能够全局优化可解释的ANN。然而，天真地解决凸训练制剂具有指数复杂性，甚至近似启发式需要立方时间。在这项工作中，我们描述了这种近似的质量，并开发了两个有效的算法，这些算法通过全球收敛保证培训。第一算法基于乘法器（ADMM）的交替方向方法。它解决了精确的凸形配方和近似对应物。实现线性全局收敛，并且初始几次迭代通常会产生具有高预测精度的解决方案。求解近似配方时，每次迭代时间复杂度是二次的。基于“采样凸面”理论的第二种算法更简单地实现。它解决了不受约束的凸形制剂，并收敛到大约全球最佳的分类器。当考虑对抗性培训时，ANN训练景观的非凸起加剧了。我们将稳健的凸优化理论应用于凸训练，开发凸起的凸起制剂，培训Anns对抗对抗投入。我们的分析明确地关注一个隐藏层完全连接的ANN，但可以扩展到更复杂的体系结构。

translated by 谷歌翻译

Learning to Solve the AC-OPF using Sensitivity-Informed Deep Neural Networks

Manish K. Singh , Vassilis Kekatos , Georgios B. Giannakis

分类： (统计)机器学习

2021-03-27

要将计算负担从实时到延迟关键电源系统应用程序的脱机，最近的作品招待使用深神经网络（DNN）的想法来预测一次呈现的AC最佳功率流（AC-OPF）的解决方案负载需求。随着网络拓扑可能改变的，以样本有效的方式训练该DNN成为必需品。为提高数据效率，这项工作利用了OPF数据不是简单的训练标签，而是构成参数优化问题的解决方案。因此，我们倡导培训一个灵敏度通知的DNN（SI-DNN），不仅可以匹配OPF优化器，而且还匹配它们的部分导数相对于OPF参数（负载）。结果表明，所需的雅可比矩阵确实存在于温和条件下，并且可以从相关的原始/双解决方案中容易地计算。所提出的Si-DNN与广泛的OPF溶剂兼容，包括非凸出的二次约束的二次程序（QCQP），其半纤维程序（SDP）放松和MatPower;虽然Si-DNN可以在其他学习到OPF方案中无缝集成。三个基准电源系统的数值测试证实了SI-DNN在传统训练的DNN上预测的OPF解决方案的高级泛化和约束满意度，尤其是在低数据设置中。

translated by 谷歌翻译

Combinatorial optimization and reasoning with graph neural networks

Quentin Cappart , Didier Chételat , Elias Khalil , Andrea Lodi , Christopher Morris , Petar Veličković

分类：机器学习 | 神经与进化计算 | (统计)机器学习

2021-02-18

组合优化是运营研究和计算机科学领域的一个公认领域。直到最近，它的方法一直集中在孤立地解决问题实例，而忽略了它们通常源于实践中的相关数据分布。但是，近年来，人们对使用机器学习，尤其是图形神经网络（GNN）的兴趣激增，作为组合任务的关键构件，直接作为求解器或通过增强确切的求解器。GNN的电感偏差有效地编码了组合和关系输入，因为它们对排列和对输入稀疏性的意识的不变性。本文介绍了对这个新兴领域的最新主要进步的概念回顾，旨在优化和机器学习研究人员。

translated by 谷歌翻译

Extensions to the Proximal Distance Method of Constrained Optimization

Alfonso Landeros , Oscar Hernan Madrid Padilla , Hua Zhou , Kenneth Lange

分类：机器学习

2020-09-02

目前的论文研究了最小化损失$ f（\ boldsymbol {x}）$的问题，而在s $ \ boldsymbol {d} \ boldsymbol {x} \的约束，其中$ s $是一个关闭的集合，凸面或非，$ \ boldsymbol {d} $是熔化参数的矩阵。融合约束可以捕获平滑度，稀疏或更一般的约束模式。为了解决这个通用的问题，我们将Beltrami-Courant罚球方法与近距离原则相结合。后者是通过最小化惩罚目标的推动$ f（\ boldsymbol {x}）+ \ frac {\ rho} {2} \ text {dist}（\ boldsymbol {d} \ boldsymbol {x}，s）^ 2 $涉及大型调整常量$ \ rho $和$ \ boldsymbol {d} \ boldsymbol {x} $的平方欧几里德距离$ s $。通过最小化大多数代理函数$ f（\ boldsymbol {x}，从当前迭代$ \ boldsymbol {x} _n $构建相应的近距离算法的下一个迭代$ \ boldsymbol {x} _ {n + 1} $。）+ \ frac {\ rho} {2} \ | \ boldsymbol {d} \ boldsymbol {x} - \ mathcal {p} _ {s}（\ boldsymbol {d} \ boldsymbol {x} _n）\ | ^ 2 $。对于固定$ \ rho $和subanalytic损失$ f（\ boldsymbol {x}）$和子质约束设置$ s $，我们证明了汇聚点。在更强大的假设下，我们提供了收敛速率并展示线性本地收敛性。我们还构造了一个最陡的下降（SD）变型，以避免昂贵的线性系统解决。为了基准我们的算法，我们比较乘法器（ADMM）的交替方向方法。我们广泛的数值测试包括在度量投影，凸回归，凸聚类，总变化图像去噪和矩阵的投影到良好状态数的问题。这些实验表明了我们在高维问题上最陡的速度和可接受的准确性。

translated by 谷歌翻译

Modeling Design and Control Problems Involving Neural Network Surrogates

Dominic Yang , Prasanna Balaprakash , Sven Leyffer

分类：机器学习

2021-11-20

我们考虑非线性优化问题，涉及神经网络代表代理模型。我们首先展示了如何直接将神经网络评估嵌入优化模型中，突出难以防止收敛的方法，然后表征这些模型的平稳性。然后，我们在具有Relu激活的前馈神经网络的特定情况下存在两种替代配方，其具有recu激活：作为混合整数优化问题，作为具有互补限制的数学程序。对于后一种制剂，我们证明了在该问题的点处的有同性，对应于嵌入式制剂的实质性。这些配方中的每一个都可以用最先进的优化方法来解决，并且我们展示了如何为这些方法获得良好的初始可行解决方案。我们将三种实际应用的配方进行比较，在燃烧发动机的设计和控制中产生的三种实际应用，在对分类器网络的对抗攻击中产生的产生，以及在油井网中的最佳流动确定。

translated by 谷歌翻译