我们解决了最小化一类能量功能的问题,该功能由数据和平滑度术语组成,这些术语通常发生在机器学习,计算机视觉和模式识别中。尽管离散优化方法能够提供理论最优保证,但它们只能处理有限数量的标签,因此会遭受标签离散偏置的困扰。现有的连续优化方法可以找到Sublabel精确的解决方案,但对于大型标签空间而言,它们并不有效。在这项工作中,我们提出了一种有效的Sublabel精确方法,该方法利用了连续模型和离散模型的最佳属性。我们将问题分为两个顺序的步骤:(i)选择标签范围的全局离散优化,以及(ii)在所选范围内的能量函数凸的有效连续连续的sublabel-carcurate局部改进。这样做可以使我们能够提高时间和记忆效率,同时实际上将准确性保持在与连续凸放放松方法相同的水平上,此外,在离散方法级别上提供了理论最佳保证。最后,我们显示了提出的对一般成对平滑度项的拟议方法的灵活性,因此它适用于广泛的正则化。图像授予问题的说明示例的实验证明了该方法的特性。代码复制实验可在\ url {https://github.com/nurlanov-zh/sublabel-accurate-alpha-expansion}获得。
translated by 谷歌翻译
In model selection problems for machine learning, the desire for a well-performing model with meaningful structure is typically expressed through a regularized optimization problem. In many scenarios, however, the meaningful structure is specified in some discrete space, leading to difficult nonconvex optimization problems. In this paper, we connect the model selection problem with structure-promoting regularizers to submodular function minimization with continuous and discrete arguments. In particular, we leverage the theory of submodular functions to identify a class of these problems that can be solved exactly and efficiently with an agnostic combination of discrete and continuous optimization routines. We show how simple continuous or discrete constraints can also be handled for certain problem classes and extend these ideas to a robust optimization framework. We also show how some problems outside of this class can be embedded within the class, further extending the class of problems our framework can accommodate. Finally, we numerically validate our theoretical results with several proof-of-concept examples with synthetic and real-world data, comparing against state-of-the-art algorithms.
translated by 谷歌翻译
通过简明地表示许多变量的联合功能作为小功能的组合,离散图形模型(GMS)提供了一个强大的框架来分析交互变量的随机和确定性系统。这些模型的主要查询之一是识别该联合功能的极值。这被称为在确定性成本函数网络上的加权约束满足问题(WCSP),以及在随机马尔可夫随机字段上的最大后验(MAP)推断。近似WCSP推理的算法通常依赖于局部一致性算法或信念传播。这些方法与线性编程(LP)弛豫密切相关,并且通常与由相关LP的双解定义的Reparamization耦合。自从Goemans和Williamson的开创性工作以来,据了解,凸软膏放松可以为LP提供优质的保证。但内部点方法的固有计算成本限制了他们的应用。这种情况有所改善,引入了非凸毛蒙特罗风格方法,这些方法非常适合处理与二进制变量的组合问题的SDP放松(例如MaxCut,MaxSAT或地图/ ising)。我们将低等级SDP上限和下限计算具有任意数量的数量和任意二进制成本函数的离散对图形模型,通过基于逐行的更新扩展毛刺蒙特罗样式方法。我们考虑一种传统的两化约束方法和专用块坐标序列方法,避免对配方引入大的惩罚系数。在越来越坚硬和致密的WCSP / CFN实例上,我们观察到BCD方法可以优于两种方法,并提供比本地常量/收敛消息传递方法更严格的边界。
translated by 谷歌翻译
该博士学位论文的中心对象是在计算机科学和统计力学领域的不同名称中以不同名称而闻名的。在计算机科学中,它被称为“最大切割问题”,这是著名的21个KARP的原始NP硬性问题之一,而物理学的相同物体称为Ising Spin Glass模型。这种丰富的结构的模型通常是减少或重新制定计算机科学,物理和工程学的现实问题。但是,准确地求解此模型(查找最大剪切或基态)可能会留下一个棘手的问题(除非$ \ textit {p} = \ textit {np} $),并且需要为每一个开发临时启发式学特定的实例家庭。离散和连续优化之间的明亮而美丽的连接之一是一种基于半限定编程的圆形方案,以最大程度地切割。此过程使我们能够找到一个近乎最佳的解决方案。此外,该方法被认为是多项式时间中最好的。在本论文的前两章中,我们研究了旨在改善舍入方案的局部非凸照。在本文的最后一章中,我们迈出了一步,并旨在控制我们想要在前几章中解决的问题的解决方案。我们在Ising模型上制定了双层优化问题,在该模型中,我们希望尽可能少地调整交互作用,以使所得ISING模型的基态满足所需的标准。大流行建模出现了这种问题。我们表明,当相互作用是非负的时,我们的双层优化是在多项式时间内使用凸编程来解决的。
translated by 谷歌翻译
图形匹配优化问题是计算机视觉中许多任务的重要组成部分,例如在通信中带来两个可变形对象。自然,在过去的几十年中,已经提出了广泛的适用算法。由于尚未开发出通用的标准基准,因此由于对不同的问题实例的评估和标准使结果无与伦比,因此通常很难验证其绩效主张。为了解决这些缺点,我们提出了匹配算法的比较研究。我们创建了一个统一的基准测试标准,在其中收集和分类了一组现有和公开可用的计算机视觉图形匹配问题,以通用格式。同时,我们收集和分类图形匹配算法的最流行的开源实现。它们的性能以与比较优化算法的最佳实践相符的方式进行评估。该研究旨在可再现和扩展,以作为未来的宝贵资源。我们的研究提供了三个值得注意的见解:1。)流行问题实例在少于1秒的时间内完全可以解决,因此不足以进行将来的经​​验评估; 2.)最受欢迎的基线方法高于最佳可用方法; 3.)尽管该问题存在NP硬度,但即使对于具有超过500个顶点的图形,也可以在几秒钟内求解来自视力应用程序的实例。
translated by 谷歌翻译
姿势图优化是在机器人感知的许多领域遇到的非凸优化问题。它的收敛到准确的解决方案由两个因素来调节:使用成本函数的非线性和姿势变量的初始配置。在本文中,我们提出了Hipe,这是一种用于姿势图初始化的新型分层算法。我们的方法利用了一个粗粒图,该图编码了问题几何形状的抽象表示。我们通过结合来自输入本地区域的最大似然估计来构建此图。通过利用这种表示的稀疏性,我们可以以非线性方式初始化姿势图,而无需与现有方法相比,没有计算开销。最终的初始猜测可以有效地引导用于获得最终解决方案的细粒优化。此外,我们对不同成本函数对最终估计的影响进行了经验分析。我们的实验评估表明,HIPE的使用导致更有效,更健壮的优化过程,与最先进的方法相比。
translated by 谷歌翻译
最小的平方和群集(MSSC)或K-Means型聚类,传统上被认为是无监督的学习任务。近年来,使用背景知识来提高集群质量,促进聚类过程的可解释性已成为数学优化和机器学习研究的热门研究课题。利用数据群集中的背景信息的问题称为半监督或约束群集。在本文中,我们为半监控MSSC提供了一种新的分支和绑定算法,其中背景知识被包含为成对必须 - 链接和无法链接约束。对于较低的界限,我们解决了MSSC离散优化模型的Semidefinite编程宽松,并使用了用于加强界限的纤维平面程序。相反,通过使用整数编程工具,我们提出了将K-Means算法适应受约束的情况。这是第一次,所提出的全局优化算法有效地管理,以解决现实世界的情况,最高可达800个数据点,具有必要的必须 - 链接和无法链接约束以及通用数量的功能。这个问题大小大约比最先进的精确算法解决的实例大约四倍。
translated by 谷歌翻译
本文介绍了OptNet,该网络架构集成了优化问题(这里,专门以二次程序的形式),作为较大端到端可训练的深网络中的单个层。这些层在隐藏状态之间编码约束和复杂依赖性,传统的卷积和完全连接的层通常无法捕获。我们探索这种架构的基础:我们展示了如何使用敏感性分析,彼得优化和隐式差分的技术如何通过这些层和相对于层参数精确地区分;我们为这些层开发了一种高效的解算器,用于利用基于GPU的基于GPU的批处理在原始 - 双内部点法中解决,并且在求解的顶部几乎没有额外的成本提供了反向衰减梯度;我们突出了这些方法在几个问题中的应用。在一个值得注意的示例中,该方法学习仅在输入和输出游戏中播放Mini-sudoku(4x4),没有关于游戏规则的a-priori信息;这突出了OptNet比其他神经架构更好地学习硬限制的能力。
translated by 谷歌翻译
组合优化是运营研究和计算机科学领域的一个公认领域。直到最近,它的方法一直集中在孤立地解决问题实例,而忽略了它们通常源于实践中的相关数据分布。但是,近年来,人们对使用机器学习,尤其是图形神经网络(GNN)的兴趣激增,作为组合任务的关键构件,直接作为求解器或通过增强确切的求解器。GNN的电感偏差有效地编码了组合和关系输入,因为它们对排列和对输入稀疏性的意识的不变性。本文介绍了对这个新兴领域的最新主要进步的概念回顾,旨在优化和机器学习研究人员。
translated by 谷歌翻译
我们介绍了正规化的弗兰克 - 沃尔夫(Frank-Wolfe),这是一种通用有效的算法,用于推断和学习密集的有条件随机场(CRF)。该算法使用Vanilla Frank-Wolfe优化了CRF推理问题的不连续放松,并具有近似更新,这相当于最大程度地减少正则能量函数。我们提出的方法是对现有算法(例如平均字段或凹形通用程序)的概括。这种观点不仅提供了对这些算法的统一分析,而且还允许一种简单的方法来探索不同的变体,这些变体可能会产生更好的性能。我们在标准语义分割数据集的经验结果中说明了这一点,在该数据集中,我们正规化的Frank-Wolfe优于均值均值推断的几个实例化,无论是独立的组件还是作为神经网络中的端到端可训练层。我们还表明,密集的CRF与我们的新算法相结合,对强CNN基准产生了重大改进。
translated by 谷歌翻译
最近已扩展了最小方形聚类(MSSC)或K-均值类型聚类的最小总和,以利用每个群集的基数的先验知识。这种知识用于提高性能以及解决方案质量。在本文中,我们提出了一种基于分支和切割技术的精确方法,以解决基数受限的MSSC。对于下边界的例程,我们使用Rujeerapaiboon等人最近提出的半决赛编程(SDP)放松。 [Siam J. Optim。 29(2),1211-1239,(2019)]。但是,这种放松只能用于小型实例中的分支和切割方法。因此,我们得出了一种新的SDP松弛,该松弛随着实例大小和簇的数量更好。在这两种情况下,我们都通过添加多面体切割来增强结合。从量身定制的分支策略中受益,该策略会实施成对的约束,我们减少了儿童节点中出现的问题的复杂性。相反,对于上限,我们提出了一个本地搜索过程,该过程利用在每个节点上求解的SDP松弛的解。计算结果表明,所提出的算法在全球范围内首次求解了大小的现实实例,比通过最新精确方法求解的算法大10倍。
translated by 谷歌翻译
我们考虑非线性优化问题,涉及神经网络代表代理模型。我们首先展示了如何直接将神经网络评估嵌入优化模型中,突出难以防止收敛的方法,然后表征这些模型的平稳性。然后,我们在具有Relu激活的前馈神经网络的特定情况下存在两种替代配方,其具有recu激活:作为混合整数优化问题,作为具有互补限制的数学程序。对于后一种制剂,我们证明了在该问题的点处的有同性,对应于嵌入式制剂的实质性。这些配方中的每一个都可以用最先进的优化方法来解决,并且我们展示了如何为这些方法获得良好的初始可行解决方案。我们将三种实际应用的配方进行比较,在燃烧发动机的设计和控制中产生的三种实际应用,在对分类器网络的对抗攻击中产生的产生,以及在油井网中的最佳流动确定。
translated by 谷歌翻译
混合成员非线性优化是具有组合结构和非线性的广泛问题。典型的精确方法将分支和结合的方案与放松和分离子例程相结合。我们研究了基于此设置的Frank-Wolfe算法的错误自适应一阶方法的属性和优势,仅需要梯度甲骨文来实现目标函数和可行集合上的线性优化。特别是,我们将研究通过分支和结合方法进行优化的算法后果,在这种方法中,由于Frank-Wolfe线性甲骨文而引起的混合构件的凸面上的子问题与解决连续放松上的子问题相比同一组。这种新颖的方法在处理多面体约束的单个表示时计算可行的解决方案,利用了没有外近似方案的混合智能编程(MIP)求解器的全部范围。
translated by 谷歌翻译
近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加,我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始,显示一般非凸面问题无法在合理的时间内有效地解决。然后,我们提供了一个问题列表,可以通过利用问题的结构来有效地找到全球最小化器,因为可能的问题。处理非凸性的另一种方法是放宽目标,从找到全局最小,以找到静止点或局部最小值。对于该设置,我们首先为确定性一阶方法的收敛速率提出了已知结果,然后是最佳随机和随机梯度方案的一般理论分析,以及随机第一阶方法的概述。之后,我们讨论了非常一般的非凸面问题,例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能,这仍然允许获得一阶的理论融合保证方法。然后,我们考虑更高阶和零序/衍生物的方法及其收敛速率,以获得非凸优化问题。
translated by 谷歌翻译
In this work, a method for obtaining pixel-wise error bounds in Bayesian regularization of inverse imaging problems is introduced. The proposed method employs estimates of the posterior variance together with techniques from conformal prediction in order to obtain coverage guarantees for the error bounds, without making any assumption on the underlying data distribution. It is generally applicable to Bayesian regularization approaches, independent, e.g., of the concrete choice of the prior. Furthermore, the coverage guarantees can also be obtained in case only approximate sampling from the posterior is possible. With this in particular, the proposed framework is able to incorporate any learned prior in a black-box manner. Guaranteed coverage without assumptions on the underlying distributions is only achievable since the magnitude of the error bounds is, in general, unknown in advance. Nevertheless, experiments with multiple regularization approaches presented in the paper confirm that in practice, the obtained error bounds are rather tight. For realizing the numerical experiments, also a novel primal-dual Langevin algorithm for sampling from non-smooth distributions is introduced in this work.
translated by 谷歌翻译
给定数据点之间的一组差异测量值,确定哪种度量表示与输入测量最“一致”或最能捕获数据相关几何特征的度量是许多机器学习算法的关键步骤。现有方法仅限于特定类型的指标或小问题大小,因为在此类问题中有大量的度量约束。在本文中,我们提供了一种活跃的集合算法,即项目和忘记,该算法使用Bregman的预测,以解决许多(可能是指数)不平等约束的度量约束问题。我们提供了\ textsc {project and Hoses}的理论分析,并证明我们的算法会收敛到全局最佳解决方案,并以指数速率渐近地渐近地衰减了当前迭代的$ L_2 $距离。我们证明,使用我们的方法,我们可以解决三种类型的度量约束问题的大型问题实例:一般体重相关聚类,度量近距离和度量学习;在每种情况下,就CPU时间和问题尺寸而言,超越了艺术方法的表现。
translated by 谷歌翻译
人工神经网络(ANN)训练景观的非凸起带来了固有的优化困难。虽然传统的背传播随机梯度下降(SGD)算法及其变体在某些情况下是有效的,但它们可以陷入杂散的局部最小值,并且对初始化和普通公共表敏感。最近的工作表明,随着Relu激活的ANN的培训可以重新重整为凸面计划,使希望能够全局优化可解释的ANN。然而,天真地解决凸训练制剂具有指数复杂性,甚至近似启发式需要立方时间。在这项工作中,我们描述了这种近似的质量,并开发了两个有效的算法,这些算法通过全球收敛保证培训。第一算法基于乘法器(ADMM)的交替方向方法。它解决了精确的凸形配方和近似对应物。实现线性全局收敛,并且初始几次迭代通常会产生具有高预测精度的解决方案。求解近似配方时,每次迭代时间复杂度是二次的。基于“采样凸面”理论的第二种算法更简单地实现。它解决了不受约束的凸形制剂,并收敛到大约全球最佳的分类器。当考虑对抗性培训时,ANN训练景观的非凸起加剧了。我们将稳健的凸优化理论应用于凸训练,开发凸起的凸起制剂,培训Anns对抗对抗投入。我们的分析明确地关注一个隐藏层完全连接的ANN,但可以扩展到更复杂的体系结构。
translated by 谷歌翻译
我们开发了快速算法和可靠软件,以凸出具有Relu激活功能的两层神经网络的凸优化。我们的工作利用了标准的重量罚款训练问题作为一组组-YELL_1 $调查的数据本地模型的凸重新印度,其中局部由多面体锥体约束强制执行。在零规范化的特殊情况下,我们表明此问题完全等同于凸“ Gated Relu”网络的不受约束的优化。对于非零正则化的问题,我们表明凸面式relu模型获得了RELU训练问题的数据依赖性近似范围。为了优化凸的重新制定,我们开发了一种加速的近端梯度方法和实用的增强拉格朗日求解器。我们表明,这些方法比针对非凸问题(例如SGD)和超越商业内部点求解器的标准训练启发式方法要快。在实验上,我们验证了我们的理论结果,探索组-ELL_1 $正则化路径,并对神经网络进行比例凸的优化,以在MNIST和CIFAR-10上进行图像分类。
translated by 谷歌翻译
许多实际优化问题涉及不确定的参数,这些参数具有概率分布,可以使用上下文特征信息来估算。与首先估计不确定参数的分布然后基于估计优化目标的标准方法相反,我们提出了一个\ textIt {集成条件估计 - 优化}(ICEO)框架,该框架估计了随机参数的潜在条件分布同时考虑优化问题的结构。我们将随机参数的条件分布与上下文特征之间的关系直接建模,然后以与下游优化问题对齐的目标估算概率模型。我们表明,我们的ICEO方法在适度的规律性条件下渐近一致,并以概括范围的形式提供有限的性能保证。在计算上,使用ICEO方法执行估计是一种非凸面且通常是非差异的优化问题。我们提出了一种通用方法,用于近似从估计的条件分布到通过可区分函数的最佳决策的潜在非差异映射,这极大地改善了应用于非凸问题的基于梯度的算法的性能。我们还提供了半代理案例中的多项式优化解决方案方法。还进行了数值实验,以显示我们在不同情况下的方法的经验成功,包括数据样本和模型不匹配。
translated by 谷歌翻译
对于一般二次约束二次编程(QCQP),我们提出了一种用凸二次约束描述的抛物线弛豫。抛物线弛豫的一个有趣的特性是原始的非凸起可行集包含在抛物线弛豫的边界上。在某些假设下,该财产使人们能够通过客观惩罚恢复近乎最理想的可行点。此外,通过对需要一次性计算的最佳基础计算的适当更改,可以使易于解决的抛物线释放放松与半决赛编程(SDP)放松一样强大,这可以有效地意识到算法,这些算法可以使得算法有效需要解决一系列凸替代物。这项工作的下一部分给出了大多数理论和计算结果[57]。
translated by 谷歌翻译