This paper presents a practical global optimization algorithm for the K-center clustering problem, which aims to select K samples as the cluster centers to minimize the maximum within-cluster distance. This algorithm is based on a reduced-space branch and bound scheme and guarantees convergence to the global optimum in a finite number of steps by only branching on the regions of centers. To improve efficiency, we have designed a two-stage decomposable lower bound, the solution of which can be derived in a closed form. In addition, we also propose several acceleration techniques to narrow down the region of centers, including bounds tightening, sample reduction, and parallelization. Extensive studies on synthetic and real-world datasets have demonstrated that our algorithm can solve the K-center problems to global optimal within 4 hours for ten million samples in the serial mode and one billion samples in the parallel mode. Moreover, compared with the state-of-the-art heuristic methods, the global optimum obtained by our algorithm can averagely reduce the objective function by 25.8% on all the synthetic and real-world datasets.
translated by 谷歌翻译
最近已扩展了最小方形聚类(MSSC)或K-均值类型聚类的最小总和,以利用每个群集的基数的先验知识。这种知识用于提高性能以及解决方案质量。在本文中,我们提出了一种基于分支和切割技术的精确方法,以解决基数受限的MSSC。对于下边界的例程,我们使用Rujeerapaiboon等人最近提出的半决赛编程(SDP)放松。 [Siam J. Optim。 29(2),1211-1239,(2019)]。但是,这种放松只能用于小型实例中的分支和切割方法。因此,我们得出了一种新的SDP松弛,该松弛随着实例大小和簇的数量更好。在这两种情况下,我们都通过添加多面体切割来增强结合。从量身定制的分支策略中受益,该策略会实施成对的约束,我们减少了儿童节点中出现的问题的复杂性。相反,对于上限,我们提出了一个本地搜索过程,该过程利用在每个节点上求解的SDP松弛的解。计算结果表明,所提出的算法在全球范围内首次求解了大小的现实实例,比通过最新精确方法求解的算法大10倍。
translated by 谷歌翻译
最小的平方和群集(MSSC)或K-Means型聚类,传统上被认为是无监督的学习任务。近年来,使用背景知识来提高集群质量,促进聚类过程的可解释性已成为数学优化和机器学习研究的热门研究课题。利用数据群集中的背景信息的问题称为半监督或约束群集。在本文中,我们为半监控MSSC提供了一种新的分支和绑定算法,其中背景知识被包含为成对必须 - 链接和无法链接约束。对于较低的界限,我们解决了MSSC离散优化模型的Semidefinite编程宽松,并使用了用于加强界限的纤维平面程序。相反,通过使用整数编程工具,我们提出了将K-Means算法适应受约束的情况。这是第一次,所提出的全局优化算法有效地管理,以解决现实世界的情况,最高可达800个数据点,具有必要的必须 - 链接和无法链接约束以及通用数量的功能。这个问题大小大约比最先进的精确算法解决的实例大约四倍。
translated by 谷歌翻译
这项工作将重新审视关节波束形成(BF)和天线选择(AS)问题,以及其在不完美的通道状态信息(CSI)下的稳健光束成型(RBF)版本。在射频链的数量(RF)链的数量小于发射器上的天线元件的情况下,出现了此类问题,这已成为大型阵列时代的关键考虑。关节(r)bf \&作为问题是一个混合整数和非线性程序,因此发现{\ it最佳解决方案}通常是昂贵的,即使不是完全不可能。绝大多数先前的作品都使用基于连续优化的近似来解决这些问题 - 但是这些近似不能确保解决方案的最佳性甚至可行性。这项工作的主要贡献是三倍。首先,提出了一个有效的{\ it分支和绑定}(b \&b)解决感兴趣问题的框架。利用现有的BF和RBF求解器,表明B \&B框架保证了所考虑的问题的全球最优性。其次,为了加快潜在昂贵的B \&B算法,提出了一种基于机器学习(ML)的方案,以帮助跳过B \&B搜索树的中间状态。学习模型具有{\ it图形神经网络}(GNN)的设计,该设计对无线通信中通常遇到的挑战有抵抗力,即,培训和测试中问题大小的变化(例如,用户数量)的变化(例如,用户数量)阶段。第三,提出了全面的性能特征,表明基于GNN的方法在合理的条件下保留了B \&B的全球最佳性,其复杂性可降低。数值模拟还表明,基于ML的加速度通常可以相对于B \&b实现速度的速度。
translated by 谷歌翻译
A hybrid framework combining the branch and bound method with multiobjective evolutionary algorithms is proposed for nonconvex multiobjective optimization. The hybridization exploits the complementary character of the two optimization strategies. A multiobjective evolutionary algorithm is intended for inducing tight lower and upper bounds during the branch and bound procedure. Tight bounds such as the ones derived in this way can reduce the number of subproblems that have to be solved. The branch and bound method guarantees the global convergence of the framework and improves the search capability of the multiobjective evolutionary algorithm. An implementation of the hybrid framework considering NSGA-II and MOEA/D-DE as multiobjective evolutionary algorithms is presented. Numerical experiments verify the hybrid algorithms benefit from synergy of the branch and bound method and multiobjective evolutionary algorithms.
translated by 谷歌翻译
决策树是机器学习工具箱中最有用和最受欢迎的方法之一。在本文中,我们考虑了学习最佳决策树的问题,这是一个组合优化问题,该问题具有挑战性。文献中的一种常见方法是使用贪婪的启发式方法,这可能不是最佳的。最近,人们对使用各种方法(例如,基于整数编程,动态编程)学习最佳决策树已经引起了重大兴趣 - 为了实现计算可伸缩性,这些方法中的大多数都集中在具有二进制功能的分类任务上。在本文中,我们提出了一种基于分支机构(BNB)的新离散优化方法,以获得最佳决策树。与现有的定制方法不同,我们考虑具有连续功能的回归和分类任务。我们方法基础的基本思想是基于特征分布的分位数来拆分搜索空间 - 导致沿BNB迭代的基础优化问题的上限和下限。与现有的各种真实数据集中的浅最佳树相比,我们提出的算法Quant-BNB显示出显着的加速。
translated by 谷歌翻译
本文展示了如何适应$ k $ -MEANS问题的几种简单和经典的基于采样的算法,以使用离群值设置。最近,Bhaskara等人。 (Neurips 2019)展示了如何将古典$ K $ -MEANS ++算法适应与异常值的设置。但是,他们的算法需要输出$ o(\ log(k)\ cdot z)$ outiers,其中$ z $是true Outliers的数量,以匹配$ o(\ log k)$ - 近似值的$ k的近似保证$ -Means ++。在本文中,我们以他们的想法为基础,并展示了如何适应几个顺序和分布式的$ k $ - 均值算法,但使用离群值来设置,但具有更强的理论保证:我们的算法输出$(1+ \ VAREPSILON)z $ OUTLIERS Z $ OUTLIERS在实现$ o(1 / \ varepsilon)$ - 近似目标函数的同时。在顺序世界中,我们通过改编Lattanzi和Sohler的最新算法来实现这一目标(ICML 2019)。在分布式设置中,我们适应了Guha等人的简单算法。 (IEEE Trans。知道和数据工程2003)以及Bahmani等人的流行$ K $ -Means $ \ | $。 (PVLDB 2012)。我们技术的理论应用是一种具有运行时间$ \ tilde {o}(nk^2/z)$的算法,假设$ k \ ll z \ ll n $。这与Omacle模型中此问题的$ \ Omega(NK^2/z)$的匹配下限相互补。
translated by 谷歌翻译
\ textit {约束路径发现}的经典问题是一个经过充分研究但充满挑战的主题,在各个领域,例如沟通和运输等各个领域的应用。权重限制了最短路径问题(WCSPP),作为仅具有一个侧面约束的约束路径查找的基本形式,旨在计划成本最佳路径,其权重/资源使用受到限制。鉴于问题的双标准性质(即处理路径的成本和权重),解决WCSPP的方法具有一些带有双目标搜索的共同属性。本文在约束路径查找和双目标搜索中利用了最新的基于A*的最新技术,并为WCSPP提供了两种精确的解决方案方法,两者都可以在非常大的图表上解决硬性问题实例。我们从经验上评估了算法在新的大型和现实的问题实例上的性能,并在时空指标中显示出它们比最新算法的优势。本文还调查了优先级队列在被a*的约束搜索中的重要性。我们通过对逼真的和随机图进行了广泛的实验来展示,基于桶的队列没有打破打盘的方式可以有效地改善详尽的双标准搜索的算法性能。
translated by 谷歌翻译
识别变量之间的原因关系是决策过程的关键步骤。虽然因果推断需要随机实验,但研究人员和政策制定者越来越多地利用观测研究由于观察数据的广泛可用性和实验的不可行性而导致的因果假设。匹配方法是对观察数据进行因果推断的最常用技术。然而,由于实验者制造的不同选择,一对一匹配中的对分配过程在推论中产生不确定性。最近,提出了离散优化模型来解决这种不确定性。虽然具有离散优化模型可能的强大推断,但它们产生非线性问题并缺乏可扩展性。在这项工作中,我们提出了贪婪的算法来解决与持续结果的观测数据的强大因果推断测试实例。我们提出了一个独特的框架,可以重新设计非线性二进制优化问题作为可行性问题。通过利用可行性制定的结构,我们开发贪婪方案,以求解稳健的测试问题。在许多情况下,所提出的算法实现全球最佳解决方案。我们在三个现实世界数据集上执行实验,以展示所提出的算法的有效性,并将我们的结果与最先进的求解器进行比较。我们的实验表明,所提出的算法在计算时间方面显着优于精确的方法,同时实现了同样的因果试验结论。两个数值实验和复杂性分析都表明所提出的算法确保在决策过程中利用大数据的力量所需的可扩展性。
translated by 谷歌翻译
我们重新审视了Chierichetti等人首先引入的公平聚类问题,该问题要求每个受保护的属性在每个集群中具有近似平等的表示。即,余额财产。现有的公平聚类解决方案要么是不可扩展的,要么无法在聚类目标和公平之间实现最佳权衡。在本文中,我们提出了一种新的公平概念,我们称之为$ tau $ $ $ - fair公平,严格概括了余额财产,并实现了良好的效率与公平折衷。此外,我们表明,简单的基于贪婪的圆形算法有效地实现了这一权衡。在更一般的多价受保护属性的设置下,我们严格地分析了算法的理论特性。我们的实验结果表明,所提出的解决方案的表现优于所有最新算法,即使对于大量簇,也可以很好地工作。
translated by 谷歌翻译
We consider a semi-supervised $k$-clustering problem where information is available on whether pairs of objects are in the same or in different clusters. This information is either available with certainty or with a limited level of confidence. We introduce the PCCC algorithm, which iteratively assigns objects to clusters while accounting for the information provided on the pairs of objects. Our algorithm can include relationships as hard constraints that are guaranteed to be satisfied or as soft constraints that can be violated subject to a penalty. This flexibility distinguishes our algorithm from the state-of-the-art in which all pairwise constraints are either considered hard, or all are considered soft. Unlike existing algorithms, our algorithm scales to large-scale instances with up to 60,000 objects, 100 clusters, and millions of cannot-link constraints (which are the most challenging constraints to incorporate). We compare the PCCC algorithm with state-of-the-art approaches in an extensive computational study. Even though the PCCC algorithm is more general than the state-of-the-art approaches in its applicability, it outperforms the state-of-the-art approaches on instances with all hard constraints or all soft constraints both in terms of running time and various metrics of solution quality. The source code of the PCCC algorithm is publicly available on GitHub.
translated by 谷歌翻译
Regression trees are one of the oldest forms of AI models, and their predictions can be made without a calculator, which makes them broadly useful, particularly for high-stakes applications. Within the large literature on regression trees, there has been little effort towards full provable optimization, mainly due to the computational hardness of the problem. This work proposes a dynamic-programming-with-bounds approach to the construction of provably-optimal sparse regression trees. We leverage a novel lower bound based on an optimal solution to the k-Means clustering algorithm in 1-dimension over the set of labels. We are often able to find optimal sparse trees in seconds, even for challenging datasets that involve large numbers of samples and highly-correlated features.
translated by 谷歌翻译
We study iterative methods for (two-stage) robust combinatorial optimization problems with discrete uncertainty. We propose a machine-learning-based heuristic to determine starting scenarios that provide strong lower bounds. To this end, we design dimension-independent features and train a Random Forest Classifier on small-dimensional instances. Experiments show that our method improves the solution process for larger instances than contained in the training set and also provides a feature importance-score which gives insights into the role of scenario properties.
translated by 谷歌翻译
我们介绍了$(p,q)$ - 公平集群问题。在这个问题中,我们给出了一组点数$ p $和不同重量函数的集合$ w $。我们想找到一个群集,最小化$ \ ell_q $ -norm的$ \ ell_p $-norm的$ \ ell_p $ -norms的$ p $从中心。这概括了各种聚类问题,包括社会博览会$ k $ -Median和$ k $ - emeans,并且与其他问题紧密相连,如Densest $ K $ -subgraph和Min $ K $ -Union。我们利用凸编程技术来估计$(p,q)$ - 为$ p $和$ q $的不同价值观达到公平的聚类问题。当$ p \ geq q $时,我们得到$ o(k ^ {(pq)/(2pq)})$,它几乎匹配$ k ^ {\ omega((pq)/(pq))} $低于基于Min $ K $ -Union和其他问题的猜想硬度的束缚。当$ q \ geq p $时,我们得到一个近似,它与界限$ p,q $的输入的大小无关,也与最近的$ o相匹配((\ log n /(\ log \ log n)) ^ {1 / p})$ - $(p,\ infty)$ - makarychev和vakilian(colt 2021)的公平聚类。
translated by 谷歌翻译
柱生成(CG)是解决大规模优化问题的有效方法。CG通过求解列(即变量)的子集并逐渐包括可以改善当前子问题的解决方案的新列。通过反复解决定价问题,根据需要产生新列,这通常是NP - 硬的并且是CG方法的瓶颈。为了解决这个问题,我们提出了一种基于机器学习的定价启发式(MLPH),可以有效地产生许多高质量的柱。在CG的每次迭代中,我们的MLPH利用ML模型来预测定价问题的最佳解决方案,然后用于引导采样方法以有效地产生多个高质量柱。使用图形着色问题,我们经验证明,与六种最先进的方法相比,MLPH显着增强,并且CG的改善可能导致分支和价格精确方法的显着更好的性能。
translated by 谷歌翻译
在设计聚类算法时,初始中心的选择对于学习簇的质量至关重要。在本文中,我们基于数据的构建,我们开发了一种新的初始化方案,称为$ k $ -Median问题(例如图形引起的离散空间),基于数据的构造。从树中,我们提出了一种新颖有效的搜索算法,用于良好的初始中心,随后可用于本地搜索算法。我们提出的HST初始化可以产生与另一种流行初始化方法$ K $ -Median ++的初始中心,具有可比的效率。 HST初始化也可以扩展到差异隐私(DP)的设置,以生成私人初始中心。我们表明,应用DP本地搜索后,我们的私有HST初始化会改善对近似错误的先前结果,并在小因素内接近下限。实验证明了理论的合理性,并证明了我们提出的方法的有效性。我们的方法也可以扩展到$ k $ -MEANS问题。
translated by 谷歌翻译
决策树学习是机器学习中广泛使用的方法,在需要简洁明了的模型的应用中受到青睐。传统上,启发式方法用于快速生产具有相当高准确性的模型。然而,一个普遍的批评是,从精度和大小方面,所产生的树可能不一定是数据的最佳表示。近年来,这激发了最佳分类树算法的发展,这些算法与执行一系列本地最佳决策的启发式方法相比,在全球范围内优化决策树。我们遵循这一工作线,并提供了一种基于动态编程和搜索的最佳分类树的新颖算法。我们的算法支持对树的深度和节点数量的约束。我们方法的成功归因于一系列专门技术,这些技术利用了分类树独有的属性。传统上,最佳分类树的算法受到了高运行时的困扰和有限的可伸缩性,但我们在一项详细的实验研究中表明,我们的方法仅使用最先进的时间所需的时间,并且可以处理数十个数据集的数据集在数千个实例中,提供了几个数量级的改进,并特别有助于实现最佳决策树的实现。
translated by 谷歌翻译
Two-stage robust optimization problems constitute one of the hardest optimization problem classes. One of the solution approaches to this class of problems is K-adaptability. This approach simultaneously seeks the best partitioning of the uncertainty set of scenarios into K subsets, and optimizes decisions corresponding to each of these subsets. In general case, it is solved using the K-adaptability branch-and-bound algorithm, which requires exploration of exponentially-growing solution trees. To accelerate finding high-quality solutions in such trees, we propose a machine learning-based node selection strategy. In particular, we construct a feature engineering scheme based on general two-stage robust optimization insights that allows us to train our machine learning tool on a database of resolved B&B trees, and to apply it as-is to problems of different sizes and/or types. We experimentally show that using our learned node selection strategy outperforms a vanilla, random node selection strategy when tested on problems of the same type as the training problems, also in case the K-value or the problem size differs from the training ones.
translated by 谷歌翻译
在这项工作的第一部分[32]中,我们引入了针对二次约束二次程序的凸抛物线松弛,以及依次惩罚的抛物线释放算法,以恢复近乎最佳的可行解决方案。在第二部分中,我们表明,从可行的解决方案或满足某些规律性条件的近乎可行的解决方案开始,顺序惩罚的抛物线弛豫算法的收敛到满足Karush-Kuhn-tucker优化条件的点。接下来,我们介绍了基准非凸口QCQP问题的数值实验以及系统识别问题的大规模实例,证明了所提出的方法的效率。
translated by 谷歌翻译
决策树是分类和回归的强大工具,吸引了许多在机器学习新兴领域工作的研究人员。决策树比其他方法的优点之一是它们的解释性,通常比其他相对无法解释的更高精度方法更喜欢。二进制分类树具有两种类型的顶点:(i)分支顶点,这些顶点恰好有两个孩子,并且在一组离散功能上评估了数据点; (ii)为数据点的叶顶点提供了离散的预测。可以通过求解旨在(i)最大化正确分类数据的数量的生物目标优化问题来获得最佳的二进制分类树,并(ii)最小化分支顶点的数量。在本文中,我们提出了四个用于设计最佳二进制分类树的混合整数线性优化(MILO)公式:两种基于流动的配方和基于两切的配方。我们在提议的配方与Aghaei等人的最强Milo配方之间提供了理论比较。 (2021)。我们对13个公开数据集进行了实验,以显示模型的扩展能力以及使用Pareto前沿的生物原始方法的强度。我们的代码和数据可在GitHub上找到。
translated by 谷歌翻译