Global pooling is one of the most significant operations in many machine learning models and tasks, which works for information fusion and structured data (like sets and graphs) representation. However, without solid mathematical fundamentals, its practical implementations often depend on empirical mechanisms and thus lead to sub-optimal, even unsatisfactory performance. In this work, we develop a novel and generalized global pooling framework through the lens of optimal transport. The proposed framework is interpretable from the perspective of expectation-maximization. Essentially, it aims at learning an optimal transport across sample indices and feature dimensions, making the corresponding pooling operation maximize the conditional expectation of input data. We demonstrate that most existing pooling methods are equivalent to solving a regularized optimal transport (ROT) problem with different specializations, and more sophisticated pooling operations can be implemented by hierarchically solving multiple ROT problems. Making the parameters of the ROT problem learnable, we develop a family of regularized optimal transport pooling (ROTP) layers. We implement the ROTP layers as a new kind of deep implicit layer. Their model architectures correspond to different optimization algorithms. We test our ROTP layers in several representative set-level machine learning scenarios, including multi-instance learning (MIL), graph classification, graph set representation, and image classification. Experimental results show that applying our ROTP layers can reduce the difficulty of the design and selection of global pooling -- our ROTP layers may either imitate some existing global pooling methods or lead to some new pooling layers fitting data better. The code is available at \url{https://github.com/SDS-Lab/ROT-Pooling}.
translated by 谷歌翻译
全球合并是许多机器学习模型和任务中最重要的操作之一,但是在实践中,其实施通常是经验的。在这项研究中,我们通过最佳运输镜头开发了一个新颖而坚实的全球合并框架。我们证明,大多数现有的全球合并方法等同于解决不平衡最佳运输(UOT)问题的一些专业。使UOT问题的参数可学习,我们在同一框架中统一了各种全局合并方法,因此,为神经网络提出了一个称为UOT-Pooling(UOTP)的广义全局池层。除了基于经典的Sinkhorn尺度算法实现UOTP层外,我们设计了一种基于Bregman ADMM算法的新模型体系结构,该体系结构具有更好的数值稳定性,并且可以更有效地重现现有的池化层。我们在几种应用程序方案中测试了UOTP层,包括多构度学习,图形分类和图像分类。我们的UOTP层可以模仿常规的全球合并层,也可以学习一些新的合并机制,从而提高性能。
translated by 谷歌翻译
在用于图形结构数据的几台机器学习任务中,所考虑的图形可以由不同数量的节点组成。因此,需要设计汇集方法,该方法将不同大小的图形表示聚合到固定大小的表示,其可以用于下游任务,例如图形分类。现有的图形池池方法没有关于图形表示的相似性和其汇总版的保证。在这项工作中,我们通过提出流池来解决这些限制,通过最小化其Wassersein距离,通过最佳地将图形表示的统计数据统计到其汇集的对应物。这是通过对汇集的图形表示来执行Wasserstein梯度流来实现的。我们提出了我们的方法,可以通过任何基础成本考虑表示空间的几何形状。该实施依赖于与最近提出的隐式差异化方案的Wasserstein距离的计算。我们的汇集方法可用于自动分化,可以集成在端到端的深度学习架构中。此外,流量池是不变的,因此可以与GNN中的置换设备提取层组合,以便获得与节点的排序无关的预测。实验结果表明,与现有在图形分类任务中的现有汇集方法相比,我们的方法导致性能增加。
translated by 谷歌翻译
作为度量度量空间的有效度量,Gromov-Wasserstein(GW)距离显示了匹配结构化数据(例如点云和图形)问题的潜力。但是,由于其较高的计算复杂性,其实践中的应用受到限制。为了克服这一挑战,我们提出了一种新颖的重要性稀疏方法,称为SPAR-GW,以有效地近似GW距离。特别是,我们的方法没有考虑密集的耦合矩阵,而是利用一种简单但有效的采样策略来构建稀疏的耦合矩阵,并使用几个计算进行更新。我们证明了所提出的SPAR-GW方法适用于GW距离,并以任意地面成本适用于GW距离,并且将复杂性从$ \ Mathcal {o}(n^4)$降低到$ \ Mathcal {o}(n^{2) +\ delta})$对于任意的小$ \ delta> 0 $。另外,该方法可以扩展到近似GW距离的变体,包括熵GW距离,融合的GW距离和不平衡的GW距离。实验表明,在合成和现实世界任务中,我们的SPAR-GW对最先进的方法的优越性。
translated by 谷歌翻译
比较图形等结构的对象是许多学习任务中涉及的基本操作。为此,基于最优传输(OT)的Gromov-Wasserstein(GW)距离已被证明可以成功处理相关对象的特定性质。更具体地说,通过节点连接关系,GW在图表上运行,视为特定空间上的概率测量。在OT的核心处是质量守恒的想法,这在两个被认为的图表中的所有节点之间施加了耦合。我们在本文中争辩说,这种财产可能对图形字典或分区学习等任务有害,我们通过提出新的半轻松的Gromov-Wasserstein发散来放松它。除了立即计算福利之外,我们讨论其属性,并表明它可以导致有效的图表字典学习算法。我们经验展示其对图形上的复杂任务的相关性,例如分区,聚类和完成。
translated by 谷歌翻译
Deep neural networks provide unprecedented performance gains in many real world problems in signal and image processing. Despite these gains, future development and practical deployment of deep networks is hindered by their blackbox nature, i.e., lack of interpretability, and by the need for very large training sets. An emerging technique called algorithm unrolling or unfolding offers promise in eliminating these issues by providing a concrete and systematic connection between iterative algorithms that are used widely in signal processing and deep neural networks. Unrolling methods were first proposed to develop fast neural network approximations for sparse coding. More recently, this direction has attracted enormous attention and is rapidly growing both in theoretic investigations and practical applications. The growing popularity of unrolled deep networks is due in part to their potential in developing efficient, high-performance and yet interpretable network architectures from reasonable size training sets. In this article, we review algorithm unrolling for signal and image processing. We extensively cover popular techniques for algorithm unrolling in various domains of signal and image processing including imaging, vision and recognition, and speech processing. By reviewing previous works, we reveal the connections between iterative algorithms and neural networks and present recent theoretical results. Finally, we provide a discussion on current limitations of unrolling and suggest possible future research directions.
translated by 谷歌翻译
Pre-publication draft of a book to be published byMorgan & Claypool publishers. Unedited version released with permission. All relevant copyrights held by the author and publisher extend to this pre-publication draft.
translated by 谷歌翻译
计算分布之间的最佳传输(OT)耦合在机器学习中起着越来越重要的作用。虽然可以将OT问题求解为线性程序,但添加熵平滑项会导致求解器对离群值更快,更强大,可区分且易于并行化。 Sinkhorn固定点算法是这些方法的基石,结果,已经进行了多次尝试以缩短其运行时,例如退火,动量或加速度。本文的前提是,\ textit {initialization}的sindhorn算法受到了相对较少的关注,可能是由于两个先入为主的:由于正规化的ot问题是凸的,因此可能不值得制定量身定制的初始化,因为\ textit {\ textit { }保证工作;其次,由于sindhorn算法在端到端管道中通常是区分的,因此数据依赖性初始化可能会通过展开迭代而获得的偏差梯度估计。我们挑战了这种传统的观点,并表明精心选择的初始化可能会导致巨大的加速,并且不会偏向梯度,这些梯度是通过隐式分化计算的。我们详细介绍如何使用1D或高斯设置中的已知结果从封闭形式或近似OT解决方案中恢复初始化。我们从经验上表明,这些初始化可以在现成的情况下使用,几乎没有调整,并且导致各种OT问题的速度持续加速。
translated by 谷歌翻译
利用机器学习来促进优化过程是一个新兴领域,该领域有望绕过经典迭代求解器在需要接近实时优化的关键应用中引起的基本计算瓶颈。现有的大多数方法都集中在学习数据驱动的优化器上,这些优化器可在解决优化方面更少迭代。在本文中,我们采用了不同的方法,并建议将迭代求解器完全替换为可训练的参数集功能,该功能在单个feed向前输出优化问题的最佳参数/参数。我们将我们的方法表示为学习优化优化过程(循环)。我们显示了学习此类参数功能的可行性,以解决各种经典优化问题,包括线性/非线性回归,主成分分析,基于运输的核心和二次编程在供应管理应用程序中。此外,我们提出了两种学习此类参数函数的替代方法,在循环中有和没有求解器。最后,通过各种数值实验,我们表明训练有素的求解器的数量级可能比经典的迭代求解器快,同时提供了接近最佳的解决方案。
translated by 谷歌翻译
分发比较在许多机器学习任务中起着核心作用,例如数据分类和生成建模。在这项研究中,我们提出了一种称为希尔伯特曲线投影(HCP)距离的新型度量,以测量具有高鲁棒性和低复杂性的两个概率分布之间的距离。特别是,我们首先使用希尔伯特曲线投射两个高维概率密度,以获得它们之间的耦合,然后根据耦合在原始空间中这两个密度之间的传输距离进行计算。我们表明,HCP距离是一个适当的度量标准,对于绝对连续的概率度量,定义明确。此外,我们证明,经验HCP距离在规律性条件下以不超过$ O(n^{ - 1/2d})$的速度收敛到其人口。为了抑制差异性的诅咒,我们还使用(可学习的)子空间投影开发了HCP距离的两个变体。合成数据和现实世界数据的实验表明,我们的HCP距离是瓦斯汀距离的有效替代,其复杂性低并克服了切成薄片的瓦斯坦距离的缺点。
translated by 谷歌翻译
人工神经网络(ANN)训练景观的非凸起带来了固有的优化困难。虽然传统的背传播随机梯度下降(SGD)算法及其变体在某些情况下是有效的,但它们可以陷入杂散的局部最小值,并且对初始化和普通公共表敏感。最近的工作表明,随着Relu激活的ANN的培训可以重新重整为凸面计划,使希望能够全局优化可解释的ANN。然而,天真地解决凸训练制剂具有指数复杂性,甚至近似启发式需要立方时间。在这项工作中,我们描述了这种近似的质量,并开发了两个有效的算法,这些算法通过全球收敛保证培训。第一算法基于乘法器(ADMM)的交替方向方法。它解决了精确的凸形配方和近似对应物。实现线性全局收敛,并且初始几次迭代通常会产生具有高预测精度的解决方案。求解近似配方时,每次迭代时间复杂度是二次的。基于“采样凸面”理论的第二种算法更简单地实现。它解决了不受约束的凸形制剂,并收敛到大约全球最佳的分类器。当考虑对抗性培训时,ANN训练景观的非凸起加剧了。我们将稳健的凸优化理论应用于凸训练,开发凸起的凸起制剂,培训Anns对抗对抗投入。我们的分析明确地关注一个隐藏层完全连接的ANN,但可以扩展到更复杂的体系结构。
translated by 谷歌翻译
近年来,基于Weisfeiler-Leman算法的算法和神经架构,是一个众所周知的Graph同构问题的启发式问题,它成为具有图形和关系数据的机器学习的强大工具。在这里,我们全面概述了机器学习设置中的算法的使用,专注于监督的制度。我们讨论了理论背景,展示了如何将其用于监督的图形和节点表示学习,讨论最近的扩展,并概述算法的连接(置换 - )方面的神经结构。此外,我们概述了当前的应用和未来方向,以刺激进一步的研究。
translated by 谷歌翻译
通常通过将许多输入张量汇总为单个表示形式来处理神经网络中神经网络中的处理集或其他无序的,潜在的变化大小的输入。尽管从简单的汇总到多头关注已经存在许多聚合方法,但从理论和经验的角度来看,它们的代表力都受到限制。在搜索主要功能更强大的聚合策略时,我们提出了一种基于优化的方法,称为平衡聚​​集。我们表明,许多现有的聚合方法可以作为平衡聚集的特殊情况恢复,并且在某些重要情况下,它效率更高。在许多现有的架构和应用中,平衡聚集可以用作置换式替换。我们在三个不同的任务上验证其效率:中值估计,班级计数和分子性质预测。在所有实验中,平衡聚集的性能都比我们测试的其他聚合技术更高。
translated by 谷歌翻译
最佳运输(OT)理论描述了定义和选择在许多可能的选择中,将概率度量映射到另一个概率的最有效方法。该理论主要用于估计,给定一对源和目标概率测量$(\ MU,\ nu)$,这是一个可以有效地将$ \ mu $映射到$ \ nu $的参数化映射$ t_ \ theta $。在许多应用程序中,例如预测细胞对治疗的响应,数据测量$ \ mu,\ nu $(未处理/处理过的单元的功能)定义了最佳运输问题并非孤立地出现,但与上下文$ c $相关联(治疗)。为了说明并将该上下文纳入OT估计,我们介绍了Condot,一种使用上下文标签$ C_I $标记的几对测量$(\ mu_i,\ nu_i)$使用几对测量$(\ mu_i,\ nu_i)$。我们的目标是从标记对的数据集$ \ {(c_i,((\ mu_i,\ nu_i))中提取%\})\} $学习全局映射$ \ mathcal {t} _ {\ theta} $,不仅是预期的适合数据集中的所有对$ \ {((c_i,(\ mu_i,\ nu_i)))\} $,即$,但应概括以产生有意义的地图$ \ Mathcal {t} _ {\ theta}(c _ {\ text {new}})$在未看到的上下文上调节的$ c _ {\ text {new}} $。我们的方法利用并为部分输入凸神经网络提供了新颖的用法,为此我们引入了受高斯近似启发的强大而有效的初始化策略。我们仅使用对所述扰动的作用观察到遗传或治疗性扰动对单个细胞的任意组合对单个细胞的任意组合的影响的能力。
translated by 谷歌翻译
在概率密度范围内相对于Wassersein度量的空间的梯度流程通常具有很好的特性,并且已在几种机器学习应用中使用。计算Wasserstein梯度流量的标准方法是有限差异,使网格上的基础空间离散,并且不可扩展。在这项工作中,我们提出了一种可扩展的近端梯度型算法,用于Wassersein梯度流。我们的方法的关键是目标函数的变分形式,这使得可以通过引流 - 双重优化实现JKO近端地图。可以通过替代地更新内部和外环中的参数来有效地解决该原始问题。我们的框架涵盖了包括热方程和多孔介质方程的所有经典Wasserstein梯度流。我们展示了若干数值示例的算法的性能和可扩展性。
translated by 谷歌翻译
We study distributionally robust optimization (DRO) with Sinkhorn distance -- a variant of Wasserstein distance based on entropic regularization. We provide convex programming dual reformulation for a general nominal distribution. Compared with Wasserstein DRO, it is computationally tractable for a larger class of loss functions, and its worst-case distribution is more reasonable. We propose an efficient first-order algorithm with bisection search to solve the dual reformulation. We demonstrate that our proposed algorithm finds $\delta$-optimal solution of the new DRO formulation with computation cost $\tilde{O}(\delta^{-3})$ and memory cost $\tilde{O}(\delta^{-2})$, and the computation cost further improves to $\tilde{O}(\delta^{-2})$ when the loss function is smooth. Finally, we provide various numerical examples using both synthetic and real data to demonstrate its competitive performance and light computational speed.
translated by 谷歌翻译
平衡系统是表达神经计算的有力方法。作为特殊情况,它们包括对神经科学和机器学习的最新兴趣模型,例如平衡复发性神经网络,深度平衡模型或元学习。在这里,我们提出了一个新的原则,用于学习具有时间和空间本地规则的此类系统。我们的原理将学习作为一个最不控制的问题,我们首先引入一个最佳控制器,以将系统带入解决方案状态,然后将学习定义为减少达到这种状态所需的控制量。我们表明,将学习信号纳入动力学作为最佳控制可以以先前未知的方式传输信用分配信息,避免将中间状态存储在内存中,并且不依赖无穷小的学习信号。在实践中,我们的原理可以使基于梯度的学习方法的强大绩效匹配,该方法应用于涉及复发性神经网络和元学习的一系列问题。我们的结果阐明了大脑如何学习并提供解决广泛的机器学习问题的新方法。
translated by 谷歌翻译
由于机器学习,统计和科学的应用,多边缘最佳运输(MOT)引起了极大的兴趣。但是,在大多数应用中,MOT的成功受到缺乏有效算法的严重限制。实际上,MOT一般需要在边际K及其支撑大小n的数量中指数时间n。本文开发了一个关于“结构”在poly(n,k)时间中可溶解的一般理论。我们开发了一个统一的算法框架,用于通过表征不同算法所需的“结构”来解决poly(n,k)时间中的MOT,这是根据双重可行性甲骨文的简单变体所需的。该框架有几个好处。首先,它使我们能够证明当前是最流行的MOT算法的Sinkhorn算法比其他算法要在poly(n,k)时间中求解MOT所需的结构更严格。其次,我们的框架使得为给定的MOT问题开发poly(n,k)时间算法变得更加简单。特别是(大约)解决双重可行性Oracle是必要和足够的 - 这更适合标准算法技术。我们通过为三个通用类成本结构类别的poly(n,k)时间算法开发poly(n,k)时间算法来说明这种易用性:(1)图形结构; (2)设定优化结构; (3)低阶和稀疏结构。对于结构(1),我们恢复了Sindhorn具有poly(n,k)运行时的已知结果;此外,我们为计算精确且稀疏的解决方案提供了第一个poly(n,k)时间算法。对于结构(2) - (3),我们给出了第一个poly(n,k)时间算法,甚至用于近似计算。这三个结构一起涵盖了许多MOT的当前应用。
translated by 谷歌翻译
我们研究了两种可能不同质量的度量之间的不平衡最佳运输(UOT),其中最多是$ n $组件,其中标准最佳运输(OT)的边际约束是通过kullback-leibler差异与正则化因子$ \ tau $放松的。尽管仅在文献中分析了具有复杂性$ o \ big(\ tfrac {\ tau n^2 \ log(n)} {\ varepsilon} \ log \ big(\ tfrac {\ log( n)} {{{\ varepsilon}} \ big)\ big)$)$用于实现错误$ \ varepsilon $,它们与某些深度学习模型和密集的输出运输计划不兼容,强烈阻碍了实用性。虽然被广泛用作计算现代深度学习应用中UOT的启发式方法,并且在稀疏的OT中表现出成功,但尚未正式研究用于UOT的梯度方法。为了填补这一空白,我们提出了一种基于梯度外推法(Gem-uot)的新颖算法,以找到$ \ varepsilon $ -Approximate解决方案,以解决$ o \ big中的UOT问题(\ kappa n^2 \ log \ log \ big(big) \ frac {\ tau n} {\ varepsilon} \ big)\ big)$,其中$ \ kappa $是条件号,具体取决于两个输入度量。我们的算法是通过优化平方$ \ ell_2 $ -norm UOT目标的新的双重配方设计的,从而填补了缺乏稀疏的UOT文献。最后,我们在运输计划和运输距离方面建立了UOT和OT之间近似误差的新颖表征。该结果阐明了一个新的主要瓶颈,该瓶颈被强大的OT文献忽略了:尽管OT放松了OT,因为UOT承认对离群值的稳健性,但计算出的UOT距离远离原始OT距离。我们通过基于Gem-uot从UOT中检索的原则方法来解决此类限制,并使用微调的$ \ tau $和后进程投影步骤来解决。关于合成和真实数据集的实验验证了我们的理论,并证明了我们的方法的良好性能。
translated by 谷歌翻译
Deep learning has revolutionized many machine learning tasks in recent years, ranging from image classification and video processing to speech recognition and natural language understanding. The data in these tasks are typically represented in the Euclidean space. However, there is an increasing number of applications where data are generated from non-Euclidean domains and are represented as graphs with complex relationships and interdependency between objects. The complexity of graph data has imposed significant challenges on existing machine learning algorithms. Recently, many studies on extending deep learning approaches for graph data have emerged. In this survey, we provide a comprehensive overview of graph neural networks (GNNs) in data mining and machine learning fields. We propose a new taxonomy to divide the state-of-the-art graph neural networks into four categories, namely recurrent graph neural networks, convolutional graph neural networks, graph autoencoders, and spatial-temporal graph neural networks. We further discuss the applications of graph neural networks across various domains and summarize the open source codes, benchmark data sets, and model evaluation of graph neural networks. Finally, we propose potential research directions in this rapidly growing field.
translated by 谷歌翻译