随机图神经网络(SGNN)是信息处理体系结构,可从随机图中学习表示表示。 SGNN受到预期性能的培训,这不能保证围绕最佳期望的特定输出实现的偏差。为了克服这个问题,我们为SGNN提出了一个方差约束优化问题,平衡了预期的性能和随机偏差。通过使用梯度下降和梯度上升的双变量更新SGNN参数,进行了交替的原始双偶学习过程,该过程通过更新SGNN参数来解决问题。为了表征方差约束学习的明确效应,我们对SGNN输出方差进行理论分析,并确定随机鲁棒性和歧视能力之间的权衡。我们进一步分析了方差约束优化问题的二元性差距以及原始双重学习过程的融合行为。前者表示双重变换引起的最优性损失,后者是迭代算法的限制误差,这两者都保证了方差约束学习的性能。通过数值模拟,我们证实了我们的理论发现,并观察到具有可控标准偏差的强劲预期性能。
translated by 谷歌翻译
图形神经网络(GNNS)是由图形卷积和叉指非线性组成的层组成的深度卷积架构。由于其不变性和稳定性属性,GNN在网络数据的学习陈述中被证明是成功的。但是,训练它们需要矩阵计算,这对于大图可能是昂贵的。为了解决这个限制,我们研究了GNN横跨图形转移的能力。我们考虑图形,这是加权和随机图形的图形限制和生成模型,以定义图形卷积和GNNS - Graphon卷曲和Graphon神经网络(WNNS)的限制对象 - 我们用作图形卷曲的生成模型和GNNS。我们表明,这些石墨源区和WNN可以通过图形滤波器和来自加权和随机图中的它们采样的GNN来近似。使用这些结果,我们将导出误差界限,用于跨越此类图形传输图形过滤器和GNN。这些界限表明,可转换性随着图尺寸的增加而增加,并且揭示了在GNN中的可转换性和光谱分辨率之间的折衷,其被点亮的非线性缓解。这些发现经验在电影推荐和分散机器人控制中的数值实验中进行了经验验证。
translated by 谷歌翻译
尽管学习已成为现代信息处理的核心组成部分,但现在有足够的证据表明它可以导致偏见,不安全和有偏见的系统。因此,对学习要求施加要求至关重要,尤其是在达到社会,工业和医疗领域的关键应用程序时。但是,大多数现代统计问题的非跨性别性只有通过限制引入而加剧。尽管通常可以使用经验风险最小化来学习良好的无约束解决方案,即使获得满足统计约束的模型也可能具有挑战性。更重要的是,一个好。在本文中,我们通过在经验双重领域中学习来克服这个问题,在经验的双重领域中,统计学上的统计学习问题变得不受限制和确定性。我们通过界定经验二元性差距来分析这种方法的概括特性 - 即,我们的近似,可拖动解决方案与原始(非凸)统计问题的解决方案之间的差异 - 并提供实用的约束学习算法。这些结果建立了与经典学习理论的约束,从而可以明确地在学习中使用约束。我们说明了这种理论和算法受到速率受限的学习应用,这是在公平和对抗性鲁棒性中产生的。
translated by 谷歌翻译
图形神经网络(GNNS)使用图形卷积来利用网络不向导并从网络数据中学习有意义的特征表示。但是,在大规模图中,卷积以高计算成本产生,导致可伸缩性限制。在本文中,我们考虑了学习图形神经网络(WNN)的问题 - GNN的极限对象 - 通过训练从Graphon采样的图形上,我们考虑了学习GragraN神经网络(WNN)的问题。在平滑性条件下,我们表明:(i)GNN和WNN上的学习步骤之间的预期距离随图形的尺寸渐近地降低,并且(ii)在一系列生长图上训练时,梯度下降遵循WNN的学习方向。受这些结果的启发,我们提出了一种新型算法,以学习大规模图的GNN,从中等数量的节点开始,在训练过程中依次增加了图的大小。该算法是在分散的控制问题上进一步基准的,在该问题下,它以降低的计算成本保留了与大规模对应物相当的性能。
translated by 谷歌翻译
该工作研究限制了随机函数是凸的,并表示为随机函数的组成。问题是在公平分类,公平回归和排队系统设计的背景下出现的。特别令人感兴趣的是甲骨文提供组成函数的随机梯度的大规模设置,目标是用最小对Oracle的调用来解决问题。由于组成形式,Oracle提供的随机梯度不会产生目标或约束梯度的无偏估计。取而代之的是,我们通过跟踪内部函数评估来构建近似梯度,从而导致准差鞍点算法。我们证明,所提出的算法几乎可以肯定地找到最佳和可行的解决方案。我们进一步确定所提出的算法需要$ \ MATHCAL {O}(1/\ EPSILON^4)$数据样本,以便获得$ \ epsilon $ -Approximate-approximate-apptroximate Pointal点,同时也确保零约束违反。该结果与无约束问题的随机成分梯度下降方法的样品复杂性相匹配,并改善了受约束设置的最著名样品复杂性结果。在公平分类和公平回归问题上测试了所提出的算法的功效。数值结果表明,根据收敛速率,所提出的算法优于最新算法。
translated by 谷歌翻译
In this paper we propose a pooling approach for convolutional information processing on graphs relying on the theory of graphons and limits of dense graph sequences. We present three methods that exploit the induced graphon representation of graphs and graph signals on partitions of [0, 1]2 in the graphon space. As a result we derive low dimensional representations of the convolutional operators, while a dimensionality reduction of the signals is achieved by simple local interpolation of functions in L2([0, 1]). We prove that those low dimensional representations constitute a convergent sequence of graphs and graph signals, respectively. The methods proposed and the theoretical guarantees that we provide show that the reduced graphs and signals inherit spectral-structural properties of the original quantities. We evaluate our approach with a set of numerical experiments performed on graph neural networks (GNNs) that rely on graphon pooling. We observe that graphon pooling performs significantly better than other approaches proposed in the literature when dimensionality reduction ratios between layers are large. We also observe that when graphon pooling is used we have, in general, less overfitting and lower computational cost.
translated by 谷歌翻译
为时空网络数据设计和分析学习模型对于包括预测,异常检测和多机构协调等任务非常重要。图形卷积神经网络(GCNN)是一种从时间不变的网络数据中学习的既定方法。图卷积操作提供了一种原则方法来汇总多分辨率信息。但是,将卷积原则性学习和各自的分析扩展到时空结构域是具有挑战性的,因为时空数据具有更多的固有依赖性。因此,需要更高的灵活性来捕获空间和时间依赖性以学习有意义的高阶表示。在这里,我们利用产品图来表示数据中的时空依赖性,并引入图表时间卷积神经网络(GTCNN)作为有原则的体系结构来帮助学习。提出的方法可以与任何类型的产品图一起使用,我们还引入了参数产品图,以学习时空耦合。卷积原理进一步允许与GCNN相似的数学障碍。特别是,稳定性结果表明GTCNN在空间扰动上是稳定的,但是在可区分性和鲁棒性之间存在隐含的权衡。即,模型越复杂,稳定较小。基准数据集的广泛数值结果证实了我们的发现,并显示GTCNN与最先进的解决方案相比有利。我们预计,GTCNN将成为更复杂的模型的起点,这些模型可以实现良好的性能,但从根本上讲是基础的。
translated by 谷歌翻译
We introduce an architecture for processing signals supported on hypergraphs via graph neural networks (GNNs), which we call a Hyper-graph Expansion Neural Network (HENN), and provide the first bounds on the stability and transferability error of a hypergraph signal processing model. To do so, we provide a framework for bounding the stability and transferability error of GNNs across arbitrary graphs via spectral similarity. By bounding the difference between two graph shift operators (GSOs) in the positive semi-definite sense via their eigenvalue spectrum, we show that this error depends only on the properties of the GNN and the magnitude of spectral similarity of the GSOs. Moreover, we show that existing transferability results that assume the graphs are small perturbations of one another, or that the graphs are random and drawn from the same distribution or sampled from the same graphon can be recovered using our approach. Thus, both GNNs and our HENNs (trained using normalized Laplacians as graph shift operators) will be increasingly stable and transferable as the graphs become larger. Experimental results illustrate the importance of considering multiple graph representations in HENN, and show its superior performance when transferability is desired.
translated by 谷歌翻译
这项工作审查了旨在在通信约束下运行的自适应分布式学习策略。我们考虑一个代理网络,必须从持续观察流数据来解决在线优化问题。代理商实施了分布式合作策略,其中允许每个代理商与其邻居执行本地信息交换。为了应对通信约束,必须不可避免地压缩交换信息。我们提出了一种扩散策略,昵称为ACTC(适应 - 压缩 - 然后组合),其依赖于以下步骤:i)每个代理执行具有恒定步长大小的单独随机梯度更新的适应步骤; ii)一种压缩步骤,它利用最近引入的随机压缩操作员;和III)每个代理组合从其邻居接收的压缩更新的组合步骤。这项工作的区别要素如下。首先,我们专注于自适应策略,其中常数(而不是递减)阶梯大小对于实时响应非间断变化至关重要。其次,我们考虑一般的指导图表和左随机组合政策,使我们能够增强拓扑和学习之间的相互作用。第三,与对所有个人代理的成本职能承担强大的凸起的相关作品相比,我们只需要在网络水平的强大凸起,即使单个代理具有强凸的成本,剩余的代理商也不满足凸起成本。第四,我们专注于扩散(而不是共识)战略。在压缩信息的苛刻设置下,建立ACTC迭代在所需的优化器周围波动,在相邻代理之间交换的比特方面取得了显着的节省。
translated by 谷歌翻译
在本文中,我们研究了一类二聚体优化问题,也称为简单的双重优化,在其中,我们将光滑的目标函数最小化,而不是另一个凸的约束优化问题的最佳解决方案集。已经开发了几种解决此类问题的迭代方法。 las,它们的收敛保证并不令人满意,因为它们要么渐近,要么渐近,要么是收敛速度缓慢且最佳的。为了解决这个问题,在本文中,我们介绍了Frank-Wolfe(FW)方法的概括,以解决考虑的问题。我们方法的主要思想是通过切割平面在局部近似低级问题的解决方案集,然后运行FW型更新以减少上层目标。当上层目标是凸面时,我们表明我们的方法需要$ {\ mathcal {o}}(\ max \ {1/\ epsilon_f,1/\ epsilon_g \})$迭代才能找到$ \ \ \ \ \ \ epsilon_f $ - 最佳目标目标和$ \ epsilon_g $ - 最佳目标目标。此外,当高级目标是非convex时,我们的方法需要$ {\ MATHCAL {o}}(\ max \ {1/\ epsilon_f^2,1/(\ epsilon_f \ epsilon_g})查找$(\ epsilon_f,\ epsilon_g)$ - 最佳解决方案。我们进一步证明了在“较低级别问题的老年人错误约束假设”下的更强的融合保证。据我们所知,我们的方法实现了所考虑的二聚体问题的最著名的迭代复杂性。我们还向数值实验提出了数值实验。与最先进的方法相比,展示了我们方法的出色性能。
translated by 谷歌翻译
在本文中,我们研究了考虑基础图的扰动的聚集图神经网络(ag-gnns)的稳定性。 Agg-gnn是一种混合体系结构,在图上定义了信息,但是在图形移位算子上进行了几次扩散后,在节点上的欧几里得CNN对其进行了处理。我们为与通用Agg-GNN关联的映射运算符得出稳定性界限,并指定了该操作员可以稳定变形的条件。我们证明稳定性边界是由在每个节点上作用的CNN的第一层中过滤器的属性定义的。此外,我们表明聚集的数量,滤波器的选择性和稳定性常数的大小之间存在密切的关系。我们还得出结论,在Agg-gnns中,映射运算符的选择性仅在CNN阶段的第一层中与过滤器的属性相关。这显示了相对于选择GNN的稳定性的实质性差异,其中所有层中过滤器的选择性受其稳定性的约束。我们提供了证实结果得出的结果的数值证据,测试了考虑不同幅度扰动的现实生活应用方案中的ag-gnn的行为。
translated by 谷歌翻译
Wasserstein的分布在强大的优化方面已成为强大估计的有力框架,享受良好的样本外部性能保证,良好的正则化效果以及计算上可易处理的双重重新纠正。在这样的框架中,通过将最接近经验分布的所有概率分布中最接近的所有概率分布中最小化的最差预期损失来最大程度地减少估计量。在本文中,我们提出了一个在噪声线性测量中估算未知参数的Wasserstein分布稳定的M估计框架,我们专注于分析此类估计器的平方误差性能的重要且具有挑战性的任务。我们的研究是在现代的高维比例状态下进行的,在该状态下,环境维度和样品数量都以相对的速度进行编码,该速率以编码问题的下/过度参数化的比例。在各向同性高斯特征假设下,我们表明可以恢复平方误差作为凸 - 串联优化问题的解,令人惊讶的是,它在最多四个标量变量中都涉及。据我们所知,这是在Wasserstein分布强劲的M估计背景下研究此问题的第一项工作。
translated by 谷歌翻译
我们考虑多用户无线网络中的资源管理问题,可以将其视为优化网络范围的公用事业功能,这受到整个网络用户长期平均性能的限制。我们提出了一种以国家功能为算法来解决上述无线电资源管理(RRM)问题的算法,在此问题中,与瞬时网络状态相同,RRM策略将其作为输入的双重变量集,这些变量对应于约束,这些变量取决于多少,这些变量取决于多少,这些变量取决于多少。执行过程中违反约束。从理论上讲,我们表明,拟议的国有算法会导致可行且近乎最佳的RRM决策。此外,着重于使用图神经网络(GNN)参数化的无线功率控制问题,我们证明了所提出的RRM算法优于基线方法的优越性,跨基线方法。
translated by 谷歌翻译
二重优化发现在现代机器学习问题中发现了广泛的应用,例如超参数优化,神经体系结构搜索,元学习等。而具有独特的内部最小点(例如,内部功能是强烈凸的,都具有唯一的内在最小点)的理解,这是充分理解的,多个内部最小点的问题仍然是具有挑战性和开放的。为此问题设计的现有算法适用于限制情况,并且不能完全保证融合。在本文中,我们采用了双重优化的重新制定来限制优化,并通过原始的双二线优化(PDBO)算法解决了问题。 PDBO不仅解决了多个内部最小挑战,而且还具有完全一阶效率的情况,而无需涉及二阶Hessian和Jacobian计算,而不是大多数现有的基于梯度的二杆算法。我们进一步表征了PDBO的收敛速率,它是与多个内部最小值的双光线优化的第一个已知的非质合收敛保证。我们的实验证明了所提出的方法的预期性能。
translated by 谷歌翻译
在本文中,我们为基于非交换代数的代数神经网络(ALGNN)提供稳定性结果。 ALGNN是堆叠的分层结构,每个层都与代数信号模型(ASM)相关联,由代数,矢量空间和同态性。信号被建模为矢量空间的元素,过滤器是代数中的元素,而同态则可以实现过滤器作为混凝土操作员。我们研究了代数过滤器在非交换代数对同态扰动中的稳定性,并提供了保证稳定性的条件。我们表明,轮班运算符和偏移和扰动之间的换向性不会影响稳定体系结构的属性。这提供了一个问题,即转移不变性是否是保证稳定性的卷积体系结构的必要属性。此外,我们表明,尽管非交换代数中过滤器的频率响应在交换代数中与过滤器相对于过滤器表现出很大的差异,但它们的稳定过滤器的衍生物具有相似的行为。
translated by 谷歌翻译
Network data are ubiquitous in modern machine learning, with tasks of interest including node classification, node clustering and link prediction. A frequent approach begins by learning an Euclidean embedding of the network, to which algorithms developed for vector-valued data are applied. For large networks, embeddings are learned using stochastic gradient methods where the sub-sampling scheme can be freely chosen. Despite the strong empirical performance of such methods, they are not well understood theoretically. Our work encapsulates representation methods using a subsampling approach, such as node2vec, into a single unifying framework. We prove, under the assumption that the graph is exchangeable, that the distribution of the learned embedding vectors asymptotically decouples. Moreover, we characterize the asymptotic distribution and provided rates of convergence, in terms of the latent parameters, which includes the choice of loss function and the embedding dimension. This provides a theoretical foundation to understand what the embedding vectors represent and how well these methods perform on downstream tasks. Notably, we observe that typically used loss functions may lead to shortcomings, such as a lack of Fisher consistency.
translated by 谷歌翻译
本文重点介绍了静态和时变设置中决策依赖性分布的随机鞍点问题。这些是目标是随机收益函数的预期值,其中随机变量从分布图引起的分布中绘制。对于一般分布地图,即使已知分布是已知的,发现鞍点的问题也是一般的计算繁琐。为了实现易求解的解决方案方法,我们介绍了均衡点的概念 - 这是它们诱导的静止随机最小值问题的马鞍点 - 并为其存在和唯一性提供条件。我们证明,两个类解决方案之间的距离被界定,条件是该目标具有强凸强 - 凹入的收益和Lipschitz连续分布图。我们开发确定性和随机的原始算法,并证明它们对均衡点的收敛性。特别是,通过将来自随机梯度估计器的出现的错误建模为子-Weibull随机变量,我们提供期望的错误界限,并且在每个迭代的高概率中提供的误差;此外,我们向期望和几乎肯定地显示给社区的融合。最后,我们调查了分布地图的条件 - 我们调用相反的混合优势 - 确保目标是强烈的凸强 - 凹陷的。在这种假设下,我们表明原始双算法以类似的方式汇集到鞍座点。
translated by 谷歌翻译
Two-level stochastic optimization formulations have become instrumental in a number of machine learning contexts such as continual learning, neural architecture search, adversarial learning, and hyperparameter tuning. Practical stochastic bilevel optimization problems become challenging in optimization or learning scenarios where the number of variables is high or there are constraints. In this paper, we introduce a bilevel stochastic gradient method for bilevel problems with lower-level constraints. We also present a comprehensive convergence theory that covers all inexact calculations of the adjoint gradient (also called hypergradient) and addresses both the lower-level unconstrained and constrained cases. To promote the use of bilevel optimization in large-scale learning, we introduce a practical bilevel stochastic gradient method (BSG-1) that does not require second-order derivatives and, in the lower-level unconstrained case, dismisses any system solves and matrix-vector products.
translated by 谷歌翻译
We study distributionally robust optimization (DRO) with Sinkhorn distance -- a variant of Wasserstein distance based on entropic regularization. We provide convex programming dual reformulation for a general nominal distribution. Compared with Wasserstein DRO, it is computationally tractable for a larger class of loss functions, and its worst-case distribution is more reasonable. We propose an efficient first-order algorithm with bisection search to solve the dual reformulation. We demonstrate that our proposed algorithm finds $\delta$-optimal solution of the new DRO formulation with computation cost $\tilde{O}(\delta^{-3})$ and memory cost $\tilde{O}(\delta^{-2})$, and the computation cost further improves to $\tilde{O}(\delta^{-2})$ when the loss function is smooth. Finally, we provide various numerical examples using both synthetic and real data to demonstrate its competitive performance and light computational speed.
translated by 谷歌翻译
图表神经网络(GNNS)最近已经证明了在各种基于网络的任务中表现出良好的基于​​网络的任务,例如分散控制和资源分配,并为这些任务提供传统上在这方面挑战的计算有效方法。然而,与许多基于神经网络的系统一样,GNN易于在其输入上移动和扰动,其可以包括节点属性和图形结构。为了使它们更有用的真实应用程序,重要的是确保其稳健性后部署。通过控制GNN滤波器的LIPSChitz常数相对于节点属性来激励,我们建议约束GNN过滤器组的频率响应。我们使用连续频率响应约束将该配方扩展到动态图形设置,并通过方案方法解决问题的轻松变体。这允许在采样约束上使用相同的计算上有效的算法,这为PAC-Sique提供了在GNN的稳定性上使用方案优化的结果提供了PAC样式的保证。我们还突出了该设置和GNN稳定性与图形扰动之间的重要联系,并提供了实验结果,证明了我们方法的功效和宽广。
translated by 谷歌翻译